Centre for Language and Speech Technology

FoLiA Dilbilimsel İşaretleme Formatı

FoLiA dilbilimsel olarak işaretlenmiş dil kaynaklarının temsil edilebileceği XML-tabanlı bir işaretleme formatıdır. FoLiA’nın amacı dil kaynaklarının saklanmasını ve/veya paylaşılmasını sağlayacak bir format olmaktır, derlemler buna dahildir. Amacımız tek bir genel paradigma kullanarak çok çeşitli olabilen dilbilimsel işaretleme şekillerini destekleyebilecek zengin bir format tanıtmaktır. Kendimizi herhangi bir etiket kümesiyle, dille veya dilbilimsel teoriyle sınırlandırmıyoruz. Bu her zaman dil kaynağı geliştiricisine bırakılmakta, ayrıca bu şekilde maksimum esneklik sağlanmaktadır.

XML tanımı gereği hiyerarşik bir yapıdadır. FoLiA da buna hiyerarşik ve satıriçi yapıyı kullanarak uyar.

FoLiA’nın temel özellikleri aşağıdaki gibidir:

FoLiA formatı satıriçi ve satıriçi olmayan işaretlemeleri birlikte kullanır. Satıriçi işaretlemeler tek bir simge (token) için kullanılırken, satıriçi olmayan işaretlemeler birkaç simgeyi kapsayan işaretleme şekilleri için ayrı katmanlar halinde kullanılır. Bu FoLiA’ya pek çok çeşit işaretleme şeklini temsil edebilmesi için gerekli olan esnekliği ve genişletilebilirliği sağlamaktadır.

Paradigma Şeması

FoLiA paradigma

Kaynaklar

FoLiA’nın son sürümüne ait dökümantasyon, geçerlilik şeması ve diğer kaynakları aşağıda bulabilirsiniz. Mevcut tüm kaynaklara ulaşmak için FoLiA’nın GitHub deposunu kontrol ediniz.

Kendi betiklerinizin ve uygulamalarınızın içinden FoLiA formatı ile çalışabilmeniz için iki yazılım kütüphanesi bulunmaktadır. Bu kütüphanelerin geliştirilmesi aktif bir şekilde devam ettiği için güncellemeleri takip ettiğinizden emin olunuz.

Web tabanlı bir işaretleme ortamı mevcuttur, FoLiA dökümanlarını yaratmayı ve düzenlemeyi sağlar:

Yayınlar

Çalışmalarınızda FoLiA’yı kullanırsanız, lütfen aşağıdaki yayınların birini veya daha çoğunu referans olarak gösteriniz:

Poster & Sunumlar

FoLiA halihazırda Hollandaca ve Flemenkçe doğal dil işleme alanı araştırma camiası tarafından pek çok projede kullanılmaktadır. En büyük Hollandaca derlemi olan SoNaR FoLiA formatı ile dağıtılmaktadır, ayrıca çeşitli CLARIN projeleri de bu formatı kullanmaktadır. FoLiA desteği çeşitli yazılım projelerine entegre edilmiştir; mesela ucto, Frog, Valkuil.net.

FoLiA Maarten van Gompel tarafından, Antal van den Bosch, Ko van der Sloot, Martin Reynaert ve akademik camiadan pek çok kişinin katkılarıyla Tilburg üniversitesinde geliştirilmiş ve şimdi Radboud Üniversitesinde devam etmektedir.

FoLiA açık kaynaktır ve tüm teknik kaynaklar GNU Public Licence v3 ile lisanslanmıştır.

badge