FoLiA dilbilimsel olarak işaretlenmiş dil kaynaklarının temsil edilebileceği XML-tabanlı bir işaretleme formatıdır. FoLiA’nın amacı dil kaynaklarının saklanmasını ve/veya paylaşılmasını sağlayacak bir format olmaktır, derlemler buna dahildir. Amacımız tek bir genel paradigma kullanarak çok çeşitli olabilen dilbilimsel işaretleme şekillerini destekleyebilecek zengin bir format tanıtmaktır. Kendimizi herhangi bir etiket kümesiyle, dille veya dilbilimsel teoriyle sınırlandırmıyoruz. Bu her zaman dil kaynağı geliştiricisine bırakılmakta, ayrıca bu şekilde maksimum esneklik sağlanmaktadır.
XML tanımı gereği hiyerarşik bir yapıdadır. FoLiA da buna hiyerarşik ve satıriçi yapıyı kullanarak uyar.
FoLiA’nın temel özellikleri aşağıdaki gibidir:
- Genelleştirilmiş paradigma: Genel bir paradigma kullanıyoruz, işaretleme şekilleri için özel eklemeleri olabildiğince az sayıda tutuyoruz.
- Açıklayıcılık: Format yüksek oranda açıklayıcı olarak tasarlanmıştır, işaret tipleri kullanıcının gereksinimlerine göre ayrıntılı ve esnek bir şekilde tanımlanabilir, istenmeyen ayrıntılar konusunda bir gereklilik yoktur. Ayrıca, FoLiA işaretleme alternatifleri ve işaretleyici bilgisi, işaretleme zamanı ve işaretlemeye olan güven gibi işaretleme meta verilerini genelleştirilmiş bir şekilde desteklemektedir.
- Genişletilebilir: Genel paradigma ve herhangi bir etiket kümesine bağlı olmamasından dolayı FoLiA oldukça kolay bir şekilde genişletilebilir.
- Formallik: Format formal bir yapıya sahiptir, ve yüzeysel veya derin seviyede geçerliliği kontrol edilebilir (sonuncusu etiket seti kontrolü içerir), ve kolaylıkla otomatik bir şekilde dilbilimsel ünitelerine ayrıştırılabilir, bunlar için gerekli araçlar sağlanmaktadır.
- Pratiklik: FoLiA aşağıdan yukarıya bir tarzda uygulamalar, kütüphaneler ve diğer araçlar ve çeviricilerle birlikte geliştirilmiştir. Format zengin bir içeriğe sahipken, onu olabildiğince basit ve açık tutmaya çalışıyoruz, bu şekilde bu formatın öğrenilebilmesini kolaylaştırmak ve pratik uygulamalarda kullanılabilmesini sağlamak amacındayız.
FoLiA formatı satıriçi ve satıriçi olmayan işaretlemeleri birlikte kullanır. Satıriçi işaretlemeler tek bir simge (token) için kullanılırken, satıriçi olmayan işaretlemeler birkaç simgeyi kapsayan işaretleme şekilleri için ayrı katmanlar halinde kullanılır. Bu FoLiA’ya pek çok çeşit işaretleme şeklini temsil edebilmesi için gerekli olan esnekliği ve genişletilebilirliği sağlamaktadır.
Paradigma Şeması
Kaynaklar
FoLiA’nın son sürümüne ait dökümantasyon, geçerlilik şeması ve diğer kaynakları aşağıda bulabilirsiniz. Mevcut tüm kaynaklara ulaşmak için FoLiA’nın GitHub deposunu kontrol ediniz.
- FoLiA dökümantasyonu (PDF)
- FoLiA github kod deposu (çevirici betikler, şemalar XML stylesheet'ler, vb.)
- FoLiA RelaxNG schema (geçerliliği kontol için)
- Bit FoLiA dökümanı örneği (XSL aracılığıyla tarayıcı içi görüntüleme içerecek şekilde, XML için kaynak koduna bakınız)
Kendi betiklerinizin ve uygulamalarınızın içinden FoLiA formatı ile çalışabilmeniz için iki yazılım kütüphanesi bulunmaktadır. Bu kütüphanelerin geliştirilmesi aktif bir şekilde devam ettiği için güncellemeleri takip ettiğinizden emin olunuz.
- pynlpl.formats.folia (Python kütüphanesi) - yazarı Maarten van Gompel, PyNLPl kütüphanesinin bir bölümü olarak dağıtılmaktadır.
- Kütüphane dökümantasyonu (Tanıtıcı notlar ve API referans dökümanı)
- pynlpl Python Paket İndeksi veya direkt GitHub kod deposundan edinmenizi öneririz, bu şekilde son versiyonu edindiğinizden emin olabilirsiniz, güncellemeleri takip etmek için: $ sudo pip install pynlpl
- libfolia (C++ library) - yazari Ko van der Sloot, Tilburg Üniversitesi.
- Daha herhangi bir dökümantasyon bulunmamaktadır.
- Not: libfolia hem Frog hem de ucto araçları için gereklidir. Onları derlemeniz gerekecektir.
Web tabanlı bir işaretleme ortamı mevcuttur, FoLiA dökümanlarını yaratmayı ve düzenlemeyi sağlar:
- FLAT: FoLiA Linguistic Annotation Tool - FoLiA için web tabanlı işaretleme ortamı
Yayınlar
Çalışmalarınızda FoLiA’yı kullanırsanız, lütfen aşağıdaki yayınların birini veya daha çoğunu referans olarak gösteriniz:
- [PDF|BibTex] Maarten van Gompel & Martin Reynaert (2014). FoLiA: A practical XML format for linguistic annotation - a descriptive and comparative study; Computational Linguistics in the Netherlands Journal; 3:63-81; 2013.
- [PDF] Maarten van Gompel (2014). FoLiA: Format for Linguistic Annotation. Documentation Language and Speech Technology Technical Report Series LST-14-01. Radboud University Nijmegen.
- Maarten van Gompel (2012). FoLiA: Format for Linguistic Annotation. Documentation. ILK Technical Report 12-03. Tilburg University
Poster & Sunumlar
- [PNG] Maarten van Gompel (2013). Poster: FoLiA: Format for Linguistic Annotation. Gepresenteerd voor CLARIN-NL, Utrecht University
- [PDF] Maarten van Gompel (2012). Presentation: FoLiA: Format for Linguistic Annotation. Gepresenteerd tijdens CLIN22. Tilburg University
FoLiA halihazırda Hollandaca ve Flemenkçe doğal dil işleme alanı araştırma camiası tarafından pek çok projede kullanılmaktadır. En büyük Hollandaca derlemi olan SoNaR FoLiA formatı ile dağıtılmaktadır, ayrıca çeşitli CLARIN projeleri de bu formatı kullanmaktadır. FoLiA desteği çeşitli yazılım projelerine entegre edilmiştir; mesela ucto, Frog, Valkuil.net.
FoLiA Maarten van Gompel tarafından, Antal van den Bosch, Ko van der Sloot, Martin Reynaert ve akademik camiadan pek çok kişinin katkılarıyla Tilburg üniversitesinde geliştirilmiş ve şimdi Radboud Üniversitesinde devam etmektedir.
FoLiA açık kaynaktır ve tüm teknik kaynaklar GNU Public Licence v3 ile lisanslanmıştır.