Centre for Language and Speech Technology

FoLiA Formaat voor Linguïstische Annotatie

“Een praktisch XML Formaat voor Linguïstische Annotatie„

Over FoLiA

FoLiA is een op XML gebaseerd formaat, geschikt voor het representeren van linguïstisch geannoteerde data zoals corpora. FoLiA is bedoeld als een formaat voor het opslaan en uitwisselen van linguïstisch-geannoteerde data. Het doel is om verschillende linguïstische annotaties te ondersteunen in één enkel rijk formaat met een generiek paradigma. We commiteren ons niet aan een bepaalde label set, taal, of linguïstische theorie. Deze keus is altijd aan de ontwikkelaar van de data, en geeft zo maximale flexibiliteit.

XML is een hiërarchisch formaat. FoLiA doet hier recht aan door waar mogelijk een hiërarchische inline aanpak te volgen.

Ons doel met FoLiA is niet om zomaar nóg een ander formaat te introduceren, maar om een rijke en praktische infrastuctuur rondom het formaat te bouwen. Dit omvat diverse soorten software, bibliotheken en conversieprogramma's.

Kenmerken

De hoofdkenmerken van FoLiA zijn:

FoLiA maakt gebruik van zowel inline als stand-off annotatie. Inline annotatie wordt gebruikt voor annotaties behorende bij tokens of onder andere structuurelementen. Stand-off annotatie wordt gebruikt voor annotaties die over een spanne van meerde tokens rijken en worden in een speciale annotatielaag opgenomen die op verschillende niveaus ingebed kan worden. Dit geeft FoLiA de nodige flexibiliteit om met verschillende soorten annotaties om te kunnen gaan.

FoLiA Paradigma

FoLiA paradigma

Documentatie, implementaties en andere materialen

Hieronder zijn links naar onder andere de documentatie, het validatieschema, links naar implementaties en andere zaken te vinden. Zie ook de FoLiA github repository voor alle beschikbare tools en code.

Twee software-bibliotheken zijn beschikbaar om met het FoLiA te werken vanuit uw eigen scripts en applicaties. Kijk geregeld terug voor updates, want beide zijn volop in ontwikkeling.

Er is ook een web-gebaseerde annotatieomgeving beschikbaar om FoLiA bestanden te creeëren en bewerken.

Voor verdere ondersteuning kunt onze Issue tracker gebruiken of mailen naar lamasoftware@science.ru.nl .

Publicaties

Als je gebruikt maakt van FoLiA, citeer dan één van de volgende publicaties:

Posters & Presentaties

FoLiA wordt momenteel door veel verschillende projecten in de Nederlandse en Vlaamse Computerlinguïstiek-gemeenschap gebruikt. Het grootste Nederlandstalige corpus, SoNaR, is in FoLiA beschikbaar, en verschillende CLARIN projekten maken ook gebruik van FoLiA. Verder is FoLiA-ondersteuning geïntegreerd in verschillende software-pakketten, waaronder ucto, Frog en Valkuil.net.

FoLiA s ontwikkeld door Maarten van Gompel, eerst aan de Universiteit van Tilburg en daarna aan de Radboud Universiteit Nijmegen, met bijdragen van Antal van den Bosch, Ko van der Sloot, Martin Reynaert en anderen.

FoLiA is open-source en beschikbaar onder de termen van de GNU Publieke Licentie v3.

badge