Über FoLiA
FoLiA ist ein auf XML-basierendes Format für die Annotation linguistischer Dateien. FoLiA ist für die Speicherung und den Austausch solcher Ressourcen geeignet. Das Ziel ist ein einheitlichen Format zu entwickeln, das auf einem allgemeinen Paradigma basiert, um verschiedene Arten linguistischer Annotation zu unterstützen. FoLiA schliesst sich keinem spezifischen Label-set, keiner Sprache und keiner linguistischen Theorie an. Der Benutzer ist darin ganz unabhängig, das macht FoLiA sehr flexibel.
XML ist ein hierarchisches Format. FoLiA nutzt diese Struktur optimal und folgt wo möglich einer in-line hierarchischen Methode.
Eigenschaften
Wichtige eigenschaften des FoLiA Formats sind:
- Allgemeines Paradigma - Wir benutzen ein allgemeines Paradigma und verwenden dabei so wenig möglich ad-hoc Lösungen.
- Expressivität - Das Format ist sehr expressiv. Annotationen können sehr ausführlich angesetzt werden, wenn der Benutzer möchte. Außerdem gibt es auch Unterstützung um alternative Annotationen dar zu stellen und man kann Metadaten den Annotationen hinzufügen, wie zum Beispiel Informationen über den Bearbeiter, den Zeitpunkt der Bearbeitung und das Vertrauen in die Annotation.
- Erweiterbar - Wegen des generellen Paradigmas und dank der Tatsache, dass FoLiA keine festen Label-Sets benutzt, ist das Format einfach erweiterbar.
- Formalisiert - Das Format kan man auf oberflächligem und tiefem Niveau validieren. Das Format ist einfach von Rechner zu parsen, es gibt dafür auch einige Bibliotheken und Hilfsprogramme.
- Praktisch - Das FoLiA Format ist auf eine `bottom-up` Art entwickelt, zusammen mit Applikationen, Hilfsprogrammen und Bibliotheken. Weil das Format sehr umfangreich ist, halten wir es so einfach wie möglich um damit die Annahme und Verwendung des Formats zu ermutigen.
FoLiA benutzt in-line sowie stand-off Annotation. In-line Annotation bezieht sich auf einzelne Wörter oder Strukturelemente, wogegen stand-off Annotation mehrere Wörter umspannt. Stand-off Annotation wird in separate Annonationslagen aufgenommen. FoLiA bietet so eine hohe Flexibilität um verschiedene Arten linguistischer Annotation zu ermoeglichen.
Schema des FoLiA Paradigmas

Ressourcen
Hier finden Sie Links zu der Dokumentation, dem RelaxNG Schema, und zu Bibliotheken. Sie finden Alles auch in der FoLiA Seite auf github.
- FoLiA Dokumentation (PDF, auf Englisch)
- FoLiA sourcecode (enthält Konverter, Schemas, usw)
- FoLiA RelaxNG Schema
- Beispiel FoLiA Dokument (mit Visualisation im Browser)
Zwei Softwarebibliotheken sind verfügbar um mit FoLiA Dokumenten in Ihrer eigenen Sofware und Scripts zu arbeiten. Kontrolieren Sie am Besten regelmässig, ob eine neue Version verfügbar ist, FoLiA sich noch in der Entwicklungsphase befindet.
- pynlpl.formats.folia (für Python) - von Maarten van Gompel, distribuiert als Teil von PyNLPl.
- Dokumentation der Python Bibliothek (auf Englisch)
- Wir empfehlen pynlpl herunter zu laden vom Python Package Index oder github, auf diese Weise können Sie das einfach aktualisieren: $ sudo pip install pynlpl
- libfolia (für C++) - von Ko van der Sloot, Universität Tilburg
- Noch keine Dokumentation verfügbar
- Achtung: Man benötigt libfolia um Frog sowie ucto zu kompilieren!
Es gibt auch ein web-basiertes Annotationsumgebung für FoLiA:
- FLAT: FoLiA Linguistic Annotation Tool - Web-basiertes Annotationsumgebung
Für weitere Unterstützung können Sie uns an lamasoftware@science.ru.nl immer anschreiben.
Publikationen und Einsatz
FoLiA wird von verschiedenen Projekten in den niederländischen und flämischen Computerlinguistikgesellschaften verwendet. Das größte Niederländische Korpus, SoNaR, wurde im FoLiA Format veröffentlicht. Es gibt auch manche CLARIN Projekte, die FoLiA verwenden. FoLiA Unterstützung ist in mehrere Software-Pakete integriert, wie ucto, Frog und Valkuil.net.
FoLiA wurde von Maarten van Gompel an der Universät Tilburg und derzeit an der Radboud Universität Nijmegen entwickelt, mit der Hilfe von Antal van den Bosch, Ko van der Sloot, Martin Reynaert und anderen. Publikationen von Forschung, die FoLiA verwendet, können auf FoLiA mit folgender Referenz verweisen:
- [PDF|BibTex] Maarten van Gompel & Martin Reynaert (2014). FoLiA: A practical XML format for linguistic annotation - a descriptive and comparative study; Computational Linguistics in the Netherlands Journal; 3:63-81; 2013.
- [PDF] Maarten van Gompel (2014). FoLiA: Format for Linguistic Annotation. Documentation Language and Speech Technology Technical Report Series LST-14-01. Radboud University Nijmegen.
- Maarten van Gompel (2012). FoLiA: Format for Linguistic Annotation. Documentation. ILK Technical Report 12-03. Tilburg University
Es gibt auch noch manche Presentationen und Posters
- [PNG] Maarten van Gompel (2013). Poster: FoLiA: Format for Linguistic Annotation. CLARIN-NL, Utrecht University
- [PDF] Maarten van Gompel (2012). Presentation: FoLiA: Format for Linguistic Annotation. CLIN22. Tilburg University
FoLiA ist open-source und verfügbar unter der GNU Öffentlichen Lizenz v3.