Centre for Language and Speech Technology

FoLiA Format für Linguistische Annotation

“Ein praktisches auf XML-basierendes Format für die Annotation linguistischer Dateien.„

Über FoLiA

FoLiA ist ein auf XML-basierendes Format für die Annotation linguistischer Dateien. FoLiA ist für die Speicherung und den Austausch solcher Ressourcen geeignet. Das Ziel ist ein einheitlichen Format zu entwickeln, das auf einem allgemeinen Paradigma basiert, um verschiedene Arten linguistischer Annotation zu unterstützen. FoLiA schliesst sich keinem spezifischen Label-set, keiner Sprache und keiner linguistischen Theorie an. Der Benutzer ist darin ganz unabhängig, das macht FoLiA sehr flexibel.

XML ist ein hierarchisches Format. FoLiA nutzt diese Struktur optimal und folgt wo möglich einer in-line hierarchischen Methode.

Eigenschaften

Wichtige eigenschaften des FoLiA Formats sind:

FoLiA benutzt in-line sowie stand-off Annotation. In-line Annotation bezieht sich auf einzelne Wörter oder Strukturelemente, wogegen stand-off Annotation mehrere Wörter umspannt. Stand-off Annotation wird in separate Annonationslagen aufgenommen. FoLiA bietet so eine hohe Flexibilität um verschiedene Arten linguistischer Annotation zu ermoeglichen.

Schema des FoLiA Paradigmas

FoLiA paradigma

Ressourcen

Hier finden Sie Links zu der Dokumentation, dem RelaxNG Schema, und zu Bibliotheken. Sie finden Alles auch in der FoLiA Seite auf github.

Zwei Softwarebibliotheken sind verfügbar um mit FoLiA Dokumenten in Ihrer eigenen Sofware und Scripts zu arbeiten. Kontrolieren Sie am Besten regelmässig, ob eine neue Version verfügbar ist, FoLiA sich noch in der Entwicklungsphase befindet.

Es gibt auch ein web-basiertes Annotationsumgebung für FoLiA:

Für weitere Unterstützung können Sie uns an lamasoftware@science.ru.nl immer anschreiben.

Publikationen und Einsatz

FoLiA wird von verschiedenen Projekten in den niederländischen und flämischen Computerlinguistikgesellschaften verwendet. Das größte Niederländische Korpus, SoNaR, wurde im FoLiA Format veröffentlicht. Es gibt auch manche CLARIN Projekte, die FoLiA verwenden. FoLiA Unterstützung ist in mehrere Software-Pakete integriert, wie ucto, Frog und Valkuil.net.

FoLiA wurde von Maarten van Gompel an der Universät Tilburg und derzeit an der Radboud Universität Nijmegen entwickelt, mit der Hilfe von Antal van den Bosch, Ko van der Sloot, Martin Reynaert und anderen. Publikationen von Forschung, die FoLiA verwendet, können auf FoLiA mit folgender Referenz verweisen:

Es gibt auch noch manche Presentationen und Posters

FoLiA ist open-source und verfügbar unter der GNU Öffentlichen Lizenz v3.

badge