Centre for Language and Speech Technology

FoLiA Format pour l'Annotation Linguistique

FoLiA c'est quoi?

FoLiA est un format de base XML pour la représentation des ressources linguistiques annotées. L'objectif de FoLiA est d'être un format pour stockage et échange des ressources linguistiques, corpora inclus. Nous voulons introduire un seul format riche capable de représenter les différents types d'annotation, à travers un paradigme général. FoLiA n'est pas limité à aucun ensemble d'étiquettes linguistiques, aucune langue ou aucune théorie linguistique spécifique. On laisse toujours ça à l'utilisateur, pour ainsi offrir une flexibilité maximale.

XML est un format hiérarchique. FoLiA en profite en utilisant une structure in-line et hierarchique.

Le but de FoLiA n'est pas d'offir encore un autre format, mais de construire une infrastructure riche et pratique de logiciels et bibliothèques qui utilisent ce format.

Charactéristiques

Les charactéristiques principales de FoLiA sont:

FoLiA combine l'utilisation d'annotation 'in-line' et 'stand-off'. Ce premier est utilisé pour des annotations concernants des mots/termes uniques, alors que l'annotation stand-off est utilisé pour les annotations sur plusieurs termes. Ceci donne à FoLiA la flexibilité et expressivité essentiel pour le soutien de divers types d'annotation linguistique.

Schème du paradigme

FoLiA paradigma

Ressources

Ici vous trouverez la documentation, schéma de validation et des autres ressources pour la dernière version de FoLiA. Consultez la dépôt de FoLiA sur github pour y trouver tous les ressources.

Il y a deux bibliothèques pour travailler avec le format FoLiA à partir de vos propres scripts et programmes. Vérifiez fréquemment si votre copie peut être actualisé:

Il y a aussi un logiciel d'annotation pour FoLiA.

Pour soutien supplémentaire vous pouvez nous écrire à lamasoftware@science.ru.nl.

Publications & Utilisation

FoLiA est utilisé dans divers projects dans les communautés Néerlandaises et Flamandes de linguistique computationnelle. Le plus grand corpus néerlandais, SoNaR, est publié au format FoLiA. On l'utilise aussi dans certains projets de CLARIN. FoLiA a aussi été integré dans software comme ucto, Frog, Valkuil.net.

FoLiA est développé par Maarten van Gompel à l'université de Tilburg et maintenant à l'université Radboud Nijmegen, avec soutien de Antal van den Bosch, Ko van der Sloot, Martin Reynaert et des autres collègues de la communauté universitaire. Si vous utilisez FoLiA, vous pouvez nous citer comme:

On à aussi quelques présentations:

FoLiA est logiciel livre et sous license GNU License Publique v3.

badge