Sobre FoLiA
FoLiA es un formato basado en XML para la representación de recursos annotados língüísticalmente. FoLiA se usa como formato para almacenar y intercambiar recursos lingüísticos, corpora incluso. El objetivo es de ofrecer un solo formato muy rico que puede representar una grande variedad de anotación lingüística, basado en un paradigma común. FoLiA no se obliga al uso de ningún conjunto de etiquetas lingúísticas, idioma, ni teoría lingüística. Este lo deja siempre a los usuários o desarrolladores, y así FoLiA ofrece una máxima flexibilidad.
XML es un formato jerárquico. FoLiA utiliza esa structura jerárquica maximalmente con su modelo de anotación in-line
El objetivo de FoLiA no es de ofrecer solo un formato, sino de crear una infastructura rica y práctica de software y librarías usando el formato.
Características
Las características principales de FoLiA son:
- Paradigma generalizado - Hay un paradigma generalizado, evitando cualquiera solución ad-hoc.
- Expressividad - El formato es muy expressivo. Se puede representar anotaciones en gran detalle y flexibilidad. Solo exigido por el usuario/desarrolador, FoLiA no obliga a specificar detalles no deseados. FoLiA sabe también representar anotaciónes alternativas, y metadata sobre anotaciones como información sobre el anotador, tiempo de anotación, confidencía, etc..
- Extensible - Gracias al paradigma generalizado y el hecho que no se limita a ningún conjunto de etiquetas lingüísticas, idioma, ni teoría lingüística, FoLiA es bastante extensible.
- Formalizado - El formato es formalizado y documentos son validables en un nível superficial y un nivel profundo (el último incluye validación de las etiquetas lingüísticas).
- Práctico - FoLiA ha sido desarrolado de forma
bottom-up . Esto significa que aplicaciónes, bibliotecas han sido desarrollos junto con el formato mismo. Aunque que el formato es rico y verboso, lo tratamos de mantenerlo simple para que otros pueden adoptarlo facilmente en aplicaciónes.
FoLiA combina el uso de anotación in-line y stand-off. anotación inline se usa para anotaciones perteneciendo a palabras sueltas, o a otras construcciónes sueltas. Stand-off anotación se usa para esas anotaciones que abarcan varias palabras.
Esquema del paradigma

Recursos
La documentación, el esquema de validación y otros recursos para la última versión de FoLiA se puede encontrar aquí debajo. Se puede también consultar el FoLiA github repository para verlo todo.
- Documentación de FoLiA (PDF, en inglés)
- Código de FoLiA en github (contiene convertidores, esquemas, etc)
- FoLiA RelaxNG esquema (para validacíón)
- Ejemplo de un documento FoLiA (con visualización por XSL, consulta el fuente para XML)
Hay dos bibliotecas para trabajar con el formato FoLiA en tu proprio software:
- pynlpl.formats.folia (Biblioteca para python) - por Maarten van Gompel, distribuido como parte de PyNLPl
- Documentación de la biblioteca (tutorial y referencía API)
- PyNLPL es obtenible del Python Package Index o directamente de github. Así se puede facilmente mantener tu copia actualizada, instálalo por: $ sudo pip install pynlpl
- libfolia (biblioteca para C++) - por Ko van der Sloot.
- Todavía no hay documentación
- libfolia es una dependencía para Frog y ucto.
Hay también una herramienta de anotación para FoLiA:
- FLAT: FoLiA Linguistic Annotation Tool - Herramienta en línea para anotación lingüística con FoLiA
Para más suporte puedes siempre mandar un mensaje a lamasoftware@science.ru.nl.
Publicaciones y Utilización
FoLiA se utiliza en varios proyectos en la comunidad de lingüística computacional en los Paísos Bajos y Flandes, también se lo utiliza en algunos proyectos CLARIN. Soporte para FoLiA está integrado en varias aplicaciones, como ucto, Frog, y Valkuil.net.
FoLiA es creado por Maarten van Gompel, con apoyo de Antal van den Bosch, Ko van der Sloot, Martin Reynaert y otras personas en la comunidad académica. En estudios que usan FoLiA, se puede citarnos como:
- [PDF|BibTex] Maarten van Gompel & Martin Reynaert (2014). FoLiA: A practical XML format for linguistic annotation - a descriptive and comparative study; Computational Linguistics in the Netherlands Journal; 3:63-81; 2013.
- [PDF] Maarten van Gompel (2014). FoLiA: Format for Linguistic Annotation. Documentation Language and Speech Technology Technical Report Series LST-14-01. Radboud University Nijmegen.
- Maarten van Gompel (2012). FoLiA: Format for Linguistic Annotation. Documentation. ILK Technical Report 12-03. Tilburg University
Hay también algunas presentaciónes:
- [PNG] Maarten van Gompel (2013). Poster: FoLiA: Format for Linguistic Annotation. CLARIN-NL, Utrecht University
- [PDF] Maarten van Gompel (2012). Presentation: FoLiA: Format for Linguistic Annotation. CLIN22. Tilburg University
FoLiA es software libre y todos los recursos son bajo GNU Licencia Pública v3.