Sobre FoLiA
FoLiA é um formato baseado em XML pela representação de recursos annotados linguisticalmente. FoLiA é usado como formato para armazenar recursos linguisticos, como corpora. O objetivo é de oferecer um formato rico que pode representar uma grande variedade de annotações linguisticas, baseado num paradigma comúm. FoLiA não obriga o uso de um determindo conjunto de etiquetas linguisticas, língua ou teoria linguística. O utilizador sempre pode escolher isso em liberdade, e assim FoLiA oferece uma máxima flexibilidade.
XML é o um formato hierárquico. FoLiA segue a structura hierárquica maximalmente com o seu modelo de annotação
O objetivo de FoLiA não é só de entregar ainda outro formato, mas de criar uma infrastructura rica e práctica de software y bibliotecas que empregam o formato.
Características
As características principais de FoLiA são:
- Paradigma generalizado - Há um paradigma generalizado, evitando qualquer solução ad-hoc.
- Expressividade - O formato é muito expressivo. É possível representar annotações em grande detalhe, mas FoLiA não obriga o usuário specific detalhes não deseados. FoLiA também tem soporte para annotação de alternativas, e de metadata sobre annotações como informação sobre o annotador, tempo de annotação, confidencia etc..
- Extensível - FoLiA é bastante extensível devido ao paradigma generalizado e o fato de que FoLiA não confina o usuário a usar um determinado conjunto de etiquetas linguísticas,
- Formalizado - O formato é formalizado e documentos são validavéis num nível superficial e num nivel profundo (o último inclui validação das etiquetas linguisticas).
- Práctico - FoLiA é desenvolvido de maneira
bottom-up . Isso quer dizer que applicações e bibliotecas são produzidas junto com o desenvolvimento do formato mesmo. Ainda que o format é rico é verboso, tentamos de mantê-lo simples para que outros podem adoptá-lo facilmente nas applicações deles e pelos dados deles.
FoLiA combina o uso de annotação in-line com stand-off. Annotação inline é usado para annotações pertencendo a palavras soltas, ou a outras construçōes soltas. Annotatacão stand-off é usado para as annotações que estendem por mais de uma palavra.
Esquema do paradigma
Recursos
A documentação, o esquema de validação e outros recursos pela última versão de FoLiA se pode encontrar aqui debaixo. Você também pode consultar o repositório FoLiA no github.
- Documentação de FoLiA (PDF, em inglês)
- Código de FoLiA em github (tem convertidores, esquemas, etc)
- FoLiA RelaxNG esquema (para validação)
- Exemplo dum documento FoLiA (com visualização por XSL, consulta o fonte pelo XML)
Há duas bibliotecas que você pode usar para trabalhar com FoLiA nos seus scripts e applicações:
- pynlpl.formats.folia (Biblioteca para python) - por Maarten van Gompel, distribuido como parte de PyNLPl
- Documentación de la biblioteca (tutorial y referencía API)
- PyNLPl está no Python Package Index ou no github. Assim se pode facilmente manter a sua copia atualizada, instala-lo por: $ sudo pip install pynlpl
- libfolia (biblioteca para C++) - por Ko van der Sloot.
- Ainda não há documentação
- libfolia é uma dependêncía para Frog e ucto.
Existe também uma ferramenta pra annotação lingüística com FoLiA:
- FLAT: FoLiA Linguistic Annotation Tool - Ferramenta para anotação lingüística com FoLiA, on-line
Para mais soporte você pode sempre contata-nos no endereço lamasoftware@science.ru.nl.
Publicações e Utilizaçāo
FoLiA é usado em varios projectos na comunidade de linguistica computacional nos Países Baixos e Flandes. Também é usado em alguns projectos de CLARIN. Soporte para FoLiA forma parte de varias applicações, como ucto, Frog, e Valkuil.net.
FoLiA é criado por Maarten van Gompel, com apoio de Antal van den Bosch, Ko van der Sloot, Martin Reynaert e outras pessoas na comunidade acadêmica. Em estudos que usam FoLiA, você pode citar-b En estudios que usan FoLiA, se puede citar-nos como:
- [PDF|BibTex] Maarten van Gompel & Martin Reynaert (2014). FoLiA: A practical XML format for linguistic annotation - a descriptive and comparative study; Computational Linguistics in the Netherlands Journal; 3:63-81; 2013.
- [PDF] Maarten van Gompel (2014). FoLiA: Format for Linguistic Annotation. Documentation Language and Speech Technology Technical Report Series LST-14-01. Radboud University Nijmegen.
- Maarten van Gompel (2012). FoLiA: Format for Linguistic Annotation. Documentation. ILK Technical Report 12-03. Tilburg University
Há também algumas presentações sobre FoLiA:
- [PNG] Maarten van Gompel (2013). Poster: FoLiA: Format for Linguistic Annotation. CLARIN-NL, Utrecht University
- [PDF] Maarten van Gompel (2012). Presentation: FoLiA: Format for Linguistic Annotation. CLIN22. Tilburg University
FoLiA é sofware livre e todos os recursos são baixo a GNU Licença Pública v3.