Centre for Language and Speech Technology

FoLiA Formato para Annotação Linguística

Sobre FoLiA

FoLiA é um formato baseado em XML pela representação de recursos annotados linguisticalmente. FoLiA é usado como formato para armazenar recursos linguisticos, como corpora. O objetivo é de oferecer um formato rico que pode representar uma grande variedade de annotações linguisticas, baseado num paradigma comúm. FoLiA não obriga o uso de um determindo conjunto de etiquetas linguisticas, língua ou teoria linguística. O utilizador sempre pode escolher isso em liberdade, e assim FoLiA oferece uma máxima flexibilidade.

XML é o um formato hierárquico. FoLiA segue a structura hierárquica maximalmente com o seu modelo de annotação in-line, o que herdamos do formato D-Coi. D-coi foi o antecessor de FoLiA e postula ser baseada num subjunto mínimo de TEI. Devido à introducção dum novo e extenso paradigma, FoLiA não é compatível com D-Coi. Não obstante, é facil convertir documentos FoLiA a formatos menos complexos e expressivos. Temos alguns convertedores disponiveis.

O objetivo de FoLiA não é só de entregar ainda outro formato, mas de criar uma infrastructura rica e práctica de software y bibliotecas que empregam o formato.

Características

As características principais de FoLiA são:

FoLiA combina o uso de annotação in-line com stand-off. Annotação inline é usado para annotações pertencendo a palavras soltas, ou a outras construçōes soltas. Annotatacão stand-off é usado para as annotações que estendem por mais de uma palavra.

Esquema do paradigma

FoLiA paradigm

Recursos

A documentação, o esquema de validação e outros recursos pela última versão de FoLiA se pode encontrar aqui debaixo. Você também pode consultar o repositório FoLiA no github.

Há duas bibliotecas que você pode usar para trabalhar com FoLiA nos seus scripts e applicações:

Existe também uma ferramenta pra annotação lingüística com FoLiA:

Para mais soporte você pode sempre contata-nos no endereço lamasoftware@science.ru.nl.

Publicações e Utilizaçāo

FoLiA é usado em varios projectos na comunidade de linguistica computacional nos Países Baixos e Flandes. Também é usado em alguns projectos de CLARIN. Soporte para FoLiA forma parte de varias applicações, como ucto, Frog, e Valkuil.net.

FoLiA é criado por Maarten van Gompel, com apoio de Antal van den Bosch, Ko van der Sloot, Martin Reynaert e outras pessoas na comunidade acadêmica. Em estudos que usam FoLiA, você pode citar-b En estudios que usan FoLiA, se puede citar-nos como:

Há também algumas presentações sobre FoLiA:

FoLiA é sofware livre e todos os recursos são baixo a GNU Licença Pública v3.

badge