todas as opções
bullseye  ] [  bookworm  ] [  trixie  ] [  sid  ]
[ Fonte: ucto  ]

Pacote: ucto (0.21.1-2 e outros)

Links para ucto

Screenshot

Recursos de Debian:

Baixe o pacote-fonte ucto:

Mantenedores(as):

Fontes externas:

Pacotes similares:

tokenizador Unicode

Ucto pode tokenizar arquivos de texto codificados em UTF-8 (ou seja, separar as palavras da pontuação, dividir sentenças, gerar n-gramas) e oferece vários outros passos básicos de pré-processamento que deixam seu texto pronto para processamento posterior, como indexação, etiquetagem de partes de fala ou tradução de máquina.

Este pacote fornece a ferramenta de linha de comando em si.

Ucto foi escrito por Maarten van Gompel e Ko van der Sloot. O trabalho no Ucto foi financiado pela NWO, a Organização Holandesa para Pesquisa Científica, sob o projeto Implicit Linguistics, o programa CLARIN-NL e o projeto CLARIAH.

Ucto é um produto do Centro de Tecnologia de Linguagem e Fala (Universidade Radboud Nijmegen) e anteriormente pelo Grupo de Pesquisa ILK (Universidade Tilburg, Holanda).

Se você tiver interesse em análise de máquina de arquivos texto codificados em UTF-8, por exemplo para fazer pesquisa científica em processamento de língua natural, o ucto vai ser útil para você.

Etiquetas: Implementado em: C++, Função: Programa

Outros pacotes relacionados a ucto

  • depende
  • recomenda
  • sugere
  • melhora

Download de ucto

Baixe para todas as arquiteturas disponíveis
Arquitetura Versão Tamanho do pacote Tamanho instalado Arquivos
amd64 0.21.1-2+b1 57.0 kB117.0 kB [lista de arquivos]
arm64 0.21.1-2+b1 55.8 kB109.0 kB [lista de arquivos]
armhf 0.21.1-2+b1 55.3 kB96.0 kB [lista de arquivos]
i386 0.21.1-2+b1 57.9 kB116.0 kB [lista de arquivos]