1
resposta

[Dúvida] Listagem de linguas instaladas no Tesseract

Eu faço os seguintes comandos:

!mkdir tessdata
!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true

e depois eu tento ver as linguas instaladas usando o comando:

!tesseract --list-langs

Mas não aparece a lingua portuguesa instalada. Porque?

1 resposta

Oi, Daniel! Tudo bem contigo?

Ao tentar executar o comando de busca, pode ser que a pasta em que o Tesseract armazene seus idiomas seja diferente da pasta criada por você, a tessdata — fazendo com que a língua portuguesa não apareça na lista. Contudo, Daniel, não é necessário se preocupar com este ponto, em nossos próximos passos no curso indicaremos exatamente a pasta onde há o arquivo por.traineddata!

De toda maneira, se mesmo assim você deseja organizar o seu projeto, é possível mover o arquivo por.traineddata para o diretório que o Tesseract está procurando. O comando abaixo permite essa ação:

!mv ./tessdata/por.traineddata /usr/share/tesseract-ocr/4.00/tessdata/

Observação: Lembre-se de substituir /usr/share/tesseract-ocr/4.00/tessdata/ pelo diretório correto da sua instalação do Tesseract. Esse diretório pode ser encontrado indo na seção "Arquivos", abrindo a pasta ".." e navegando até encontrar "tessdata", caso você esteja usando o Google Colaboratory. Depois é só copiar o caminho completo!

Ao realizar esse processo, Daniel, será necessário, nas aulas seguintes, especificar o caminho, na variável config_tesseract, da nova pasta tessdata que iremos trabalhar. Isso permitirá a leitura do arquivo por.traineddata e, consequentemente, o reconhecimento adequado dos caracteres:

config_tesseract = '--tessdata-dir /usr/share/tesseract-ocr/4.00/tessdata --psm 6'

Espero ter ajudado, Dani! Fico à disposição caso novas dúvidas surjam.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software