Oi, Daniel! Tudo bem contigo?
Ao tentar executar o comando de busca, pode ser que a pasta em que o Tesseract armazene seus idiomas seja diferente da pasta criada por você, a tessdata
— fazendo com que a língua portuguesa não apareça na lista. Contudo, Daniel, não é necessário se preocupar com este ponto, em nossos próximos passos no curso indicaremos exatamente a pasta onde há o arquivo por.traineddata
!
De toda maneira, se mesmo assim você deseja organizar o seu projeto, é possível mover o arquivo por.traineddata
para o diretório que o Tesseract está procurando. O comando abaixo permite essa ação:
!mv ./tessdata/por.traineddata /usr/share/tesseract-ocr/4.00/tessdata/
Observação: Lembre-se de substituir /usr/share/tesseract-ocr/4.00/tessdata/
pelo diretório correto da sua instalação do Tesseract. Esse diretório pode ser encontrado indo na seção "Arquivos", abrindo a pasta ".." e navegando até encontrar "tessdata", caso você esteja usando o Google Colaboratory. Depois é só copiar o caminho completo!
Ao realizar esse processo, Daniel, será necessário, nas aulas seguintes, especificar o caminho, na variável config_tesseract
, da nova pasta tessdata
que iremos trabalhar. Isso permitirá a leitura do arquivo por.traineddata
e, consequentemente, o reconhecimento adequado dos caracteres:
config_tesseract = '--tessdata-dir /usr/share/tesseract-ocr/4.00/tessdata --psm 6'
Espero ter ajudado, Dani! Fico à disposição caso novas dúvidas surjam.
Abraços!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!