Conteúdo apagado Conteúdo adicionado
Giro720 (discussão | contribs)
Sem resumo de edição
Linha 129:
:: Quando eu fiz a primeira (e única) leva de importações eu havia pego do dicionario-aberto mesmo, não me lembro o motivo (formato original mais fácil de processar?), então realmente não havia percebido essas lacunas. Estranho isso, especialmente que foram as mesmas pessoas envolvidas em ambos sites. A principal falha técnica que eu tive foi de palavras com mesma grafia tendo mais de uma definição. Algumas eu havia conseguido criar em mais de uma página por aqui, outras ficou um tumulto de sobrescrições via bot que eu precisaria olhar uma por uma das 30k de páginas se quisesse tentar ver o que havia sido importado e o que não havia (processei em lotes e não anotei todos os comandos de "transformação" do formato original que apliquei em cada um deles; alguns lotes rodei mais comandos que os outros). [[Usuário:555|Lugusto]] • [[Usuário Discussão:555|※]] 01h36min de 3 de novembro de 2020 (UTC)
:::Muito obrigado. O ocr está muito melhor do que eu consegui (você por acaso rodou o Abby?). Estou revisando algumas grafias que o script não consegue decidir qual é o principal, e estou encontrando mais palavras que não estão na versão impressa (depois eu adicionarei eles nas página de discussão). [[Utilizador:Giro720|Giro720]] ([[Utilizador Discussão:Giro720|discussão]]) 23h55min de 3 de novembro de 2020 (UTC)
::::Yep, estou usando o ABBYY 14. Antes do reconhecimento de OCR em si eu aplico uma série de filtros pelo próprio programa que melhoram a legibilidade das imagens. Exporto como PDF sem nenhum tipo de compressão, audito no Acrobat (o PDF nesse caso bateu nos 6GB) e depois rodo o pdf2djvu no nível mais alto de qualidade. São várias horas de processamento, mas a qualidade final sempre é excelente. [[Usuário:555|Lugusto]] • [[Usuário Discussão:555|※]] 00h05min de 4 de novembro de 2020 (UTC)
 
==Match and Split==