Conteúdo apagado Conteúdo adicionado
OTAVIO1981 (discussão | contribs)
→‎Re: Conversão de PDF para DJVU: mensagem gigante porque aproveito pra passar alguns macetes
Linha 127:
:Esqueci de responder um ponto da sua mensagem. Aquele é um texto destacado com base em critério bem antigos (está completamente wikificado, direcionando termos pouco usuais para eventuais esclarecimentos). Quando ver um texto com essa marca, ignore-a, para fins de trabalhos com originais. [[Usuário:555|Lugusto]] • [[Usuário Discussão:555|※]] 05h17min de 10 de julho de 2014 (UTC)
::Sim, o ideal era que os títulos de páginas seguissem a mesma grafia dos títulos nos originais. [[Usuário:555|Lugusto]] • [[Usuário Discussão:555|※]] 22h09min de 10 de julho de 2014 (UTC)
 
== Re: Contos Populares do Brazil ==
Vamos por partes. Mensagem longa porque aproveito pra passar alguns macetes.
 
As digitalizações do Google Book Search (GBS) que estão pelo archive.org sempre são problemáticas, especialmente essas do bulkupload do tpb de anos atrás, ainda mais se você for pegar os arquivos que o archive.org gerou a partir delas. Resumindo,
 
# Defeitos de digitalização diversos, alguns poucos o próprio Google já concertou nesse meio tempo;
# Baixa resolução em geral;
# O PDF tem as páginas com marca d'água contendo apenas texto, sendo as demais imagens. Isso confundiu os scripts de conversão do archive.org e gerou umas caquinhas.
 
O pessoal do Wikisource em alemão tem um relatório-guia bem detalhado em [[:de:Wikisource:Google Book Search]], pelo tradutor do próprio Google dá pra pescar algumas coisas. Na altura (2007-2008) eu mesmo passei meses coletando scans diversos do GBS em português (devo ter uns dois mil num HD meu), já que era uma iniciativa que deixou todos alvoroçados e que, ainda por cima, ameaçava sair do ar a qualquer momento, pelos processos judiciais todos que o Google enfrentou. Como felizmente outras iniciativas de digitalização foram surgindo, atualmente eu uso algo do GBS apenas na falta de outra coisa. Essas do archive.org mesmo, quando me são a última alternativa, eu:
 
# Olho na página deles o campo ''source'' (última linha em [https://archive.org/details/contospopulares00romegoog], por exemplo)
# Aciono o [http://www.gbooksdownloader.com/] para baixar na resolução maior disponível (1280px; ele baixa uma por uma das imagens exibidas no site do GBS, gerando em seguida um PDF de qualidade superior ao que o próprio GBS oferece pra download);
# Deleto as páginas de marca d'água ou, o mais comum atualmente, a pseudo-capinha gerada pelo próprio Google (eles tiram a capa original da digitalização, geralmente aquelas de capa dura de re-encadernações feitas pelas bibliotecas, e me põe umas coisas horrorosas) via Adobe Acrobat ou similar;
#: (daqui pra baixo é o comum de quando vou gerar DJVU, independente da fonte de origem)
# "Abro" o PDF via ABBYY. Como percebi diferenças de desempenho e qualidade se faço de outra forma com os vindos da Brasiliana então, após fazer os mequetrefes necessários nos dela, que são diferentes (suspiro), adotei isto como padrão, independentemente da origem:
## Abro o ABBYY e reviso se o idioma/dialeto de reconhecimento da língua portuguesa é o mais relevante ou se preciso adicionar outro idioma, para casos em que existam muitas citações nesse outro;
## Confirmo se em ''Ferramentas'' > ''Opções'' > ''Digitalizar/Abrir'' as opções ''Detectar a orientação da página'' e ''dividir páginas opostas'' '''não''' estão selecionadas (recurso que mais atrapalha do que ajuda. Quando realmente é necessário, mas fácil fazer de forma manual, em outra parte do programa) '''mas''' se a ''Ativar o pré-processamento de imagens'' '''está''' selecionada;
## CTRL+O e, enfim, abro o PDF. Deixo o ABBYY fazer os procedimentos e, ao terminar, vou em ''Salvar documento do FineReader'' (já precisei voltar depois e fazer ajustes diversos);
## Menu do botão ''Salvar'' > ''Salvar como DJVU'' e, na caixa de diálogo clicar em ''Opções'';
## Na guia ''DjVu'', seleciono as opções ''Resolução: original'', ''Controle de cor: não mudar a cor da imagem'', ''Qualidade: perda de qualidade não permitida''
# Depois de gerar o DJVU e fechar o ABBYY, para economizar espaço em disco compacto o "''arquivo do FineReader''" (que na verdade é uma pasta com ícone personalizado cheia de subpastas e arquivos)
 
Finalmente, do livro em si, também não consegui achar lugares com o texto já transcrito. Para trabalhar com ele o jeito será fazer o proofread manual mesmo. Eu particularmente não vejo motivos para converter um PDF em DJVU quando ele vem de uma fonte responsável como a Brasiliana e já inclui a camada de texto em OCR, mas podem surgir motivos no futuro (como surgiu para os casos de ''Match&Split'', como também podem não surgir). Uma sugestão minha: se é algo que vamos trabalhar o proffread manual "''agora''", PDF mesmo. Se for upload que a gente for fazer apenas para tentar facilitar a vida de alguém que, futuramente, venha se interessar, converter em DJVU. Nesse nosso caso em específico, eu deixaria o PDF como está (o Liuscomaes consegue ter o foco que nós não temos e trabalhar semanas seguidas nos arquivos que envia hehe) e colocaria o DJVU que você upou no equivalente do Commons para ER.
 
Como colocar em ER no Commons: <code><nowiki>{{db|My mistake ~~~~}}</nowiki></code>.
 
Processamento de digitalizações da Brasiliana:
# Abro o PDF no Elcomsoft Advanced PDF Password Recovery. Ele dirá que ''User password is empty so instant decryption possible. Do you want to decript it now?'', digo que sim, e salvo o PDF em um nome diferente do original. Fecho o programa sem salvar o projeto de recuperação de senha, é desnecessário pra este contexto;
# Abro o PDF no Adobe Acrobat e deleto a página com marca d'água e informações imprecisas, geralmente a última;
# Faço como nos itens 4 e 5 e respectivos subitens do bloco de cima.
 
Os programas que eu cito apenas o nome são comerciais. Com certeza existem softwares livres equivalentes, mas como para conseguir os mesmos resultados neles são necessários vários testes e configurações e comparações, que uns 40% eu concluí como proceder por contra própria e que há um mundo de coisas pra fazer nos Wikisources, acabei não me dedicando a explorar essas alternativas. [[Usuário:555|Lugusto]] • [[Usuário Discussão:555|&#x203B;]] 22h35min de 14 de julho de 2014 (UTC)