Galeria Discussão:Dicionário Cândido de Figueiredo (1913, v 1).djvu
Convenções de transcriçãoEditar
- Capitalização: O dicionário opta por iniciar todos os verbetes em maiúsculo, tal como em início de frase.
- Verbetes diferentes mas com mesma grafia serão transcluídos para a mesma página (e ganham número, tal como na versão impressa).
Podem ser revistas, após o término da revisão por bot, se a comunidade achar necessário, as seguintes convenções:
- As páginas de transcrição mostrarão os verbetes em duas colunas geradas automaticamente, por apelo visual, mas que não corresponde necessariamente a divisão original.
- Toda a definição ficará na página inicial onde se iniciou o verbete.
Diferenças entre versão Gutemberg e WikisourceEditar
Segue uma tabela com um resumo das diferenças adotadas aqui em relação àquelas utilizadas na transcrição do Gutemberg.
Questão | Versão Gutenberg/Dicionário Aberto | Versão Wikisource |
---|---|---|
Ordem alfabética | Organizada por software | Conforme versão impressa |
Verbetes com grafias alternativas | Uma entrada para cada grafia | Conforme versão impressa; redirect de grafias alternativas para a grafia preferida, ou nota manual no verbete se não for possível. |
Dados estruturados | Seguem, até certo ponto, as diretrizes do Text Encoding Initiative com formatação xml para codificação de textos legíveis por máquina. | Não suportado; divisões apenas para formatação (verbete, fonética, gramática/uso, definição e etimologia) |
Estatísticas (Dicionário Aberto) | 127583 verbetes (excluindo apêndices), dos quais
|
Ordem alfabéticaEditar
Para tentar formatar na sequência do dicionário impressos, o bot assumirá as seguintes regras (favor checar!):
- Hifens (-), espaços ( ) e pontos (.) em palavras compostas/abreviaturas/interjeições/etc são ignorados (i.e., são tratados como se não existissem);
- Cedilhas são ignoradas (ç=c)
- Caso exista uma abreviatura igual a uma palavra, a abreviatura sucede o verbete.
- Não se distingue maiúscula de minúscula;
- Vogais normais antecedem vogais acentuadas;
- As reticências que sucedem os prefixos e antecedem os sufixos são ignorados;
- Em caso de conflito, a sequencia é <verbete>, <sufixo>, <abreviatura> (exemplo: a, a..., a.).
Verbetes com grafias alternativasEditar
Cândido de Figueiredo (1913) opta por incluir com diferentes grafias num único verbete, com um dos seguinte formatos:
<grafia preferida>, ou <grafia alternativa>, ...
<grafia preferida>, <grafia alternativa1>, ou <grafia alternativa2>, ...
<grafia preferida>, ou antes <grafia antiga>, ...
<grafia preferida>, ou <grafia alternativa>, ou antes <grafia antiga>, ...
Na transcrição do Gutenberg optaram criar um verbete para cada grafia, e reusando a mesma definição (ou uma versão modernizada/arcaizada dela), enquanto aqui manteremos o formato original para manter fidelidade à versão impressa. Assim, as grafias alternativas, no domínio principal, terão um redirect da página com grafia preferida (ou, caso a palavra já esteja sendo usada para outra definição, adicionaremos uma nota manualmente indicando o outro verbete, como acontece em aba->abba).
Em geral, na existência de dupla grafia, o dicionário opta por escolher como grafia principal aquela que apresente consoantes duplicadas (bb, cc, dd, gg, ll, mm, nn, pp, tt), s (ao invés de ss no uso de sufixos), ph (ao invés de f), th (ao invés de t), y (ao invés de i), mn (ao invés de n), ch (ao invés de qu), cç, h entre vogais, ou oi (ao invés de ou, i.e. toiro, oiro). Não é garantido que o bot consiga determinar a grafia preferencial; e na ausência dessas letras, o bot colocará a primeira versão encontrada.
São cerca de 10 mil verbetes que possuem definições repetidas na transcrição do Gutenberg; em 5 mil destes é possível determinar com certeza a grafia preferencial (usando as regras citadas); 2 mil são verbetes diferentes com mesma definição, e 3 mil são verbetes com grafia próxima.
Verbetes com problemasEditar
No volume 2 encontram-se errata e Adiantamento (que inclui vários verbetes que faltaram ao volume 1). Mesmo assim, encontrei os seguintes problemas (favor checar novamente):
- Na transcrição
- Há vários verbetes faltantes (em especial os que ficam no final da página) na versão do Gutenberg; mas que se encontram na versão do Dicionário Aberto (arquivos xml).
- Allopada! transcrito incorretamente de Allodapa;
- Athlóteta, typo de Athlótheta/Atlóteta;
- Faltam alguns verbetes da página 189 (com grafia preferencial com tt).
- Falva vertebete corricão, página 462.
- Faltam alguns verbetes das pagina 488, 489
- No livro
- Arcárcova, erro tipográfico de alcárcova, p. 63
- Erros tipográficos no cabeçalhos da p. 662 (ÉLOO->ÉOLO), p. 448 (CONTRASINAL->CONTRASSINAL)