Kopimi rainbow.svg

Impedido de editarEditar

Olá, velho Luiz! Fui editar isso - Página:Echos da minh'alma.djvu/5 - e após a página de edição se abrir, fechou-se para todo o sempre e sempre, amém... Tudo o que nela queria fazer era corrigir o nome da autora, que está "Fonsênca", ao invés do que está no original "Fonsêca". Se quando voltares aqui puderes resolver isto (e talvez explicar-me por quê, mesmo havendo aqui criado tanto conteúdo, sou impedido de editar ali - e ainda receber um aviso para "criar uma conta"), agradecemos. Abraços, André Koehne (discussão) 19h04min de 17 de dezembro de 2018 (UTC)

PS: só vim a incomodar-te porque, olhando o histórico, vi que foste o revisor da mesma... Foi isso. André Koehne (discussão) 19h06min de 17 de dezembro de 2018 (UTC)

Wikisource:News (en): April 2019 editionEditar

English Wikisource's monthly newsletter; Wikisource:News, which seeks to inform all about Wikimedia's multilingual Wikisource.
Read this issue of Wikisource:News · Discussion · Subscribe/Unsubscribe · Global message delivery 23:43, 31 March 2019 (UTC)
Noting that thus is one-off delivery to those listed at Wikisource Community User Group participants, and those wishing to receive further editions of the newsletter should subscribe as described in the above instructions.

Sérgio FrusoniEditar

Meu caro, boa tarde. Sobre a questão do consentimento dos herdeiros de Sérgio Frusoni, tenho total aprovação para publicar as obras. Só para tomar nota, também sou um herdeiro de Sérgio(bisneto do autor).

Grato pela atenção!

Gabriel Barbosa Frusoni

ProteçãoEditar

Fala rapaz, veja se consegue agora. Ozymandias (discussão) 00h01min de 22 de março de 2020 (UTC)

Direitos sobre digitalizaçãoEditar

Fala sumidão. Tudo bem contigo ? Tenho um dúvida e como você que está mais por dentro disto acho que pode ajudar: os arquivos da Brasiliana da USP [1] estão, na maioria dos casos, em domínio publico e poderiam ser upadas sem problemas para os projetos da Wikimedia. Não vejo problema de subir os textos, mas em algumas digitalizações há os seguintes textos:

1. Você apenas deve utilizar esta obra para fins não comerciais.Os livros, textos e imagens que publicamos na Brasiliana Digital são todos de domínio público, no entanto, é proibido o uso comercial das nossas imagens.

2. Atribuição. Quando utilizar este documento em outro contexto, você deve dar crédito ao autor (ou autores), à Brasiliana Digital e ao acervo original, da forma como aparece na ficha catalográfica (metadados) do repositório digital. Pedimos que você não republique este conteúdo na rede mundial de computadores (internet) sem a nossa expressa autorização.

Eles podem realmente fazer isto ? No caso só conseguiríamos utilizar estas publicações de forma livre no formato texto ?

Valeu. Ozymandias (discussão) 15h16min de 27 de março de 2020 (UTC)

Na verdade parece que já fizeram um upload em massa dessas digitalizações. Só que por um lado tem que a BBM-USP seguiu fazendo digitalizações, e por outro mais autores caíram em PD-old de lá pra cá, então certamente está incompleta. E eu pessoalmente prefiro re-trabalhar as digitalizações deles por diversos motivos, inclusive de converter os PDFs para DjVu, já que o bot de M&S suporta só o segundo formato (além de PDF ser um formato proprietário de especificação aberta, enquanto o DjVu é uma especificação aberta e livre). (Aliás, se preferir no Barão de Lavos seguir trabalhando diretamente em wikitexto pra depois o bot ser acionado fique à vontade; faça como achar mais fácil). Só que esse sou eu, que posso inclusive sumir novamente a qualquer momento. Como é ambiente wiki, nada impede de cada um proceder da forma como achar melhor e/ou conseguir e outro depois vir fazendo algum ajuste.

O que eles fizeram foi, na verdade, uma espécie de copyfraud, já que o seu suor não gera novos direitos autorais. Eu estive em um evento onde o então diretor da que se chamava Brasiliana USP deu a entender ser uma mera salvaguarda deles caso, por acidente, algo a mais fosse digitalizado, e que nenhum deles em momento algum pretendeu tornar algo mais restritivo do que realmente era. Em outras palavras, simplesmente ignore esse alerta. Há digitalizações em que a página com ele acabou sendo mantida (aqui, por exemplo) e outras que ela simplesmente foi removida (bem como nesta outra, por exemplo, foi mantida a página de watermark do Google Book Search)

Lugusto 18h54min de 27 de março de 2020 (UTC)
Opa, bacana pela explicação. Sobre o Barão de Lavos, pode fazer as operações que quiser preliminarmente e depois eu me viro. Sempre sou a favor das tarefas automatizadas antes... na verdade, comecei a editar manualmente as primeiras páginas do livro depois que extrai via python os dados de uma versão escaneada que tenho do Barão de Lavos para um .txt que já faz as tags wiki, mas logicamente não faz todo o trabalho bacana que vc fez. Então, por ora, só estou observando e aprendendo XD. Então pau na máquina. Abraço. Ozymandias (discussão) 19h16min de 27 de março de 2020 (UTC)

Direitos sobre discursosEditar

Fala rapaz. Mais uma dúvida sobre direitos autorais: pronunciamentos (rádio, TV, Câmara, Senado, etc.) de presidentes no Brasil estão sob direitos reservados ? No en.wikisource há discursos, por exemplo, do Trump, mas eu sei que a legislação de lá garante disto. Minha dúvida é no caso do Brasil: sei que atos oficiais escritos (leis, decretos, etc.) estão em domínio público, mas fiquei na dúvida sobre pronunciamentos, em especial em rádio e TV. Aqui no pt.wikisource só há discursos da Dilma (no Senado e na Câmara) mas de nenhum outro político e tenho algum material aqui desde Getúlio (por exemplo, o Discurso de 1o de maio de 1951) até o Bolsonaro: veja que estou falando de pronunciamentos oficiais, não de entrevistas, interrogatórios, julgamentos ou coisas semelhantes. Abraço. Ozymandias (discussão) 19h47min de 2 de abril de 2020 (UTC)

  • Então Ozymandias, eu uso o raciocínio de que o discurso de um presidente durante o exercício de seu mandato (e nem antes ou depois) pode ser enquadrado no que a 9610 diz no artigo 8º como demais atos oficiais. Inclusive disponibilizei o discurso da Dilma ao sofrer o golpe de 2016 sob esse raciocínio (no Commons, c:Template:PD-BrazilGov; aqui, {{DP-3}})), mas considero isso mais como uma brecha do que como algo realmente definido por lei. Só que, né, acho pouco provável que alguém reclame os direitos autorais desses textos, já que são normalmente retórica publicitária de seus nomes (a menos que surja um herdeiro desesperado por ter lucros sem se mexer, como costuma ser com grande parte dos detentores de direitos autorais de livros de autores falecidos). Lugusto 20h05min de 3 de abril de 2020 (UTC)

Diários oficiaisEditar

Fala rapaz. Primeiro obrigado pelas edições na questão dos autores: havia programado para incluir tudo de uma vez, mas como vi que você já editou, valeu :) Em segundo, vi que houveram algumas edições hoje relacionada a Diários Oficiais: o que acha do caso ? Me parece que, ainda que alguns conteúdos de DO possam ser relevantes para o Wikisource, temas gerais como compras, resultados de concurso e afins não caberiam bem aqui. Ainda parece algo meio incipiente por aqui, mas pode abrir precedente para incluir DO de todos os municípios, dados processuais, etc. que mais poluiriam do que auxiliariam o projeto. Ozymandias (discussão) 22h13min de 5 de abril de 2020 (UTC)

  • Acho contraprodutivo adicionar os DOs por adicionar; além do que você disse, há o problema legal de menções indesejáveis do nome (eu mesmo vira e mexe preciso ir no formulário do JusBrasil para remover do Google o andamento de processo de um exato homônimo do meu nome completo que atrapalha na hora de enviar currículo; recrutador não vai clicar e ver a diferença de idade e UF). Vi também essa inclusão, e sinceramente não sei o que pensar dela. Quem inseriu parece ser ativo na Wikipédia, então talvez haja mais liberdade de conversar com ele sobre o assunto (se está com alguma ideia ou se o fez apenas procurando formas de participar em mais wikis) sem o morder. Legislações, hinos municipais e traduções colaborativas abandonadas são grandes buracos-negros por aqui... Lugusto 22h27min de 6 de abril de 2020 (UTC)
  • Concordo com tudo. Também concordo com a questão do morder, mesmo porque ainda é uma quantidade pequena de edições que podem ser tratadas com o tempo. Vou acompanhar e ver como isto vai se desenvolver. Perguntei sobre, porque vai que uma edição deste tipo acabe trazendo trocentos maluquinhos importando dados de DO de cidades minúsculas e processos judiciais: talvez não agora nem ano que vem, mas daqui algum tempo talvez seja interessante discutir a política relacionada a este tipo de conteúdo. Sobre os "buracos negros" vamos tentar diminuir rs... por enquanto tentar zerar a lista de artigos a wikificar. Terminando, vou ver todas as obras que estão em tradução. Abraço. Ozymandias (discussão) 22h53min de 6 de abril de 2020 (UTC)

JFAEditar

Fala rapaz. Valeu pela dica: aliás, como você insere tudo isto ? No caso estou utilizando o pdf2djvu rodando pelo Python, mas não sei se possui estas opções. As outras conversões que fiz aparentemente foram OK, então não sei se foi algo do arquivo ou do meu processamento (na Web tem uma versão menor e P&B desta Bíblia, mas com qualidade de leitura muito baixa). Vou dar uma olhada no site que você me passou e qq coisa te falo. Eu tenho o pdf de todas as versões de Almeida que estão em DP e pretendia converter/subir no Commons, então vou ver o que acho por lá. E nem precisa pedir permissão sobre substituir qq arquivo: vc é da casa. Aliás, não sei pq vc não renovou seu estatuto por aqui. Aliás, já que estou por aqui: vc tem a página ou um rascunho explicando os status das digitalizações ? Abraço. Ozymandias (discussão) 20h57min de 22 de abril de 2020 (UTC)

  • Tem formas mais fáceis, mas eu aproveito que estou num PC gamer e primeiro jogo as digitalizações no ABBYY FineReader 14, aplico filtros padrões deles (de endireitar páginas, linhas de texto etc) (nesse caso deu uma pasta de 3,23GB), exporto para PDF em qualidade máxima (arquivo de 3,14GB), audito no Acrobat (o tamanho do PDF pulou pra 5,32GB) para, só então, jogar no pdf2djvu (caiu pra meros 140MB);

Eu tinha pego em um fórum que nem existe mais várias digitalizações de bíblias PD-old em português, mas ele está em um HD USB que a anos quando plugo fica apenas em tec-tec-tec sem nem montar (suspiro). Será que as que você tem também são as que vieram de lá?

Eu já saí definitivamente da Wikimedia n vezes. Dessa vez voltei pelo óbvio: quarentena. Sobra tempo não importa o que eu faça no dia. Com as previsões científicas mais realistas dizendo que ela deve durar no mínimo 18 meses, pode ser que eu fique por aqui mais esse tempo, pode ser que não. A burocracia que a WMF virou, de wiki pequena ter que renovar as flags a cada tantos meses, me dá um tanto de preguiça de ir pedir, pra falar a verdade. Ainda mais pelo motivo que eu desapareci pela última vez (março de 2019) poder se repetir a qualquer momento (a saber, wikipedista brasileiro de atitude deplorável tendo seu histórico ignorado pela Wikimedia e sendo contratado para posição remunerada), daí ia ficar de flag e ela expiraria por inatividade... Lugusto 23h19min de 23 de abril de 2020 (UTC)
Hum, bem bacana... vou tentar sua técnica. Fiz algumas conversões online, mas acaba sendo mais rápido no cluster que uso para algumas atividades de aprendizado de máquina. Eu continuo com a política de salvar tudo o que encontro na net (vídeo, som, livros, etc), em especial pelo fato de que muitos sites acabam saindo do ar e depois fica difícil de achar o conteúdo de novo (e agora está uma moda de alguns lugares cobrarem assinatura para acessar coisas livres)... então quando acho alguma coisa razoável, faço download do site inteiro e acaba vindo diversos documentos no processo, e de vez em quando eu boto em ordem. No caso do seu HD, provavelmente deve ter soltado algum elástico ou a agulha de leitura (ocorre quando derrubamos ou batemos no HD externo e ele é a base de disco): sua opção é abrir delicadamente o HD e ajustar o que soltou... Agora fiquei curioso para saber quem é o wikimedista em questão (conheço uns dois que foram contratados), vou ter que caçar nas discussões antigas...no meu caso, gastei um tanto de paciência e energia quando tinha aquela moda da Wikimedia Brasil (acho que 2012) e decidi me afastar então. Fiz o mestrado e agora terminando o doc, então estou no limbo acadêmico no qual tenho muito tempo para gastar. Decidi voltar para cá porque com todos os defeitos ainda é uma wiki mais tranquila e cujo trabalho burocrático é leve e não produz tanta encrenca. Vi que teve muita coisa que mudou de recursos e estrutura (p.ex. não existia esta coisa de digitalização na minha época XD), ainda estou tentando assimilar tudo isto. Ozymandias (discussão) 23h52min de 23 de abril de 2020 (UTC)
  • Eu tenho também o costume de fazer downloads e mais downloads de materiais. Inclusive o HDD pifou enquanto eu executava uma instância do httrack nele (idéia brilhante, ainda mais em Windows). Não tenho coragem nem de seguir uns tutoriais em vídeo que já vi de fazer exatamente isso que você disse do HD, nem de jogar ele fora. Periodicamente plugo esperando algum milagre ou algo do tipo. Capaz de eu deixar instruções de enterrarem ele comigo xD

De uns tempos pra cá, além de simplesmente download, também tenho enviado coisas pra backup coletivo, digamos assim, ao Internet Archive. Vídeos com o tubeup, websites em geral, depois de baixando/atualizando pelo httrack, usando os logs dele pra baixar pelo wget no formato WARC. Principalmente no mesmo login daqui, mas algumas coisas ou testes em umas contas secundárias.

Só falar do catalisador e user groups que, coincidentemente ou não, fiquei com mais vontade dos joguinhos e arrumar as coisas de casa do que matar tempo aqui... 9.9
A extensão das digitalizações foi criada acho que na época que você foi se afastando e eu fui aderindo à ela bem lentamente. Hoje chega a dar vontade de fazer acho que como o de.wikisource e simplesmente apagar longe o que não tem como ser embebido por elas xD Lugusto 22h22min de 26 de abril de 2020 (UTC)
Sabe que ele não vai voltar, né? Tive um problema igual com um HD e fui obrigado a abrir para ele, pelo menos, voltar e poder fazer a cópia. Como resultado, ele pifou de vez e hoje ele serve para demonstrar as peças internas para os alunos pirralhos de Pré-IC.
Bacana seu trabalho no Internet Archive: tenho visitado bastante o site e baixado muita coisa. Foi o único lugar que achei alguns filmes que o políticamente correto não permite fácil acesso (p.ex. The Birth of a Nation e Song of the South). Estava conversando com alguns professores sobre a questão de conteudos que estão se perdendo por estarem em formato digital e comecei a salvar conteudos/programas/SOs necessários para rodar. No departamento que estou há o interesse do pessoal em catalogar/digitalizar/analisar mapas antigos, então calhou de combinar interesses particulares e coletivos (inclusive um professor daqui é o responsável pelo projeto de bicentenário da Independência no Museu do Ipiranga). Por estas e outras que acabei voltando para o source.
Quanto à digitalização no wikisource, acho bem interessante o modelo do de.wikisource que você mencionou...o problema é que grande parte dos conteúdos daqui não possui o documento original, não está em um formato decente (por exemplo, as Cartas de Dom Pedro II que subi) ou é lei/constituição/etc: se adotassemos isto, provavelmente metade do projeto seria descartado rs. Lógico que isto resolveria nossos problemas com hinos e afins... Ozymandias (discussão) 01h22min de 28 de abril de 2020 (UTC)
  • Yep, eu sei que ele não vai voltar sozinho. Mas, enfim,

O que pega com esses materiais não é nem o conteúdo deles, mas o licenciamento. Veja pelo mercado editorial brasileiro. Todos os dias surgem novas traduções de autores que são PD-old, mas, quantas republicações de obras em domínio público que não sejam pedidas em vestibulares? Se não tem como a indústria cultural ter monopólio, nenhuma parte da indústria vai querer ter o mínimo trabalho em algo que pode ser usado por mais pessoas. Ate me admirei que uma editora pequena publicou A ilha maldita como um de seus primeiros títulos (que eu aproveitei o formato eBook para inserir a parte em domínio público aqui). Essas coisas o pessoal do Estado mínimo faz vistas grossas em sua brilhante teorização de se lavar as mãos para o mundo...

Curioso isso que você está fazendo. Meu quase-TCC de Biblioteconomia era exatamente sobre preservação digital (no fim eu me envolver com outreach das wikis naquele mesmo ano e algumas outras coisas ajudaram que a pessoa sem foco aqui enfiasse os pés pelas mãos, mas enfim)

E né, eu falei mais trollando. Mas que tem umas coisas bem estranhas, como o Demônios (Aluísio Azevedo), que no conteúdo em wiki os capítulos estão em uma sequencia e na digitalização do livro estão em outra... Lugusto 23h18min de 28 de abril de 2020 (UTC)

A escrava IsauraEditar

Fala rapaz,

Como você fez o match-and-split do texto A Escrava Isaura e o novato está convertendo o texto para a versão original, veja que os textos das transclusões terão que ser movimentados para outra página específica e os textos modernizados dos capítulos feitos pelos outros editores terão de ser restaurados. Veja como fica melhor para você e me fale. Abraço.Ozymandias (discussão) 20h20min de 9 de maio de 2020 (UTC)

  • Então, meu plano de longo prazo envolve mover as páginas com M&S para o formato TITULO (ANO) (que venho adotando nesses dois livros de poesias que estou mexendo ao mesmo tempo, por exemplo), independentemente deles estarem em grafia arcaizada ou não, já que para todos os efeitos, mesmo sendo o texto em grafia corrente, ele está equiparado à uma edição antiga específica de um livro.

Agora, ter de volta o mesmo texto em grafia corrente em outra página não me faz muito sentido. Além de já termos textos em domínio público colados em milhares de sites que quase nunca verificaram se aquele texto é mesmo aquele texto (te citei mais pra cima o caso de uma obra que parece estar com defeitos de edição cometidos por uma pessoa, replicados acriticamente por vários lados, inclusive aqui. Há mais casos. Uns tempos atrás achei até mesmo uma obra do sacred-texts que haviam engolido duas páginas e esse erro estava replicado no en.Wikisource por anos. Não consegui achar de volta esse caso específico, mas achei um pior, onde um capítulo inteiro havia sido engolido por anos), a coitada da Especial:PagesWithoutScans só ia ficar ainda mais entulhada de coisa o.O Lugusto 20h36min de 9 de maio de 2020 (UTC)
Concordo em partes porque se entrarmos no mérito da questão, você não deveria ter feito match-and-split com o texto modernizado, mas apagado, certo ? Agora o que não me faz muito sentido é perder as edições antigas sem verificar a procedência (posso ver esta parte no texto em questão, sem problemas) e termos um texto Frankenstein com metade do texto arcaico e outra metade do texto moderno. Talvez seja o caso de apagar tudo então e só manter o texto arcaico, neste caso.Ozymandias (discussão) 20h43min de 9 de maio de 2020 (UTC)
P.S. só não esqueça que modernização não gera direitos autorais. Então no caso em questão, independentemente da origem, a versão moderna pode ser mantida.
Ocorre que a ortografia do nosso idioma é tão instável quanto o regime político dos países que o tem como oficial, resultando nas obras que estão com edições plenamente em domínio público por antiguidade possuírem ortografia antiga. Apenas isso.

Quando surgiu a mw:Extension:ProofreadPage deu vontade mesmo de se apagar todas as páginas e recomeçar do zero. Mas, isso seria um desrespeito a todos que já contribuíram com o pt.Wikisource. Em 2014 se chegou a um meio-termo de se fazer M&S da redação supostamente contemporânea (que, na verdade, é na maior parte das vezes a do acordo ortográfico anterior ao vigente), mantendo no histórico das páginas os contribuidores anteriores. Meio-termo costuma não agradar ninguém, mas essa é a vida.

Frankenstein mesmo é o que vem sendo feito nas páginas da Tradução Brasileira da Bíblia (que, aliás, está em domínio público nos EUA porém não no Brasil), parte com a grafia da fonte digital (que nunca vi mais gorda e não tenho nem como ter certeza se vem mesmo a partir dessa tradução ou de outra), parte com as revisões semi-aleatórias que um ou outro editor costuma fazer. Lugusto 22h13min de 9 de maio de 2020 (UTC)
Não comentei sobre os direitos como se você não soubesse (mesmo pq vc é muuuuuuuuuuuuuuito mais chato que eu nestas coisas) XD eu acho que, tanto quanto possível, o Wikisource deve manter versões atualizadas do texto. Bonita a ideia de manter os originais, mas provavelmente 90% dos leitores daqui só estão buscando alguma leitura sem dificuldades. De qualquer forma, no caso em questão, não vejo problema de ter as duas versões (independente desta coisa de mudança dinâmica da língua portuguesa). Se daqui 20 anos tivermos novas regras, cria -se nova versão.
Lógico, estou estranhando um novato mexer tanto com páginas já existentes, sem gerar páginas novas (até achei que fosse um sock puppet seu). Sobre a Tradução Brasileira é outra coisa que também fico encucado: não achei nenhuma versão online da época (exceto umas cópias no ML), porém tenho a versão impressa da SBB para efeitos práticos de confirmação. Mas acho que o amiguinho da Tradução Brasileira está fazendo exatamente que o nosso amiguinho da Escrava Isaura está fazendo com sinal trocado: ele viu um texto em português pré-AO e está arrumando. Então,em tese, ele está gerando uma modernização da TBB, o que não está errado e aí que está o ponto: se acharmos uma versão antiga e colocarmos os scans, não deveríamos apagar esta versão disponível aqui, mas apenas acrescentar as antigas. Ozymandias (discussão) 23h22min de 9 de maio de 2020 (UTC)
P.S. Vendo agora que há uma versão online modernizada no site da SBB.
  • Não existem "leitores daqui": o Wikisource é preterido nos resultados de busca por sites que contém as mesmíssimas versões que cá estão. Isso sem contar os que não buscam diretamente na Amazon ou no Google Play e optam por pagar pela mesmíssima versão que está aqui gratuitamente a partir de diversas editoras no mínimo esquisitas (exceto na Amazon, que há versões gratuitas dos mesmíssimos textos que estão aqui). Os poucos que aparecem aqui encontram um texto editável e, com toda razão, partem pra outro lugar. Se você confia ler um texto que pode ser adulterado ou de forma drástica ou de forma sutil sem garantia alguma de aquele texto que acredita estar lendo é de fato o texto que acha que está lendo, bem, você aí se iguala às pessoas que acreditam nos mais cabeludos boatos que circulam por WhatsApp.

Há uma cópia aqui da edição da SBB, mas eu pessoalmente prefiro gastar meu tempo confirmando conteúdo que eu tenha como gerar uma prova pública de que é mesmo aquele conteúdo. Lugusto 00h31min de 10 de maio de 2020 (UTC)
Talvez você precise ler mais as estatísticas de visitas do pt.wikisource: você nunca esteve tão errado quando nesta afirmação. No mês passado foram 1,1 milhão de acessos,sendo 730 mil acessos não-automatizados: quantos sites você conhece que tem este acesso por mês ? Mas  te perdoo XD Ozymandias (discussão) 01h11min de 10 de maio de 2020 (UTC)
P.S. Por mais que sejamos preteridos em sites de buscas, temos o maior direcionador de conteúdo na língua portuguesa que é a pt.wikipedia: quando um estudante vai procurar Escrava Isaura, há uma chance muito grande dele abrir a página da pédia e, por extensão, ser direcionado para cá. Valorize nossa wiki XD
  • Acessar é diferente de parar e ler. Há dados para o segundo cenário?

Tendo ou não, não estranhe se minha próxima resposta demorar muito. Não tenho mais idade pra gastar tempo nem com as lorotas dos chapters/user groups, nem em dedicar esforços a algo sem fiabilidade alguma, que são as páginas sem digitalizações transcluídas. Lugusto 03h33min de 10 de maio de 2020 (UTC)

Por favor verifique seu emailEditar

Olá, 555: Por favor verifique seu email! Assunto: "The Community Insights survey is coming!" Se você tiver alguma dúvida, envie um e-mail para surveys@wikimedia.org.

(English: Please check your email and spam! Subject is "The Community Insights survey is coming!" If you have questions, email surveys@wikimedia.org.)

Sorry for the inconvenience, you can read my explanation here.

MediaWiki message delivery (discussão) 16h47min de 25 de setembro de 2020 (UTC)

Candido de Figueiredo 1913Editar

Olá 555. Você lembra porque decidimos remover o Candido de Figueiredo 1913 do source? Eu não consigo lembrar o motivo, acho que discutimos isso apenas no IRC. Giro720 (discussão) 16h53min de 14 de outubro de 2020 (UTC)

Na altura acabei resumindo os motivos aqui. É possível colocar o conteúdo dele via ProofreadPage, mas não imagino que o trabalho valha a pena: dois volumes de quase mil páginas cada um, e em duas colunas cada página. Tenho a digitalização baixada aqui desde julho de 2014, mas pela forma como armazenei nas minhas coisas não devo ter conferido se todas as 2k de páginas estão legíveis. Lugusto 18h54min de 14 de outubro de 2020 (UTC)
Muito obrigado. Vou dar uma olhada nos scans e na transcrição do Gutemberg para ver se é possível ter um bom resultado usando bot para importação das transcrições. Giro720 (discussão) 23h16min de 14 de outubro de 2020 (UTC)
Se quiser, posso ir gerando DjVu do volume 1 enquanto o mecanismo de M&S não volta ao ar. Lugusto 17h00min de 15 de outubro de 2020 (UTC)
@Giro720: Acabei rodando os comandos aqui e... c:File:Dicionário Cândido de Figueiredo (1913, v 1).djvu. Não verifiquei se estão todas as páginas desse volume aí, se tem alguma duplicata, se todas estão legíveis etc, mas aí está. Caso queira, posso fazer o mesmo para o segundo volume. Lugusto 23h23min de 16 de outubro de 2020 (UTC)
Obrigado! Nossa, quase 1GB! Eu achei que o dicionário seria fácil de encontrar, só encontrei uma versão mais antiga no archive. Acho que o v2 pode esperar por enquanto. Giro720 (discussão) 23h47min de 16 de outubro de 2020 (UTC)

Infelizmente são mais correções manuais do que eu imaginava, mas aqui está uma primeira versão de comentários. Uma coisa que precisamos decidir é se o título da página transcluída ficará em minúsculo ou maiúsculo (por exemplo Cândido de Figueiredo 1913/a ou Cândido de Figueiredo 1913/A). Além disso

  • Terminei de fazer a listagem e checagem do cabeçalho necessário para fazer a divisão dos verbetes; as regras de ordenamento alfabético parece compatível;
  • Descobri que na transcrição disponibilizada no Gutenberg faltam alguns verbetes que existem no Dicionário Aberto (normalmente aqueles no fim das páginas), e em ambos faltam verbetes com ortografia "principal" (que atualmente seria considerado ortografia antiga).
  • Eles criaram um verbete para cada forma ortográfica, o que nem sempre é fácil decidir qual é a versão principal usada no dicionário; estou trabalhando nisso.
  • Ainda vou criar uma predefinição para formatar diferentes os verbetes no domínio página e no domínio principal;
  • Quando puder, já podes carregar o volume 2. Eu cheguei a baixar do Hathitrust (~300Mb para versão pdf e 1GB para versão imagem), mas parece ter sido processado diferente do volume 1, em particular na divisão das colunas (talvez você tenha uma versão melhor).

Giro720 (discussão) 18h48min de 1 de novembro de 2020 (UTC)

@Giro720: em alguns minutos aparecerá um arquivo de 963mb em c:File:Dicionário Cândido de Figueiredo (1913, v 2).djvu (15% de upload e chunck 36 de 241 no momento em que escrevo). Como da outra vez, apenas fiz os procedimentos, sem verificar se há páginas a menos ou duplicadas, se todas estão legíveis etc. A boa notícia é que como o HathiTrust tem dois exemplares digitalizados para o volume 2, caso seja encontrado algum problema, só pegar a página específica da outra digitalização e montar novamente o arquivo. Os demais itens da sua mensagem eu leio com mais calma e respondo amanhã. Lugusto 03h24min de 2 de novembro de 2020 (UTC)
@Giro720: eu formataria as páginas como /A (e, se fosse preciso dividir por mais que as letras, como Aaa, Aab, Baa etc), já que os demais títulos de páginas pelo Wikisource acabam sempre iniciando com maiúsculas;
Quando eu fiz a primeira (e única) leva de importações eu havia pego do dicionario-aberto mesmo, não me lembro o motivo (formato original mais fácil de processar?), então realmente não havia percebido essas lacunas. Estranho isso, especialmente que foram as mesmas pessoas envolvidas em ambos sites. A principal falha técnica que eu tive foi de palavras com mesma grafia tendo mais de uma definição. Algumas eu havia conseguido criar em mais de uma página por aqui, outras ficou um tumulto de sobrescrições via bot que eu precisaria olhar uma por uma das 30k de páginas se quisesse tentar ver o que havia sido importado e o que não havia (processei em lotes e não anotei todos os comandos de "transformação" do formato original que apliquei em cada um deles; alguns lotes rodei mais comandos que os outros). Lugusto 01h36min de 3 de novembro de 2020 (UTC)
Muito obrigado. O ocr está muito melhor do que eu consegui (você por acaso rodou o Abby?). Estou revisando algumas grafias que o script não consegue decidir qual é o principal, e estou encontrando mais palavras que não estão na versão impressa (depois eu adicionarei eles nas página de discussão). Giro720 (discussão) 23h55min de 3 de novembro de 2020 (UTC)
Yep, estou usando o ABBYY 14. Antes do reconhecimento de OCR em si eu aplico uma série de filtros pelo próprio programa que melhoram a legibilidade das imagens. Exporto como PDF sem nenhum tipo de compressão, audito no Acrobat (o PDF nesse caso bateu nos 6GB) e depois rodo o pdf2djvu no nível mais alto de qualidade. São várias horas de processamento, mas a qualidade final sempre é excelente. Lugusto 00h05min de 4 de novembro de 2020 (UTC)

Match and SplitEditar

Para que não fiquemos dependente do bot rodando no servidor, converter o script do Phe para uso local em Utilizador:Giro720/match and split.py. O script utiliza o pywikibot e suas funções de manipulação de Djvu (que necessitam da biblioetca DjvuLibre), e o arquivo djvu precisa ser baixado e estar no mesmo diretório de execução do script. Atualmente, toda vez que o script é executado, ele extrai todas as páginas do djvu (que é a parte mais lenta do processo); no futuro otimizarei essa parte. Giro720 (discussão) 00h09min de 26 de outubro de 2020 (UTC)

Edições antigas do DOUEditar

Opa. Eu tô procurando edições de 1891 do DOU. Você conhece alguma fonte que pode ter essas edições? NMaia (discussão) 00h27min de 8 de novembro de 2020 (UTC)

  • Xiii NMaia, se nem o JusBrasil conseguiu digitalizações desse ano, vai ser difícil. Acho que você vai ter que recorrer a algum acervo centenário físico. Não tenho certeza se eles teriam, mas a Faculdade de Direito da USP e a Hemeroteca da Biblioteca Mário de Andrade de São Paulo seriam os primeiros lugares que eu verificaria. Lugusto 00h35min de 8 de novembro de 2020 (UTC)
@NMaia: Outra opção é usar as Collecções de Leis do Brasil (que, se não me engano, são/eram publicados anualmente). A transcrição da constituição de 1891 cita, além da coleção de leis, o Diário do Congresso Nacional - 24/2/1891, Página 523, mas também não encontrei ele disponível. Giro720 (discussão) 02h30min de 8 de novembro de 2020 (UTC)
Só pra oferecer contexto: o Sacramento Blake diz no DBB que o Francisco Antônio de Almeida Júnior foi diretor do DOU, e eu tô procurando evidências. NMaia (discussão) 02h37min de 8 de novembro de 2020 (UTC)