domingo, 18 de novembro de 2012

Como digitalizar livros físicos - Tutorial e video aula

Fabiane Lima
Desde o surgimento dos livros digitais, há uma turma por aí que torce o nariz para eles, aparentemente sem motivo. Se antes não havia dispositivo que pudesse imitar a textura sem brilho do papel, hoje as vantagens de se ler a série A Song of Ice and Fire em formato digital superam muito as possíveis vantagens que poderiam haver em lê-la no livro físico, por exemplo. Daí se conclui que a turma supracitada tem algo mais parecido com uma parafilia, querendo sentir o toque e o cheiro do papel, e ver toda a sua coleção pegando poeira e sendo tomada por traças numa bela estante estrategicamente posicionada para impressionar as visitas. Mas tara é tara, e cada um com as suas.
O assunto deste texto, porém, é outro. Apesar de a disponibilidade de livros digitais hoje ser grande, podendo-se achar quase qualquer título nas Amazons da vida, nem tudo são flores. Aquele “quase” ali inclui livros acadêmicos, livros lançados apenas no Brasil (sejamos sinceros: nenhum serviço brasileiro de livros digitais se compara minimamente com a Amazon), edições antigas, e uma série de outras possibilidades que impedem leitores adeptos deste novo formato de conseguir ler em seus aparelhinhos. No Brasil, a demanda por livros digitais é ainda muito pequena, seja por falta de quem compre ou pela falta de eReaders, o que desencoraja editoras a digitalizar seu acervo.
E o que fazer quando você se dá conta de que há em sua casa uma estante cheia de títulos acumulados ao longo da vida e que jamais lerá, justamente por não estarem em formato digital? E que alguns daqueles títulos você realmente precisa ler, uma vez que se tratam de literatura básica para uma futura vida acadêmica que você vem planejando, e para a qual a editora não está afim de contribuir? O que fazer? Como proceder?
Digitalizar seu acervo (para uso pessoal, logicamente) não é uma tarefa fácil. Em primeiro lugar, é preciso que três coisas fiquem claras:
  • Paciência: digitalizar um livro não é um trabalho divertido. Ver as horas passando no relógio e perceber que nem 20% do tomo foi escaneado e você perdeu todo um sábado em que poderia estar pedalando lá fora pode ser incrivelmente desanimador.
  • Desapego: seu livro, que custou não menos que duas refeições no Outback, pode ficar em estado lastimável se você não tem acesso a uma belezinha dessas. Pense que pode sim valer a pena e que, no final, o que conta é o conteúdo. Depois você pode pegar dois volumes daquela Barsa que não usa mais e tentar des-desengonçá-lo.
  • Uso pessoal: é recomendável não distribuir sua cópia digital por aí. Quando se compra um livro, automaticamente se concorda com termos que impedem a reprografia e redistribuição.
Se você chegou até aqui e ainda tem intenção de fazer a conversão de seus livros, seguem abaixo algumas dicas:

Digitalizando

  1. Divida o livro em trechos e faça a tarefa aos poucos. Pode levar muito tempo, principalmente se o scanner for emprestado (meu caso), e o livro, muito grande.
  2. Use uma resolução de média para alta (de 200 dpi pra cima), e não esqueça de caprichar no contraste antes de digitalizar. Isso ajuda a diminuir a quantidade de erros dos softwares de OCR (que são MUITOS). Em caso de esquecimento, é possível fazer isso depois, com Photoshop ou GIMP.
  3. Tenha um livro grosso e pesado, ou mais, para manter o livro a ser digitalizado no lugar. É bastante comum que a parte interna da brochura saia fora de foco por não estar bem posicionada no vidro do scanner e o OCR não conseguir ler. Sim, isso pode estragar seu livro. Eu avisei.
  4. Nomeie os arquivos de modo a formar uma sequência facilmente identificável.

“OCRzando”

  1. O software de OCR que utilizei foi o OCRtools, que custa 5 obamas na App Store e faz o trabalho de forma bastante decente. Talvez ele acentue palavras na forma portuguesa (como em “referéncias” ao invés de “referências”), mas isso pode ser corrigido mais adiante. Existem muitas opções gratuitas caso você faça parte dos 90% restantes da população usuária de computadores. Para Linux tem o Tesseract.
  2. No OCRtools é possível criar uma gaveta, adicionar todas as imagens ali e mandar processar. Leva um bom tempo, mas bem menos do que eu imaginava. Acredito que a maioria dos softwares funcione mais ou menos do mesmo modo.

Formatando

  1. Essa parte exige paciência: copie e cole os trechos processados pelo OCR – ou não, dependendo da saída do software que você escolheu – em um documento de texto. Faça buscas para acabar com as quebras de linha originais, e remova trechos de caracteres alienígenas que por acaso o OCR tenha inserido ao longo do texto. Usei o TextWrangler, que tem um bom sistema de busca e substituição.
  2. Cole o texto num processador de textos mais parrudo, com corretor ortográfico. É bom ficar de olho e, por mais que tome algum tempo, corrigir palavra por palavra. Esse cuidado evita que o corretor ortográfico mude nomes próprios ou até mesmo corrija errado.
A partir daqui você pode seguir por dois caminhos distintos. Um dá pouco trabalho. O outro eu segui porque não havia me tocado antes do modo mais simples e porque queria experimentar, visto que ele dá mais possibilidades de estilizar o documento final. São eles:

“eBookzando”: o modo mais simples

  1. Estilize o documento para formatar títulos, subtítulos, notas e tudo o mais e exporte o documento em PDF. Acrescente as imagens no meio do texto, se ouver, e não esqueça da capa na primeira página.
  2. Faça dowload do Calibre – que nós já resenhamos aqui.
  3. Coverta o livro em ePub (ou no formato de sua preferência/necessidade), tomando cuidado com os títulos para a correta geração automática do sumário (opção “Detecção de estrutura”), e pronto. Está feito.

“eBookzando”: modo nightmare (nem tanto)

  1. Jogue o texto novamente no TextWrangler ou em algum editor de texto melhor que o Bloco de Notas. Pode ser o Notepad++.
  2. Coloque tags HTML apropriadas em cada parágrafo, bloco de citação, títulos, subtítulos, etc, da mesma forma que faria com a ferramenta de estilos do Word. Acrescente as imagens, se houver, incluindo a capa. Faça bom uso das tags de título para a correta geração do sumário. Salve como um arquivo HTML normal.
  3. Você pode ver como vai ficando a formatação do livro com o navegador. Faça alterações no CSS se achar necessário, tendo em mente as limitações do seu leitor digital.
  4. Se seu livro tiver mais de um arquivo (como imagens), salve tudo em uma pasta, comprima em um zip e mande pro Calibre para fazer a conversão.
  5. Tome cuidado com a opção “Detecção de estrutura”. Revise todas as opções antes de exportar e pronto.
Difícil? Um pouco. Trabalhoso? Bastante. Vale a pena? Depende. Da importância do livro e de quanto tempo se tem disponível. Por enquanto eu só completei cerca de 20% do livro, mas já joguei esse pedaço no Kobo. Quando a coragem e a necessidade chegarem novamente, eu termino o trabalho.
__________________________________________________________

Aproveitamos para postar aqui no blog uma video-aula encontrada no Youtube, sobre o tema. Vale lembrar que não buscamos de maneira alguma incentivar a pirataria, mas sim a garantia de disponibilidade da Informação e do Conhecimento. Há muitos livros já em domínio público (para quem não sabe, no Brasil um livro entra em domínio público 70 anos após a morte de seu autor. Em muitos países este prazo varia de 50 a 70 anos, em média), livros evangélicos ou seculares, e que ainda não foram digitalizados. Seria de grande valia a digitalização de tais livros, e sua disponibilização gratuita na internet.

____________________________________________________________________


Na questão dos scanners, uma boa opção, que tem as vantagens de não danificar o livro, portabilidade e praticidade, são os chamados scanners de mão. Há modelos idealizados especialmente para escanear livros e revistas. 


A média de preço de um aparelho desses é de R$ 250,00, mas encontrei até por R$ 180,00. Eles não possuem fios (são alimentados por pilhas recarregáveis), e gravam em cartões de memória, e muitos já vem com software OCR (para transformar as imagens em texto). Quanto mais caro, mais recursos o aparelhinho pode trazer.


terça-feira, 13 de novembro de 2012

Como obter acesso a artigos científicos sem pertencer a uma instituição acadêmica



Moreno Barros
Pra quem não sabe, eu trabalho em umas das bibliotecas da UFRJ e a minha principal função é garantir o acesso à produção científica nacional e internacional aos alunos dos programas de graduação e pós-graduação do Centro de Tecnologia da universidade, seja por meio de treinamentos de bases de dados, serviço de referência, levantamento bibliográfico ou simplesmente encontrando para eles artigos difíceis de achar, mas que são importantes para as suas pesquisas.
Na minha tese de doutorado eu falo um pouco sobre a questão do custo do conhecimento, explicando sob a ótica de bibliotecário como é problemático os trabalho produzidos por pesquisadores, cientistas e seus pares, financiados em grande parte pelos contribuintes (por meio de recursos públicos, editais de fomento, bolsas de pesquisa e orçamentos das universidades e instituições de pesquisa), permanecerem acessíveis somente mediante pagamento avulso ou contratos de assinaturas junto às editoras responsáveis pela publicação desses trabalhos. Um duplo pagamento por parte dos contribuintes: na comissão da pesquisa e no acesso aos resultados. [Em um segundo momento, eu falo do porre que é esse frenesi em torno da contabilização da ciência (do ponto de vista macroeconômico os contribuintes não financiam nada) e como isso pode contaminar a ciência em sua essência. Maiores detalhes, quando a tese ficar pronta.]
Pra quem não sabe (2) aproximadamente 1,5 milhão de artigos originais são publicados todos os anos, veiculados em periódicos pertencentes a um pequeno número de grandes editoras comerciais científicas e acadêmicas com fins lucrativos, entre elas Elsevier, Springer, Wiley e Taylor and Francis.
Pra quem não sabe (3) o Brasil gasta em torno de R$120 milhões anuais para garantir que centenas instituições do país acessem mais de 30 mil revistas científicas por meio do Portal de Periódicos da Capes, modelo de consórcio de bibliotecas único no mundo, inteiramente financiado pelo governo nacional. (Palmas pro Brasil, mas ressaltando que o Portal de Periódicos da Capes foi criado justamente sob a perspectiva de que seria demasiadamente caro atualizar os acervos com a compra de periódicos impressos para cada uma das universidades do sistema superior de ensino federal.)
Sempre que alguém não vinculado a instituições associadas ao consórcio do Portal de Periódicos da Capes tenta acessar um artigo de periódico online, o acesso ao resumo do texto é geralmente livre. Sem esse vínculo, a leitura de um único artigo na íntegra publicado por um dos periódicos da Elsevier custa 31,50 dólares (aproximadamente 65 reais). A Springer cobra 34,95 dólares (aproximadamente 72 reais) e Wiley-Blackwell, 42 dólares (aproximadamente 87 reais).
Então as grandes questões são: como obter acesso aos artigos científicos na íntegra, sem ter que pagar questionáveis 60,70,80 reais por algumas páginas, sem pertencer a uma instituição acadêmica (desvinculada do Portal Capes)? Como ter acesso aos artigos originais na íntegra de maneira legal, sem infringir os direitos das editoras e autores?

Partindo da minha experiência diária lidando com esse tipo de demanda, quero deixar 10 dicas à vocês, pesquisadores desse meu Brasil varonil:

1) procure uma bibliotecária, preferencialmente de uma biblioteca universitária ou instituição de pesquisa e converse com ela sobre a possibilidade de obter acesso aos artigos na íntegra, mesmo não tendo vínculo com a instituição consultada. Alguns artigos são realmente muito fáceis de conseguir, desde que a biblioteca tenha o acesso via Portal Capes. Você pode levar um pen drive para copiar os arquivos dos artigos ou solicitar que eles sejam enviados ao seu email.
2) Quase todos os pesquisadores estão autorizados a colocar em seus sites pessoais ou institucionais uma versão em PDF dos textos que foram aceitos para publicação em periódicos. O caminho mais curto para encontrar a produção de um determinado autor é via Google Acadêmico. Então vá ao scholar.google.com e procure o título do artigo, o nome do autor ou o tópico de pesquisa.
Por exemplo, aqui está a página para um artigo publicado por um grupo de biólogos da UFRJ, no periódico Evolution, v.53, n.5, 1999. “Does Cosmopolitanism Result from Overconservative Systematics? A Case Study Using the Marine Sponge Chondrilla nucula“:
O primeiro resultado é o artigo procurado. Notem que na sinopse há a indicação de que ele está vinculado à base de dados JSTOR (notem também que já de cara há um link para o pdf, mas vamos fingir, para este exemplo, que ele não estivesse ali). Abaixo da sinopse está:
Citado por X Artigos relacionados Todas as Y versões

Clicando no link do título propriamente, você é levado à página do editor>periódico e verá um link para download do artigo na íntegra por módicos 14 dólares.
Mas se clicar no link “Todas as Y versões“, você verá todas as versões indexadas pelo Google. No nosso exemplo, a segunda versão é um PDF do artigo na íntegra que está hospedado no site do departamento da UFRJ o qual estão vinculados os autores do artigo.
3) em alguns casos, usar o parâmetro “filetype:pdf” no Google Acadêmico também ajuda. Vejam esse exemplo para um busca sobre pré-sal e águas profundas. Basta substituir o assunto ou incluir o nome do autor, mantendo o parâmetro de tipo de arquivo.
4) Se você precisa de muitos artigos sobre determinado tópico, é melhor seguir os passos anteriores. Mas se você só precisa de um ou poucos artigos e for capaz de encontrar um meio de contato com o autor, você pode pedir diretamente à ele. Geralmente os autores são solícitos e gostam de ter seus trabalhos reconhecidos. Basta você se identificar como pesquisador, do Brasil (ajuda sempre) e solicitar uma versão digital.
Para encontrar os emails dos autores (melhor forma de contato) busque pelo nome deles, associados às suas instituições de origem (universidades, departamentos, centros de pesquisa). Geralmente os resumos dos artigos contêm essas informações, mesmo em bases de acesso restrito.
5) Em muitas áreas é comum o uso de servidores pré-publicação (pre-print), que oferece acesso na íntegra aos artigos que já foram aceitos pelos periódicos, mas que ainda aguardam os trâmites de publicação. Um dos mais conhecidos é o Arxiv.org (pronunciasse ar-cai-ve mesmo) que têm grande concentração na área de física, mas engloba outras áreas do conhecimento também.
Recentemente no Facebook, Tiago Murakami solicitou esse artigo, bloqueado pela sua editora, acessível somente mediante pagamento. Mas omesmo artigo está disponível na íntegra no Arxiv, provavelmente meses antes de ter saído na versão impressa/digital do periódico.
Outros servidores de preprints que valem menção são viXranature precedingssciencepaper china e philica.
Não confundir os servidores pre-print com os servidores open acces (como o PLOS ONE, por exemplo). Os preprints são em geral de artigos aceitos para publicação em periódicos mediante avaliação por pares. Funcionam como um espelho grátis dos periódicos de acesso restrito e pago.
6) algumas bases de dados e de periódicos oferecem a opção de “trial”,JSTOR sendo um bom exemplo. Se você se registrar pode ler até 3 artigos na íntegra online, na tela do computador (sem opção de download grátis). Você pode armazenar até 3 artigos e mantê-los em um arquivo pessoal por 14 dias. Após esse período, você pode pesquisar por três novos artigos.
7) as bibliotecas ainda possuem coleções impressas dos periódicos. Isso significa que se você descobrir precisamente a edição do periódico onde foi publicado o artigo e descobrir qual biblioteca possui o exemplar impresso, você pode solicitar uma cópia simples (xerox). Isso vale especialmente para revistas antigas, algumas delas com suas edições retrospectivas não digitalizadas, não encontráveis na internet. As bibliotecas possuem sistemas de intercâmbio entre si, facilitando a troca de materiais mesmo entre diferentes e distantes cidades.
No Brasil, você pode consultar o Catálogo Coletivo Nacional, que não tem uma interface legal, mas que é um instrumento ultra útil pra saber quais bibliotecas, separadas por estados, possuem a revista que você procura.
Basta incluir o título da revista no campo de busca, clicar no “executar busca”, aparecendo os registros clicar em “visualizar consulta”, selecionar o título, clicar em “visualizar registros” e percorrer a lista das bibliotecas que possuem tal revista em suas coleções. Repare que a lista contêm exatamente a indicação de quais edições a biblioteca possui (a biblioteca pode ter a coleção integral ou parcialmente).
Feito isso, você pode ir até a biblioteca fisicamente ou entrar em contato por telefone ou email. Se você estiver em outra cidade e a burocracia não permitir a cópia ou scaneamento do artigo e envio por email, você pode solicitar à bibliotecária o envio por Correios, pela modalidade “COMUT”. Ela vai te explicar melhor os procedimentos.
8] nós bibliotecários possuímos fóruns privados de trocas de artigos. Eu participo e gerencio alguns fóruns de intercâmbio de artigos, que não são divulgados publicamente para evitar problemas com as editoras. É certo que não baixamos volumes gigantescos de artigos para imprimí-los e vendê-los em uma banquinha na esquina, mas os contratos editoriais são tão rígidos que não podemos nos expor muito, mesmo querendo somente o melhor e o mais rápido meio de fazer o artigo chegar até nossos usuários.
Eu sou feliz por ter um acesso VPN a uma das grandes universidades americanas, o que me permite uma gama maior de revistas do que o Portal Capes oferece. E conto com a ajuda sensível e inestimável dos colegas bibliotecários de outras instituições, no Brasil e no exterior.
Por isso, considere sempre falar com um bibliotecário quando empacar em suas pesquisas acadêmicas. A gente salva vidas. É o que eu faço, todos os dias :)
9) Se por acaso você estudou em alguma universidade americana ou européia, verifique a possibilidade de conseguir acesso aos recursos das bibliotecas e bases de dados por meio das associações de alumni. Converse com a bibliotecária de lá.
10) se você estuda ou tem vínculo com alguma universidade ou instituição de ensino, público ou privada, procure saber com a bibliotecária como você pode obter o acesso remoto ao Portal Capes, que te garante acesso aos artigos na íntegra em seu computador pessoal, sem precisar se deslocar até a biblioteca.
Quem tiver qualquer dúvida, pode falar comigo. Quem tiver qualquer solicitação de artigo, procure a bibliotecária mais próxima!

quarta-feira, 7 de novembro de 2012

Kirby Ferguson: Abraçando o Remix - Assista a este vídeo



Nada é original, diz Kirby Ferguson, criador de 'Tudo é um Remix'. De Bob Dylan a Steve Jobs, ele afirma que nossos criadores mais celebrados pegam emprestado, se apropriam e transformam.

Outros videos do TED legendados: http://www.ted.com/translate/languages/pt-br?page=2