pt.phhsnews.com


pt.phhsnews.com / Extrair texto de PDF e arquivos de imagem

Extrair texto de PDF e arquivos de imagem


Tem um documento em PDF do qual você gostaria de extrair todo o texto? E quanto aos arquivos de imagem de um documento digitalizado que você deseja converter em texto editável? Estes são alguns dos problemas mais comuns que eu vi no local de trabalho ao trabalhar com arquivos.

Neste artigo, falarei sobre várias maneiras diferentes de tentar extrair texto de um PDF ou de uma imagem. Seus resultados de extração irão variar dependendo do tipo e da qualidade do texto no PDF ou imagem. Além disso, os resultados variam de acordo com a ferramenta usada. Portanto, é melhor experimentar o máximo possível de opções abaixo para obter os melhores resultados.

Extrair texto da imagem ou PDF

A maneira mais simples e rápida de começar é experimentar um serviço on-line de extração de texto em PDF. Estes são normalmente gratuitos e podem dar-lhe exatamente o que você está procurando, sem ter que instalar nada no seu computador. Aqui estão dois que eu usei com muito bons a excelentes resultados:

ExtractPDF

ExtractPDF é uma ferramenta gratuita para capturar imagens, texto e fontes de um arquivo PDF. A única limitação é que o tamanho máximo do arquivo PDF é de 10 MB. Isso é um pouco pequeno; então, se você tiver um arquivo maior, tente alguns dos outros métodos abaixo. Escolha o seu arquivo e clique no botão Enviar arquivo . Os resultados normalmente são muito rápidos e você deve ver uma visualização do texto quando clicar na guia Texto.

Também é um benefício adicional que extrai imagens do arquivo PDF também, caso você precise delas! No geral, a ferramenta on-line funciona muito bem, mas encontrei alguns documentos em PDF que me dão uma saída engraçada. O texto é extraído muito bem, mas por algum motivo ele terá uma quebra de linha após cada palavra! Não é um problema enorme para um arquivo PDF curto, mas certamente um problema para arquivos com muito texto. Se isso acontecer com você, tente a próxima ferramenta.

Online OCR

OCR on-line geralmente costumava funcionar para os documentos que não foram convertidos corretamente com o ExtractPDF, por isso é uma boa ideia tentar ambos os serviços para ver quais deles oferecem uma saída melhor. OCR on-line também tem alguns recursos mais agradáveis ​​que podem ser úteis para qualquer pessoa com um arquivo PDF grande que precise converter apenas o texto em algumas páginas, em vez de todo o documento.

A primeira coisa que você quer fazer é ir em frente e criar uma conta gratuita. É um pouco chato, mas se você não criar a conta gratuita, ela só converterá parcialmente o PDF em vez do documento inteiro. Além disso, em vez de poder carregar somente um documento de 5 MB, você pode carregar até 100 MB por arquivo com uma conta.

Primeiro, escolha um idioma e escolha o tipo de formatos de saída que você deseja para o arquivo convertido. Você tem algumas opções e pode escolher mais de uma, se quiser. Em documento de várias páginas, você pode selecionar números de página e escolher apenas as páginas que deseja converter. Então você seleciona o arquivo e clica em Converter !

Após a conversão, você será levado à seção Documentos (se estiver logado), onde poderá ver quantas páginas livres disponíveis você tem e links para baixar seus arquivos convertidos. Parece que você só tem 25 páginas grátis por dia, então se precisar de mais do que isso, terá que esperar um pouco ou comprar mais páginas.

O OCR on-line fez um excelente trabalho ao converter meus PDFs porque conseguiu manter o layout real do texto. No meu teste, peguei um documento do Word que usava marcadores, tamanhos de fonte diferentes, etc. e os converti para um PDF. Em seguida, usei o OCR on-line para convertê-lo de volta no formato do Word e ele era aproximadamente 95% igual ao original. Isso é muito impressionante para mim.

Além disso, se você deseja converter uma imagem em texto, o OCR on-line pode fazer isso tão facilmente quanto extrair texto de arquivos PDF.

OCR on-line gratuito

Já que estamos falando de imagem para texto OCR, deixe-me mencionar outro bom site que funciona muito bem em imagens. OCR on-line gratuito foi muito bom e muito preciso ao extrair texto das minhas imagens de teste. Eu tirei algumas fotos do meu iPhone de páginas de livros, panfletos, etc e fiquei surpreso com o quão bem ele foi capaz de converter o texto.

Escolha o seu arquivo e clique no botão Upload. Na tela seguinte, há algumas opções e uma prévia da imagem. Você pode cortá-lo se não quiser fazer o OCR. Em seguida, basta clicar no botão OCR e o texto convertido aparecerá abaixo da visualização da imagem. Também não tem limitações, o que é muito bom.

Além dos serviços on-line, há dois conversores de PDF freeware que desejo mencionar caso você precise de um software executado localmente em seu computador para realizar as conversões. Com os serviços on-line, você sempre precisará de uma conexão com a Internet e isso pode não ser possível para todos. No entanto, notei que a qualidade das conversões dos programas freeware era significativamente pior do que a dos sites.

Extrator de Texto A-PDF

O A-PDF Text Extractor é um freeware que faz um bom trabalho ao extrair texto de arquivos PDF. Depois de baixá-lo e instalá-lo, clique no botão Abrir para escolher o arquivo PDF. Em seguida, clique em Extrair texto para iniciar o processo.

Ele perguntará a você um local para armazenar o arquivo de saída de texto e, em seguida, começará a extrair. Você também pode clicar no botão Opção, que permite escolher apenas algumas páginas para extrair e o tipo de extração. A segunda opção é interessante porque extrai o texto em diferentes layouts e vale a pena tentar todos os três para ver qual deles oferece a melhor saída.

Piloto PDF2Text

PDF2Text Pilot faz um bom trabalho de extrair texto. Não tem nenhuma opção; você acabou de adicionar arquivos ou pastas, converter e esperar pelo melhor. Funcionou bem em alguns PDFs, mas para a maioria deles, havia vários problemas.

Basta clicar em Add Files e depois em Convert . Quando a conversão estiver concluída, clique em Browse para abrir o arquivo. Sua milhagem irá variar usando este programa, então não espere muito.

Além disso, vale a pena mencionar que, se você estiver em um ambiente corporativo ou puder obter uma cópia do Adobe Acrobat do trabalho, poderá realmente obter resultados muito melhores. O Acrobat obviamente não é gratuito, mas tem opções para converter PDF para Word, Excel e HTML. Ele também faz o melhor trabalho de manter a estrutura do documento original e converter textos complicados.


Como criar formulários preenchíveis com o Microsoft Word

Como criar formulários preenchíveis com o Microsoft Word

Criar formulários com o Microsoft Word é fácil, mas o desafio surge quando você decide criar formulários preenchíveis com opções que você pode enviar para as pessoas e preenchê-los digitalmente. Se você precisa de um formulário para coletar informações sobre pessoas ou se está tentando fazer uma pesquisa para testar a resposta do usuário ao software ou a um novo produto, o MS Word tem a solução para você.

(how-to)

Como ver se sua VPN está vazando suas informações pessoais

Como ver se sua VPN está vazando suas informações pessoais

Muitas pessoas usam VPNs (redes virtuais privadas) para mascarar suas identidades, criptografar suas comunicações ou navegar na Web de um local diferente. Todos esses objetivos podem desmoronar se a sua informação real estiver vazando através de uma falha de segurança, o que é mais comum do que você imagina.

(how-to)