360 graus internet
Contactos    Testemunhos Clientes    Portfólio Sites    Microblog

Google indexa agora ficheiros Adobe PDF imagens via ocr

Desde há muito tempo que o Google indexa ficheiros Adobe PDF, baseado em texto.

Aliás,  existe na internet excelente conteúdo no formato PDF.

A novidade é que o Google, indexa agora os ficheiros PDF que são baseados em imagens, através da utilização do OCR (Optical Character Recognition).

O que muda ?

Primeiro: vai tornar visisível, isto é , pesquisáveis, uma grande qunatidade de documentos que antigamente só eram acessíveis via link directo.

Segundo: permite que as empresas tenham documentos em papel, digitalizar esses documentos e transformá-los no formato PDF, sabendo à partida que passam  ser pesquisáveis.

Muitos gestores de conteúdos, não percebendo as implicações das implicações de ficheiros PDF-imagens, colocaram da rede documentos. É de facto uma segunda oportunidade, em termos de visibilidade.

Na realidade é uma grande opportunidade em termos de conteúdo, para muitas empresas, nomeadamente em termos de manuais, etc.

Terceiro: vai trazer à luz do dia muitos documentos, que de outra maneira não seriam acessíveis.

Exemplo real


A Google para efeito de demonstração dá este exemplo : http://www.google.com/search?q=repairing+aluminum+wiring.



Se clicarmos na primeira entrada [PDF], vai abrir um ficheiro PDF em formato imagem, resultado de uma digitalização. Mais em baixo, termos a versão html  ( texto) resultado do OCR, e por isso pesquisável.