Recoñece o texto nun ficheiro PDF en liña

Pin
Send
Share
Send


Está lonxe de ser sempre posible extraer texto dun ficheiro PDF usando copias regulares. Moitas veces as páxinas de tales documentos son contidos dixitalizados das súas versións en papel. Para converter tales ficheiros en datos de texto completamente editables, úsanse programas especiais coa función de recoñecemento óptico de caracteres (OCR).

Tales decisións son moi difíciles de aplicar e, polo tanto, custan moito diñeiro. Se necesitas recoñecer regularmente texto de PDF, é bastante recomendable mercar o programa adecuado. En casos raros, será máis lóxico usar un dos servizos en liña dispoñibles con funcións similares.

Como recoñecer texto de PDF en liña

Por suposto, o abanico de funcións de servizos en liña OCR, en comparación con solucións de escritorio a nivel completo, é máis limitado. Pero tamén podes traballar con eses recursos de xeito gratuíto ou cun prezo nominal. O principal é que coa súa tarefa principal, é dicir, co recoñecemento de texto, as aplicacións web correspondentes tamén o fan.

Método 1: ABBYY FineReader Online

A empresa de desenvolvemento de servizos é un dos líderes no campo do recoñecemento óptico de documentos. ABBYY FineReader para Windows e Mac é unha potente solución para converter PDF a texto e traballar máis con el.

Por suposto, o análogo baseado na web do programa é inferior a el en función. Non obstante, o servizo pode recoñecer texto de dixitalizacións e fotos en máis de 190 idiomas. A conversión de ficheiros PDF en documentos de Word, Excel, etc. son compatibles.

Servizo en liña ABBYY FineReader en liña

  1. Antes de comezar a traballar coa ferramenta, crea unha conta no sitio ou inicie sesión usando a súa conta de Facebook, Google ou Microsoft.

    Para ir á xanela de autorización, faga clic no botón "Entrada" na barra de menú superior.
  2. Despois de iniciar sesión, importe o documento PDF desexado a FineReader mediante o botón "Cargar ficheiros".

    A continuación, fai clic "Escolla números de páxinas" e especifique o intervalo desexado para o recoñecemento de texto.
  3. A continuación, seleccione os idiomas presentes no documento, o formato do ficheiro resultante e faga clic no botón "Recoñecer".
  4. Despois do procesamento, cuxa duración depende totalmente do volume do documento, pode descargar o ficheiro rematado con datos de texto simplemente facendo clic no seu nome.

    Ou exportalo a un dos servizos na nube dispoñibles.

O servizo distínguese probablemente polos algoritmos máis precisos de recoñecemento de texto en imaxes e ficheiros PDF. Por desgraza, o seu uso gratuíto está limitado a cinco páxinas procesadas ao mes. Para traballar con documentos máis voluminosos, terás que mercar unha subscrición anual.

Non obstante, se OCR raramente é necesario, ABBYY FineReader Online é unha excelente opción para extraer texto de pequenos ficheiros PDF.

Método 2: OCR en liña gratuíto

Servizo sinxelo e cómodo para dixitalizar texto. Sen rexistro, o recurso permite recoñecer 15 páxinas PDF completas por hora. OCR en liña gratuíto funciona completamente con documentos en 46 idiomas e sen autorización admite tres formatos de exportación de texto: DOCX, XLSX e TXT.

Ao rexistrarse, o usuario ten a oportunidade de procesar documentos de varias páxinas, pero o número gratuíto destas mesmas páxinas está limitado a 50 unidades.

Servizo de balde en liña OCR

  1. Para recoñecer o texto de PDF como "convidado", sen autorización sobre o recurso, use o formulario apropiado na páxina principal do sitio.

    Seleccione o documento desexado usando o botón Arquivo, especifique o idioma principal do texto, o formato de saída, e agarde a que se cargue o ficheiro e faga clic Converter.
  2. Ao finalizar o proceso de dixitalización, fai clic "Descarga o ficheiro de saída" para gardar o documento rematado con texto no ordenador.

Para os usuarios autorizados, a secuencia de accións é algo diferente.

  1. Use o botón "Rexistro" ou "Entrada" na barra de menú superior para, en consecuencia, crear unha conta OCR en liña gratuíta ou iniciar sesión.
  2. Despois de autorizar no panel de recoñecemento, manteña premida a tecla CTRL, selecciona ata dous idiomas do documento fonte da lista fornecida.
  3. Especifique máis opcións para extraer texto de PDF e faga clic Seleccionar ficheiro para cargar un documento ao servizo.

    A continuación, para comezar o recoñecemento, fai clic Converter.
  4. Ao finalizar o procesamento do documento, faga clic na ligazón co nome do ficheiro de saída na columna correspondente.

    O resultado de recoñecemento gardarase inmediatamente na memoria do seu computador.

Se precisa extraer texto dun pequeno documento PDF, pode recorrer con seguridade á ferramenta anterior. Para traballar con voluminosos ficheiros, terás que mercar caracteres adicionais no OCR en liña gratuíto ou usar outra solución.

Método 3: NewOCR

Servizo OCR totalmente gratuíto que permite extraer texto de case todos os documentos gráficos e electrónicos como DjVu e PDF. O recurso non impón restricións ao tamaño e número de ficheiros recoñecidos, non require rexistro e ofrece unha ampla gama de funcións relacionadas.

NewOCR soporta 106 idiomas e pode procesar correctamente incluso pescudas de documentos de baixa calidade. É posible seleccionar manualmente a área para o recoñecemento de texto na páxina do ficheiro.

Servizo en liña de NewOCR

  1. Así, pode comezar a traballar cun recurso inmediatamente, sen necesidade de realizar accións innecesarias.

    Na páxina principal hai un formulario para importar un documento ao sitio. Para cargar un ficheiro en NewOCR, use o botón "Seleccionar ficheiro" na sección "Selecciona o teu ficheiro". Logo no campo "Idioma (s) de recoñecemento" especifique un ou varios idiomas do documento de orixe e logo faga clic "Cargar + OCR".
  2. Estableza a súa configuración de recoñecemento preferida, seleccione a páxina da que desexa extraer texto e faga clic no botón OCR.
  3. Desprácese un pouco pola páxina e atopa o botón "Descargar".

    Fai clic nel e na lista despregable selecciona o formato de documento necesario para descargar. Despois, o ficheiro rematado co texto extraído descargarase no teu computador.

A ferramenta é conveniente e unha calidade bastante alta recoñece a todos os personaxes. Non obstante, o procesamento de cada páxina do documento PDF importado debe iniciarse de forma independente e mostrarse nun ficheiro separado. Pode, por suposto, copiar inmediatamente os resultados do recoñecemento no portapapeis e combinalos con outros.

Non obstante, dado o matiz descrito anteriormente, é moi difícil extraer grandes cantidades de texto usando NewOCR. Con pequenos ficheiros, o servizo xestiona un golpe.

Método 4: OCR.Space

Un recurso sinxelo e comprensible para dixitalizar texto, permítelle recoñecer documentos PDF e dar o resultado a un ficheiro TXT. Non se fornecen límites no número de páxinas. A única limitación é que o tamaño do documento de entrada non debe exceder os 5 megas.

OCR.Space Online Service

  1. Non é necesario rexistrarse para traballar coa ferramenta.

    Só tes que seguir a ligazón anterior e cargar o documento PDF ao sitio web dende o ordenador mediante o botón "Seleccionar ficheiro" ou desde a rede - por referencia.
  2. Na lista despregable "Seleccionar idioma de OCR" Seleccione o idioma do documento importado.

    A continuación, inicie o proceso de recoñecemento de texto facendo clic no botón "Comeza OCR!".
  3. Ao final do procesamento de ficheiros, lea o resultado no campo Resultado OCR'ed e fai clic "Descargar"para descargar o documento TXT rematado.

Se só precisa extraer o texto do PDF e ao mesmo tempo non é importante o formato final, OCR.Space é unha boa elección. O único é que o documento debe ser "monolingüe", xa que o recoñecemento de dous ou máis idiomas ao mesmo tempo non está previsto no servizo.

Vexa tamén: Análogos gratuítos de FineReader

Avaliando as ferramentas en liña presentadas no artigo, hai que destacar que FineReader Online de ABBYY manexa a función OCR de forma máis precisa e eficiente. Se a máxima precisión do recoñecemento de texto é importante para vostede, é mellor considerar esta opción especialmente. Pero moi probablemente tamén terás que pagalo.

Se necesitas dixitalizar pequenos documentos e estás preparado para corrixir erros de xeito independente no servizo, é recomendable usar NewOCR, OCR.Space ou OCR en liña gratuíto.

Pin
Send
Share
Send