RECOñECEMENTO DE DIXITALIZACIóN E TEXTO

Send

Boas tardes

Probablemente, cada un de nós afrontase a tarefa cando era necesario traducir un documento en papel en formato electrónico. Isto é especialmente frecuente para aqueles que estudan, traballan con documentación, traducen textos usando dicionarios electrónicos, etc.

Neste artigo, gustaríame compartir algúns dos conceptos básicos deste proceso. En xeral, a busca e recoñecemento de texto leva moito tempo, xa que a maioría das operacións terán que facerse manualmente. Trataremos de descubrir que, como e por que.

Non todos entenden de inmediato unha cousa. Despois de dixitalizar (axustar todas as follas do escáner) terás imaxes en formato BMP, JPG, PNG, GIF (pode que haxa outros formatos). Así, a partir desta imaxe é preciso obter o texto: este procedemento chámase recoñecemento. Nesta orde figurarase a continuación.

Contidos

1. Que se precisa para a dixitalización e recoñecemento?
2. Opcións de dixitalización de texto
3. Recoñecemento do texto do documento
- 3.1 Texto
- 3.2 Imaxes
- 3.3 Táboas
- 3.4 Elementos innecesarios
4. Recoñecemento de ficheiros PDF / DJVU
5. Comprobar erros e gardar os resultados do traballo

1. Que se precisa para a dixitalización e recoñecemento?

1) Escáner

Para converter documentos impresos en texto, primeiro precisa un escáner e, en consecuencia, os programas e controladores "nativos" que o acompañaron. Usándoos, pode dixitalizar un documento e gardalo para o seu posterior procesamento.

Podes usar outros análogos, pero o software que inclúe o escáner no kit normalmente funciona máis rápido e ten máis opcións.

Dependendo de que tipo de escáner dispoña, a velocidade de traballo pode variar de xeito significativo. Hai escáneres que poden recibir unha imaxe nunha folla en 10 segundos, hai que recibirán en 30 segundos. Se escanea un libro entre 200 e 300 follas, creo que non é difícil calcular cantas veces haberá unha diferenza horaria?

2) Programa de recoñecemento

No noso artigo mostrarei o traballo nun dos mellores programas para dixitalizar e recoñecer absolutamente calquera documento - ABBYY FineReader. Porque Dado que o programa está pagado, inmediatamente vou dar unha ligazón a outro - o seu análogo gratuíto de Cunei Form. Certo, non as compararía, debido a que FineReader gaña en todos os aspectos, aínda recomendo probalo.

ABBYY FineReader 11

Páxina web oficial: //www.abbyy.ru/

Un dos mellores programas deste tipo. Está deseñado para recoñecer o texto da imaxe. Incorporado en moitas opcións e funcións. Pode analizar moitos tipos de letra, incluso admite opcións escritas a man (aínda que eu non o probei persoalmente, creo que é improbable que poida recoñecer a versión escrita a non ser que teña a caligrafía perfecta). Máis detalles sobre o traballo con ela descríbese a continuación. Aquí tamén observamos que o artigo falará de traballar no programa da versión 11.

Por regra xeral, as versións diferentes de ABBYY FineReader non son moi diferentes entre si. Podes facer o mesmo noutro. As principais diferenzas poden estar na comodidade, velocidade do programa e as súas capacidades. Por exemplo, as versións anteriores rexeitan abrir un PDF e DJVU ...

3) Documentos para a dixitalización

Si, así, decidín facer dos documentos unha columna separada. Na maioría dos casos, algúns libros de texto, xornais, artigos, revistas, etc., son dixitalizados. eses libros e a literatura que demanda. A que estou levando? Por experiencia persoal, podo dicir que é probable que moito que queiras dixitalizar xa estea na rede! Cantas veces aforrei tempo cando atopei un libro en particular escaneado na rede. Todo o que tiña que facer era copiar o texto no documento e continuar traballando con el.

A partir disto, un consello sinxelo: antes de dixitalizar algo, comproba se alguén xa dixitalizou e non necesita perder o tempo.

2. Opcións de dixitalización de texto

Aquí non falarei dos teus controladores para o escáner, dos programas que o acompañaron, porque todos os modelos de escáneres son diferentes, o software tamén é diferente en todas partes e non é realista adiviñar como realizar a operación.

Pero todos os escáneres teñen a mesma configuración, o que pode afectar moito a velocidade e calidade do seu traballo. Aquí falaremos só. Vou facer unha lista.

1) Calidade de busca - DPI

En primeiro lugar, estableza a calidade de dixitalización nas opcións como mínimo a 300 DPI. Mesmo é recomendable establecer máis se é posible. Canto maior sexa o indicador DPI, máis clara será a túa imaxe e, polo tanto, o procesamento será máis rápido. Ademais, canto maior sexa a calidade da dixitalización, menos erros terás que corrixir despois.

A mellor opción normalmente proporciona 300-400 DPI.

2) Cor

Este parámetro afecta moi intensamente o tempo de dixitalización (por certo, DPI tamén afecta, pero estes son tan fortes e só cando o usuario establece valores altos).

Normalmente hai tres modos:

- branco e negro (perfecto para texto simple);

- gris (adecuado para texto con táboas e imaxes);

- cor (para revistas de cores, libros, en xeral, documentos onde a cor é importante).

Normalmente, o tempo de dixitalización depende da elección da cor. De feito, se tes un documento grande, entón os 5-10 segundos adicionais da páxina no seu conxunto serán expostos nun momento decente ...

3) Fotos

Pode obter un documento non só a dixitalización, senón tamén fotografándoa. Por regra xeral, neste caso terás outros problemas: distorsión de imaxe, falta de definición. Por iso, pode ser necesaria unha maior edición e procesamento do texto recibido. Persoalmente, non recomendo usar cámaras para este negocio.

É importante ter en conta que non todos os documentos deste tipo poden ser recoñecidos porque a calidade de comprobación pode ser extremadamente baixa ...

3. Recoñecemento do texto do documento

Supoñemos que recibiu as apreciadas páxinas dixitalizadas. Na maioría das veces son formatos: tif, bmb, jpg, png. En xeral, para ABBYY FineReader, isto non é moi importante ...

Despois de abrir unha imaxe en ABBYY FineReader, o programa normalmente selecciona áreas e recoñéceas na máquina. Pero ás veces faino mal. Para iso, consideraremos a selección das áreas necesarias manualmente.

Importante! Non todos entenden inmediatamente que despois de abrir un documento no programa, o documento de orixe aparece na xanela esquerda, na que selecciona varias áreas. Despois de facer clic no botón "recoñecemento", o programa da xanela da dereita amosará o texto rematado. Despois do recoñecemento, por certo, é aconsellable comprobar que o texto atopa erros no mesmo FineReader.

3.1 Texto

Esta área úsase para resaltar texto. Deben excluírse imaxes e táboas. As fontes raras e inusuales deberán introducirse manualmente ...

Para seleccionar unha área de texto, preste atención ao panel que hai na parte superior de FineReader. Hai un botón "T" (ver a captura de pantalla a continuación, o punteiro do rato está só neste botón). Fai clic sobre el e logo na imaxe de abaixo, selecciona a área perfectamente rectangular na que se atopa o texto. Por certo, nalgúns casos cómpre crear bloques de texto de 2-3, e ás veces de 10-12 por páxina, porque a formato de texto pode ser diferente e un rectángulo non selecciona toda a área.

É importante ter en conta que as imaxes non deben caer na área de texto. No futuro, isto aforrarás moito tempo ...

3.2 Imaxes

Úsase para resaltar imaxes e áreas difíciles de recoñecer debido á mala calidade ou ao tipo de letra inusual.

Na captura de pantalla de abaixo, o punteiro do rato está situado no botón usado para seleccionar a área "imaxe". Por certo, nesta área podes seleccionar absolutamente calquera parte da páxina e FineReader inserila no documento como unha imaxe normal. I.e. só unha copia "estupidamente" ...

Normalmente esta área úsase para resaltar táboas mal dixitalizadas, para resaltar texto e letra non estándar, por si só imaxes.

3.3 Táboas

A captura de pantalla mostra un botón para resaltar as táboas. En xeral, persoalmente úsano extremadamente raramente. O certo é que terá que deseñar rutineiramente (de feito) cada liña da mesa e mostrar que e como facer o programa. Se a táboa é pequena e non é de moi boa calidade, recomendo empregar a área "foto" para estes efectos. Así, aforrar moito tempo, e a táboa pódese facer rapidamente en Word en función da imaxe.

3.4 Elementos innecesarios

É importante ter en conta. Ás veces hai na páxina elementos innecesarios que interfiren no recoñecemento do texto, ou incluso evitan que resalte a área desexada. Pódense eliminar completamente coa goma de borrar.

Para iso, vaia ao modo de edición de imaxes.

Seleccione a ferramenta de borrar e seleccione a área innecesaria. Eliminarase e estará no seu lugar unha folla de papel branca.

Por certo, recoméndoche que use esta opción a maior frecuencia posible. Proba todas as áreas de texto que seleccionou, onde non precise un anaco de texto, ou hai puntos innecesarios, borroso, distorsión. Eliminar cunha goma de borrar. Grazas a isto, o recoñecemento será máis rápido!

4. Recoñecemento de ficheiros PDF / DJVU

En xeral, este formato de recoñecemento non será diferente do resto - i.e. podes traballar con el igual que coas imaxes. O único é que o programa non debería ser demasiado antigo se os ficheiros PDF / DJVU non se abren para ti - actualice a versión 11.

Un pequeno consello. Despois de abrir o documento en FineReader, comezará automaticamente a recoñecer o documento. Moitas veces nos ficheiros PDF / DJVU, non se necesita unha área específica da páxina en todo o documento. Para eliminar tal área en todas as páxinas, realice o seguinte:

1. Vaia á sección de edición de imaxes.

2. Activa a opción "corte".

3. Seleccione a área que desexe en todas as páxinas.

4. Fai clic en aplicar a todas as páxinas e recortar.

5. Comprobar erros e gardar os resultados do traballo

Parecería que aínda podía haber problemas cando se resaltasen todas as áreas, logo recoñécese, lévao e gárdao ... ¡Aí foi!

En primeiro lugar, precisa un control de documentos.

Para habilitala, despois do recoñecemento, na xanela da dereita, haberá un botón "comprobar", consulte a captura de pantalla de abaixo. Despois de facer clic nel, o programa FineReader mostraralle automaticamente as áreas onde o programa ten erros e non foi capaz de identificar de forma fiable un determinado personaxe. Só terás que escoller, ben estás de acordo coa opinión do programa, ou ben introduce o teu personaxe.

Por certo, a metade dos casos, aproximadamente, o programa ofreceralle unha palabra correcta preparada - só tes que seleccionar a opción necesaria co rato.

En segundo lugar, despois de comprobar, debes escoller o formato no que gardas o resultado do teu traballo.

Aquí FineReader permítelle pasar ao máximo: pode simplemente transferir información a Word un a un ou pode gardala nunha decena de formatos. Pero gustaríame destacar outro aspecto importante. Calquera que sexa o formato que escollas, é máis importante escoller o tipo de copia. Considere as opcións máis interesantes ...

Copia exacta

Todas as áreas que resaltou na páxina do documento recoñecido coincidirán exactamente co documento orixinal. Unha opción moi conveniente cando é importante que non perda o formato do texto. Por certo, as fontes tamén serán moi similares ao orixinal. Con esta opción, recomendo a transferencia do documento a Word para que continúe o traballo.

Copia editable

Esta opción é boa porque obtén unha versión xa formateada do texto. I.e. sangría con "quilómetro", que quizais estivera no documento de orixe - non se atopará. Opción útil cando vai editar significativamente a información.

Certo, non debes escoller se é importante para ti conservar o estilo de deseño, fontes, guiones. Ás veces, se o recoñecemento non é moi exitoso, o seu documento pode "inclinarse" debido ao cambio de formato. Neste caso, é recomendable escoller a copia exacta.

Texto simple

Unha opción para aqueles que precisan só texto dunha páxina sen todo o demais. Adecuado para documentos sen imaxes e táboas.

Este artigo sobre a dixitalización e recoñecemento dun documento chegou ao seu fin. Espero que con estes sinxelos consellos poidas resolver os teus problemas ...

Moita sorte

Send