LinuxParty
Colaborador Anónimo. escribió "Esta
guía describe como instalar Tesseract OCR en Ubuntu 7.04. OCR
significa: "Optical Character Recognition". El sistema resultabe podría
permitir la conversiones de las imágenes que forman el texto en
ficheros de Texto. Tesseract esta licenciado bajo el Apache License v2.0

El programa tesseract-ocr fue comprado por Google a HP hace varios años y la verdad es que reconoce incluso el texto en varias columnas, cosa que ni la versión 7 del famoso software de reconocimiento óptico de caracteres (OCR) de Adobe es capaz de hacer.
El programa lo podéis descargar desde https://code.google.com/p/tesseract-ocr/ , aunque la imagen tiene que estar en formato TIFF para que sea reconocida.
El artículo lo puede leer en:
https://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704

-
Empleo
- SGAE e Internautas, enfrentados por Frikipedia.
- La fortuna de Bill Gates es demasiado grande.
- VeriSign llega a un acuerdo con ICANN sobre el .com
- Los salarios públicos superan en un 44% a los privados
- El comercio electrónico creció en España un 71%
- La banda ancha podría impulsar la economía y el empleo en Alemania
- 20 reglas para crear sitios web exitosos
- Como hice un millón de dólares en tres meses.
- Los empleados utilizan los PCs para buscar trabajo desde la oficina
- ¿Cuanto gana un programador de Java en cada país?
- Los escritores catalanes reclaman el canon por préstamo a las bibliotecas
- Un co-fundador de Greenpeace apoya la energía nuclear