TCA ConvertDoc 1.4, hazle OCR a PDF de gran tamañño!

01/06/2023 16 min

Escuchar "TCA ConvertDoc 1.4, hazle OCR a PDF de gran tamañño! "

Síntesis del Episodio

Muy atentos. Hoy les comparto la actualización de mi programa para convertir entre formatos de documentos: TCA ConvertDoc, que llega a la versión 1.4, restructurado y muy mejorado sobre todo en OCR. ,
Antes, para quienes no lo conozcan:
¿Qué es TCA ConvertDoc?
es una pequeña utilidad (Windows) portable, gratuito, desarrollada en el lenguaje de programación: Python
Cuenta con una interfaz 100% accesible, con atajos de teclado.
Nos permite convertir entre formatos de documentos: doc, docx, RTF, epub, pdf, HTML, odt, txt, markdown, PNG, JPG (OCR), Y: PPTx. De una forma sencilla, directa y accesible.
También: TCA ConvertDoc puede reconocer imágenes en formato png, archivos PDF jpg y pasarlas al formato TXT (haciéndoles un Reconocimiento óptico de Caracteres u OCR).
Convertir documentos, nunca fue más sencillo, no solo de forma individual lo vamos a poder realizar;
TCA ConvertDoc también nos permite convertir por lotes, es decir, vamos a poder agregar toda una carpeta, y en segundos tendremos todos los archivos convertidos al formato escogido, todos de una sola vez.
Novedades en: TCA ConvertDoc 1.4:
• Selección de motor OCR:
En TCA ConvertDoc 1.4 podremos seleccionar ahora en la interfaz principal, desde un cómodo cuadro combinado el motor OCR que deseamos utilizar;
Podemos optar por:
Tesseract: es el motor OCR por defecto.
LTSM: es otro motor OCR que viene incorporado en el paquete Tesseract, que puede dar mejores resultados. En su contra, se dice que puede ser un tanto más lento.
• Selección de idioma del OCR:
También ahora podremos escoger el idioma En el que deseamos realizar el reconocimiento óptico de caracteres (OCR). Por ahora solo contamos con 3 idiomas:
Español: es el idioma seleccionado por defecto.
Inglés.
Italiano.
Los podemos escoger desde el cuadro combinado: “Lenguaje del OCR” que se encuentra en la interfaz principal.
• TCA ConvertDoc 1.4 puede hacer OCR a PDFs de gran tamaño:
Se optimizó el reconocimiento óptico de caracteres, para archivos PDF de gran tamaño (con muchas páginas). Ahora la conversión se realiza sin problemas, y lo hace más rápido que la versión anterior.
• TCA ConvertDoc 1.4 informará de errores:
Ahora si el programa detecta que sucede o encuentra cualquier error, lo informará en una ventana de diálogo, con lo que se facilita saber el porqué del error.
• Se añadió la traducción a los  idiomas inglés y turco:
Ahora TCA ConvertDoc, soporta el idioma inglés y el turco, aparte del italiano y español de la versión anterior.
• Atajos de teclado en la interfaz principal:
Ahora contamos con atajos de teclado para llegar rápidamente a los controles de la interfaz principal:
Escoja (Alt+E).
Lenguaje del OCR (Alt+L)
Motor OCR (Alt+M).
Y el que ya teníamos: Convertir (Alt+C).
• Se actualizó Tesseract.
El motor OCR Tesseract, se actualizó a su última versión. También la librería: Pytesseract.
• Restructurado todo el código de TCA ConvertDoc:
Todo el código ha sido restructurado, optimizado, corregido y mejorado. Algunas conversiones no funcionaban de forma correcta.
Aparte ahora está basado en Python 3.11 con lo que se potencia el programa.