OCR Extractor

Descripcion

El modulo OCR Extractor utiliza la libreria Tesseract.js para extraer texto de imagenes. Soporta multiples idiomas y funciona con formatos de imagen comunes como JPG, PNG, etc. Es ideal para automatizar la lectura de facturas, albaranes, documentos escaneados, o cualquier imagen que contenga texto. La ruta de la imagen puede venir de la configuracion del nodo o del data de entrada del workflow.

Configuracion

Parametro	Tipo	Requerido	Descripcion
imagePath	text	Si	Ruta local de la imagen a analizar (ej: uploads/foto.jpg)
lang	text	No	Idioma del texto en la imagen. Ejemplo: ‘spa’ para espanol, ‘eng’ para ingles (por defecto: spa)
persistent	boolean	No	Propaga el data de entrada junto con el resultado

Salida

{
  "nextModule": "siguiente_modulo",
  "data": {
    "content": "Texto extraido de la imagen mediante OCR..."
  }
}

Ejemplo de Uso

Caso basico

{
  "imagePath": "/uploads/factura_001.jpg",
  "lang": "spa"
}

Usando ruta del data

{
  "imagePath": "",
  "lang": "eng",
  "persistent": true
}

En este caso, la ruta se tomara de data.imagePath o data.filePath.

Notas

La ruta de la imagen se busca en este orden: config.imagePath, data.imagePath, data.filePath
Si el archivo no existe en la ruta especificada, el modulo retorna error
Idiomas soportados: spa (espanol), eng (ingles), fra (frances), deu (aleman), entre otros (ver documentacion de Tesseract)
El texto extraido se devuelve limpio (sin espacios al inicio/final) en el campo content
Si persistent esta activo, los datos de entrada se conservan junto con el resultado
La precision del OCR depende de la calidad de la imagen
No requiere credenciales

Nodos Relacionados

PDF Extractor - Extraer texto de PDFs
Read Excel - Leer datos de archivos Excel