Saltearse al contenido

OCR Extractor

El modulo OCR Extractor utiliza la libreria Tesseract.js para extraer texto de imagenes. Soporta multiples idiomas y funciona con formatos de imagen comunes como JPG, PNG, etc. Es ideal para automatizar la lectura de facturas, albaranes, documentos escaneados, o cualquier imagen que contenga texto. La ruta de la imagen puede venir de la configuracion del nodo o del data de entrada del workflow.

ParametroTipoRequeridoDescripcion
imagePathtextSiRuta local de la imagen a analizar (ej: uploads/foto.jpg)
langtextNoIdioma del texto en la imagen. Ejemplo: ‘spa’ para espanol, ‘eng’ para ingles (por defecto: spa)
persistentbooleanNoPropaga el data de entrada junto con el resultado
{
"nextModule": "siguiente_modulo",
"data": {
"content": "Texto extraido de la imagen mediante OCR..."
}
}
{
"imagePath": "/uploads/factura_001.jpg",
"lang": "spa"
}
{
"imagePath": "",
"lang": "eng",
"persistent": true
}

En este caso, la ruta se tomara de data.imagePath o data.filePath.

  • La ruta de la imagen se busca en este orden: config.imagePath, data.imagePath, data.filePath
  • Si el archivo no existe en la ruta especificada, el modulo retorna error
  • Idiomas soportados: spa (espanol), eng (ingles), fra (frances), deu (aleman), entre otros (ver documentacion de Tesseract)
  • El texto extraido se devuelve limpio (sin espacios al inicio/final) en el campo content
  • Si persistent esta activo, los datos de entrada se conservan junto con el resultado
  • La precision del OCR depende de la calidad de la imagen
  • No requiere credenciales