OCR Extractor
Descripcion
Sección titulada «Descripcion»El modulo OCR Extractor utiliza la libreria Tesseract.js para extraer texto de imagenes. Soporta multiples idiomas y funciona con formatos de imagen comunes como JPG, PNG, etc. Es ideal para automatizar la lectura de facturas, albaranes, documentos escaneados, o cualquier imagen que contenga texto. La ruta de la imagen puede venir de la configuracion del nodo o del data de entrada del workflow.
Configuracion
Sección titulada «Configuracion»| Parametro | Tipo | Requerido | Descripcion |
|---|---|---|---|
| imagePath | text | Si | Ruta local de la imagen a analizar (ej: uploads/foto.jpg) |
| lang | text | No | Idioma del texto en la imagen. Ejemplo: ‘spa’ para espanol, ‘eng’ para ingles (por defecto: spa) |
| persistent | boolean | No | Propaga el data de entrada junto con el resultado |
{ "nextModule": "siguiente_modulo", "data": { "content": "Texto extraido de la imagen mediante OCR..." }}Ejemplo de Uso
Sección titulada «Ejemplo de Uso»Caso basico
Sección titulada «Caso basico»{ "imagePath": "/uploads/factura_001.jpg", "lang": "spa"}Usando ruta del data
Sección titulada «Usando ruta del data»{ "imagePath": "", "lang": "eng", "persistent": true}En este caso, la ruta se tomara de data.imagePath o data.filePath.
- La ruta de la imagen se busca en este orden:
config.imagePath,data.imagePath,data.filePath - Si el archivo no existe en la ruta especificada, el modulo retorna error
- Idiomas soportados:
spa(espanol),eng(ingles),fra(frances),deu(aleman), entre otros (ver documentacion de Tesseract) - El texto extraido se devuelve limpio (sin espacios al inicio/final) en el campo
content - Si
persistentesta activo, los datos de entrada se conservan junto con el resultado - La precision del OCR depende de la calidad de la imagen
- No requiere credenciales
Nodos Relacionados
Sección titulada «Nodos Relacionados»- PDF Extractor - Extraer texto de PDFs
- Read Excel - Leer datos de archivos Excel