Voice To Text

Descripcion

El modulo openaiaudioToText transcribe archivos de audio a texto utilizando la API Whisper de OpenAI. Recibe la ruta de un archivo de audio en el sistema de archivos local, lo envia a la API de OpenAI y retorna la transcripcion como texto. Es un modulo generico de transcripcion que puede ser utilizado directamente en un workflow o invocado internamente por otros modulos como telegramVoiceToText. Soporta multiples formatos de audio compatibles con Whisper (ogg, mp3, wav, m4a, etc.).

Configuracion

Parametro	Tipo	Requerido	Descripcion
credentials_id	credentials	Si	Credencial con apiKey de OpenAI para la API de Whisper.
audioPath	text	Si	Ruta absoluta del archivo de audio a transcribir en el sistema de archivos del servidor.

Credenciales

Se requiere una credencial con el siguiente campo:

apiKey: API Key de OpenAI con acceso al modelo Whisper. Alternativamente, se puede configurar la variable de entorno OPENAI_API_KEY.

Salida

{
  "nextModule": "siguiente_modulo",
  "data": {
    "transcript": "Este es el texto transcrito del audio",
    "originalPath": "/ruta/al/archivo/audio.ogg"
  }
}

Ejemplo de Uso

Caso basico

{
  "label": "Voice To Text",
  "credentials_id": "credencial_openai",
  "audioPath": "/temporal/cli_1/archivo.ogg"
}

API Utilizada

OpenAI Whisper API: POST https://api.openai.com/v1/audio/transcriptions
Modelo: whisper-1
Formato: multipart/form-data con el archivo de audio
Documentacion: https://platform.openai.com/docs/api-reference/audio/createTranscription

Notas

El archivo de audio debe existir en el sistema de archivos del servidor antes de ejecutar el modulo. Si no existe, se lanza un error.
La API Key se busca primero en las credenciales configuradas (config.apiKey) y luego en la variable de entorno OPENAI_API_KEY.
Formatos de audio soportados por Whisper: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg.
El campo originalPath en la salida contiene la ruta del archivo procesado, util para limpieza posterior.
Si ocurre un error en la transcripcion, se lanza una excepcion (no retorna error suave).

Nodos Relacionados

telegramVoiceToText - Modulo que utiliza este internamente para audio de Telegram
telegramReceive - Trigger que proporciona archivos de audio