Saltearse al contenido

Voice To Text

El modulo openaiaudioToText transcribe archivos de audio a texto utilizando la API Whisper de OpenAI. Recibe la ruta de un archivo de audio en el sistema de archivos local, lo envia a la API de OpenAI y retorna la transcripcion como texto. Es un modulo generico de transcripcion que puede ser utilizado directamente en un workflow o invocado internamente por otros modulos como telegramVoiceToText. Soporta multiples formatos de audio compatibles con Whisper (ogg, mp3, wav, m4a, etc.).

ParametroTipoRequeridoDescripcion
credentials_idcredentialsSiCredencial con apiKey de OpenAI para la API de Whisper.
audioPathtextSiRuta absoluta del archivo de audio a transcribir en el sistema de archivos del servidor.

Se requiere una credencial con el siguiente campo:

  • apiKey: API Key de OpenAI con acceso al modelo Whisper. Alternativamente, se puede configurar la variable de entorno OPENAI_API_KEY.
{
"nextModule": "siguiente_modulo",
"data": {
"transcript": "Este es el texto transcrito del audio",
"originalPath": "/ruta/al/archivo/audio.ogg"
}
}
{
"label": "Voice To Text",
"credentials_id": "credencial_openai",
"audioPath": "/temporal/cli_1/archivo.ogg"
}
  • El archivo de audio debe existir en el sistema de archivos del servidor antes de ejecutar el modulo. Si no existe, se lanza un error.
  • La API Key se busca primero en las credenciales configuradas (config.apiKey) y luego en la variable de entorno OPENAI_API_KEY.
  • Formatos de audio soportados por Whisper: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg.
  • El campo originalPath en la salida contiene la ruta del archivo procesado, util para limpieza posterior.
  • Si ocurre un error en la transcripcion, se lanza una excepcion (no retorna error suave).
  • telegramVoiceToText - Modulo que utiliza este internamente para audio de Telegram
  • telegramReceive - Trigger que proporciona archivos de audio