Voice To Text
Descripcion
Sección titulada «Descripcion»El modulo openaiaudioToText transcribe archivos de audio a texto utilizando la API Whisper de OpenAI. Recibe la ruta de un archivo de audio en el sistema de archivos local, lo envia a la API de OpenAI y retorna la transcripcion como texto. Es un modulo generico de transcripcion que puede ser utilizado directamente en un workflow o invocado internamente por otros modulos como telegramVoiceToText. Soporta multiples formatos de audio compatibles con Whisper (ogg, mp3, wav, m4a, etc.).
Configuracion
Sección titulada «Configuracion»| Parametro | Tipo | Requerido | Descripcion |
|---|---|---|---|
| credentials_id | credentials | Si | Credencial con apiKey de OpenAI para la API de Whisper. |
| audioPath | text | Si | Ruta absoluta del archivo de audio a transcribir en el sistema de archivos del servidor. |
Credenciales
Sección titulada «Credenciales»Se requiere una credencial con el siguiente campo:
apiKey: API Key de OpenAI con acceso al modelo Whisper. Alternativamente, se puede configurar la variable de entornoOPENAI_API_KEY.
{ "nextModule": "siguiente_modulo", "data": { "transcript": "Este es el texto transcrito del audio", "originalPath": "/ruta/al/archivo/audio.ogg" }}Ejemplo de Uso
Sección titulada «Ejemplo de Uso»Caso basico
Sección titulada «Caso basico»{ "label": "Voice To Text", "credentials_id": "credencial_openai", "audioPath": "/temporal/cli_1/archivo.ogg"}API Utilizada
Sección titulada «API Utilizada»- OpenAI Whisper API:
POST https://api.openai.com/v1/audio/transcriptions - Modelo:
whisper-1 - Formato: multipart/form-data con el archivo de audio
- Documentacion: https://platform.openai.com/docs/api-reference/audio/createTranscription
- El archivo de audio debe existir en el sistema de archivos del servidor antes de ejecutar el modulo. Si no existe, se lanza un error.
- La API Key se busca primero en las credenciales configuradas (
config.apiKey) y luego en la variable de entornoOPENAI_API_KEY. - Formatos de audio soportados por Whisper: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg.
- El campo
originalPathen la salida contiene la ruta del archivo procesado, util para limpieza posterior. - Si ocurre un error en la transcripcion, se lanza una excepcion (no retorna error suave).
Nodos Relacionados
Sección titulada «Nodos Relacionados»- telegramVoiceToText - Modulo que utiliza este internamente para audio de Telegram
- telegramReceive - Trigger que proporciona archivos de audio