Saltearse al contenido

Gemini AI

Este modulo permite realizar llamadas a la API de Google Gemini para generacion de texto y analisis de imagenes. Soporta dos modos de operacion:

  1. Modo Chat (chat): Envia un prompt de texto al modelo y recibe una respuesta generada. Es una llamada simple sin historial ni memoria.
  2. Modo Imagen (image): Envia un prompt de texto junto con una imagen codificada en base64 para que el modelo la analice. Util para descripcion de imagenes, OCR, clasificacion visual, etc.

El modulo:

  1. Obtiene las credenciales (apiKey) desde el sistema de credenciales.
  2. Valida que el prompt exista y que en modo imagen se proporcione image_base64.
  3. Construye el payload con las partes de texto y opcionalmente la imagen.
  4. Envia la solicitud a la API REST de Gemini.
  5. Retorna la respuesta completa del modelo.

A diferencia del modulo agentChat, este modulo no mantiene historial ni memoria entre llamadas. Es ideal para tareas puntuales de generacion o analisis.

ParametroTipoRequeridoDescripcion
credentials_idcredentialsSiCredenciales de la API de Google Gemini (apiKey).
prompttextareaSiInstrucciones o pregunta para el modelo. Soporta variables {{variable}}.
modelselectNoModelo de Gemini a utilizar. Opciones: gemini-2.0-flash, gemini-1.5-pro, gemini-1.5-flash. Default: gemini-2.0-flash.
ParametroTipoRequeridoDescripcion
image_base64textSiImagen codificada en Base64 o variable {{image}}.

Se requiere credentials_id con un objeto que contenga apiKey (clave de API de Google Gemini, obtenible desde https://aistudio.google.com/app/apikey).

{
"nextModule": "siguiente-nodo",
"data": {
"candidates": [
{
"content": {
"parts": [
{ "text": "Respuesta generada por el modelo" }
],
"role": "model"
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 10,
"candidatesTokenCount": 50,
"totalTokenCount": 60
}
}
}
{
"credentials_id": "credencial-gemini",
"mode": "chat",
"model": "gemini-2.0-flash",
"prompt": "Explica en 3 puntos las ventajas de la automatizacion"
}
{
"credentials_id": "credencial-gemini",
"mode": "image",
"model": "gemini-2.0-flash",
"prompt": "Describe que hay en esta imagen",
"image_base64": "{{imagen_capturada}}"
}
  • Google Gemini API: POST https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent
  • Autenticacion mediante header X-goog-api-key.
  • Este modulo realiza llamadas sin estado (stateless). Para conversaciones con historial, usar el modulo agentChat.
  • El modo imagen envia la imagen como inlineData con mimeType image/jpeg.
  • La respuesta se retorna tal como la devuelve la API de Gemini, sin parseo adicional.
  • Los modelos disponibles son: gemini-2.0-flash (rapido y economico), gemini-1.5-pro (mas capaz), gemini-1.5-flash (balance entre velocidad y capacidad).
  • Errores comunes: apiKey invalida, imagen demasiado grande para el contexto, modelo no disponible.
  • agentChat - Agente IA Conversacional (con historial y memoria)
  • openaiAccess - OpenAI API (alternativa de OpenAI)
  • openaiImages - OpenAI Generate Image (generacion de imagenes)