Gemini AI

Descripcion

Este modulo permite realizar llamadas a la API de Google Gemini para generacion de texto y analisis de imagenes. Soporta dos modos de operacion:

Modo Chat (chat): Envia un prompt de texto al modelo y recibe una respuesta generada. Es una llamada simple sin historial ni memoria.
Modo Imagen (image): Envia un prompt de texto junto con una imagen codificada en base64 para que el modelo la analice. Util para descripcion de imagenes, OCR, clasificacion visual, etc.

El modulo:

Obtiene las credenciales (apiKey) desde el sistema de credenciales.
Valida que el prompt exista y que en modo imagen se proporcione image_base64.
Construye el payload con las partes de texto y opcionalmente la imagen.
Envia la solicitud a la API REST de Gemini.
Retorna la respuesta completa del modelo.

A diferencia del modulo agentChat, este modulo no mantiene historial ni memoria entre llamadas. Es ideal para tareas puntuales de generacion o analisis.

Configuracion

Parametros (Modo Chat)

Parametro	Tipo	Requerido	Descripcion
credentials_id	credentials	Si	Credenciales de la API de Google Gemini (apiKey).
prompt	textarea	Si	Instrucciones o pregunta para el modelo. Soporta variables {{variable}}.
model	select	No	Modelo de Gemini a utilizar. Opciones: gemini-2.0-flash, gemini-1.5-pro, gemini-1.5-flash. Default: gemini-2.0-flash.

Parametros adicionales (Modo Imagen)

Parametro	Tipo	Requerido	Descripcion
image_base64	text	Si	Imagen codificada en Base64 o variable {{image}}.

Credenciales

Se requiere credentials_id con un objeto que contenga apiKey (clave de API de Google Gemini, obtenible desde https://aistudio.google.com/app/apikey).

Salida

{
  "nextModule": "siguiente-nodo",
  "data": {
    "candidates": [
      {
        "content": {
          "parts": [
            { "text": "Respuesta generada por el modelo" }
          ],
          "role": "model"
        },
        "finishReason": "STOP"
      }
    ],
    "usageMetadata": {
      "promptTokenCount": 10,
      "candidatesTokenCount": 50,
      "totalTokenCount": 60
    }
  }
}

Ejemplo de Uso

Caso basico - Texto

{
  "credentials_id": "credencial-gemini",
  "mode": "chat",
  "model": "gemini-2.0-flash",
  "prompt": "Explica en 3 puntos las ventajas de la automatizacion"
}

Caso basico - Imagen

{
  "credentials_id": "credencial-gemini",
  "mode": "image",
  "model": "gemini-2.0-flash",
  "prompt": "Describe que hay en esta imagen",
  "image_base64": "{{imagen_capturada}}"
}

API Utilizada

Google Gemini API: POST https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent
Autenticacion mediante header X-goog-api-key.

Notas

Este modulo realiza llamadas sin estado (stateless). Para conversaciones con historial, usar el modulo agentChat.
El modo imagen envia la imagen como inlineData con mimeType image/jpeg.
La respuesta se retorna tal como la devuelve la API de Gemini, sin parseo adicional.
Los modelos disponibles son: gemini-2.0-flash (rapido y economico), gemini-1.5-pro (mas capaz), gemini-1.5-flash (balance entre velocidad y capacidad).
Errores comunes: apiKey invalida, imagen demasiado grande para el contexto, modelo no disponible.

Nodos Relacionados

agentChat - Agente IA Conversacional (con historial y memoria)
openaiAccess - OpenAI API (alternativa de OpenAI)
openaiImages - OpenAI Generate Image (generacion de imagenes)