Uso de LLM locales mediante Ollama

Descripción general

Este documento explica cómo el widget personalizado de AI Assist se integra con Modelos de Lenguaje Grandes (LLM) implementados localmente usando Ollama. También destaca las ventajas de usar Ollama como una solución de IA local en comparación con los proveedores en la nube (como OpenAI y Gemini).

Para obtener una guía detallada sobre cómo instalar LLM locales con Ollama, haga clic aquí.

Haga clic aquí para obtener instrucciones paso a paso para configurar el widget con los proveedores OpenAI y Gemini.

Configuración del proveedor

Ollama se configura en config.json con la marca enabled establecida en true.

{

"name": "Ollama",

"enabled": "true"

}

A diferencia de otros proveedores, Ollama no requiere una clave API, ya que se ejecuta localmente.

Cómo funciona la integración con Ollama

Detecta automáticamente los proveedores disponibles

El widget realiza una solicitud GET a http://localhost:11434/api/tags para comprobar si Ollama está en ejecución.

Respuesta de ejemplo

{

"models": [

{"name": "llama2", "modified_at": "2024-01-20T12:00:00Z"},

{"name": "mistral", "modified_at": "2024-01-20T12:00:00Z"}

]

}

En caso de cualquier problema (por ejemplo, una conexión rechazada), el widget cambia automáticamente al siguiente proveedor disponible (OpenAI/Gemini) y muestra un mensaje de advertencia.

Seleccione el proveedor en la lista desplegable Using del widget para cambiar de proveedor manualmente.

Se comunica mediante endpoints de API

El widget se comunica con Ollama a través de sus endpoints de API HTTP. Por ejemplo, el endpoint para generar respuestas de IA es /api/generate.

Solicitud de ejemplo

POST http://localhost:11434/api/generate

Content-Type: application/json

{

"model": "mistral",

"prompt": "Analiza esta solicitud de servicio: El usuario no puede acceder al correo electrónico",

"stream": false,

"options": {

"temperature": 0.7,

"max_tokens": 500

}

Capacidades de integración

- Análisis de texto: Analiza la solicitud para identificar problemas clave, niveles de prioridad, sentimiento del solicitante y otros análisis para ayudar a los técnicos.

- Planificación de resolución de solicitudes: Genera planes de acción paso a paso para resolver solicitudes según la descripción y el contexto de la solicitud.

- Consultas generales de IA: Permite a los usuarios hacer preguntas de formato libre sobre cualquier aspecto de una solicitud.

- Respuestas con reconocimiento de contexto: Hace referencia a detalles relevantes de la solicitud y su historial para proporcionar respuestas contextuales.

Ventajas de Ollama como solución local

1. Privacidad y seguridad de los datos

- Todos los datos permanecen dentro de su infraestructura: Los datos sensibles no se verán comprometidos fuera de la red de la organización.

- Sin compartir datos con proveedores externos en la nube: Elimina el riesgo de exposición de datos a servicios en la nube de terceros.

- Control completo sobre el manejo y la retención de datos: Defina y aplique sus propias políticas de retención y manejo de datos.

- Cumplimiento de las normativas de protección de datos: Facilita el cumplimiento de GDPR y HIPAA al mantener los datos internamente.

2. Beneficios de costos

- Sin precios por token o por solicitud: Proporciona un costo fijo de infraestructura en lugar de una facturación basada en el uso.

- Costos de infraestructura predecibles: Brinda una comprensión clara de los gastos según su inversión en hardware.

- Llamadas API ilimitadas dentro de las capacidades de su hardware: Le ayuda a realizar solicitudes API ilimitadas mientras su hardware pueda manejarlas, sin cargos adicionales.

3. Personalización y control

- Control total sobre la selección y las versiones del modelo: Cambie entre cualquier modelo de código abierto compatible.

Actualmente, el widget utiliza el modelo mistral, totalmente de código abierto.

- Parámetros de respuesta personalizables: Ajuste los tokens y otros parámetros para obtener resultados óptimos.

- Sin dependencia de un proveedor: Libertad para cambiar entre diferentes modelos y arquitecturas.

4. Rendimiento de red

- Sin dependencia de internet para la inferencia: Le permite continuar con las operaciones incluso durante interrupciones de internet.

- Rendimiento confiable sin límites de tasa de API: Tiempos de respuesta constantes sin limitaciones externas de API.

- Funciona en entornos aislados (air-gapped): Ideal para entornos de alta seguridad sin acceso a internet.

Mejores prácticas para la integración con Ollama

Gestión de recursos

- Supervise los recursos del sistema: Realice un seguimiento del uso de CPU, GPU y memoria para garantizar un rendimiento óptimo.

- Escalado de hardware según los patrones de uso: Actualice la infraestructura según las métricas reales de uso.

Selección del modelo

- Elija modelos adecuados para su caso de uso: Seleccione los modelos que mejor se adapten a sus requisitos específicos.

- Actualizaciones y mantenimiento regulares del modelo: Asegúrese de que los modelos de IA se actualicen regularmente con las versiones más recientes y los parches de seguridad.