[IAT-110] Integración de LLMs de pesos abiertos en aplicaciones on-premises

[IAT-110] Integración de LLMs de pesos abiertos en aplicaciones on-premises

Este curso trata sobre integración de LLMs open source en entornos on-premises. Aborda conceptos clave, comparación de modelos, despliegue en CPU/GPU, uso vía APIs y casos reales. Incluye seguridad, control de respuestas y evaluación de herramientas como LangChain o LlamaIndex para construir aplicaciones de IA eficientes y privadas.

Duración:                    15 horas

Perfil:                           Avanzado

Dirigido a

Esta acción formativa va dirigida a dirigida a técnicos con experiencia en IA Generativa, administradores de sistemas y desarrolladores back-end / full-stack.

Requisitos previos 

Los alumnos necesitarán tener conocimientos de programación y de entornos de desarrollo.

Objetivos

  • Sentar bases técnicas sólidas para el resto del curso.

  • Elegir el modelo adecuado en función del caso de uso y los recursos disponibles.

  • Tener el modelo listo y funcionando localmente.

  • Integrar LLMs en herramientas reales on-premises.

  • Proteger las llamadas y el retorno de los LLMs.

  • Elegir la mejor herramienta de orquestación y automatización en IA.





Contenido

  1. Introducción y definición de conceptos clave

    1. Qué es un token, embeddings y cómo se usan

    2. Chunking, ventana de contexto y su impacto en las respuestas

    3. Bases vectoriales open source

    4. Cuantización (int8, gguf…), rendimiento vs precisión

    5. RAG, Agentes, Pipelines

    6. Protocolos MCP (Model Context Protocol), ACP (Agent Communication Protoco), A2A (Angent to Agent)

  2. Comparativa de modelos LLMs de pesos abiertos actuales

    1. Mistral, LlaMA, DeepSeek, Qwen, etc

    2. Parámetros, calidad, licencia, requisitos de hardware

    3. Modelos multilingües, modelos multimodales y modelos adaptados a dominios específicos

  3. Selección, instalación, configuración y despliegue de modelos on-premises

    1. Entornos: Ollama, LM Studio, vLLM, llama.cpp, Docker, HF Text Generation Inference

    2. Ejecución en GPU y CPU (cuantización)

    3. Benchmark y pruebas de rendimiento

    4. Configuración de rutas de acceso, tiempo de respuesta, logs

  4. Acceso mediante API y ejemplos de uso

    1. Exposición del modelo vía REST o websocket

    2. Hacer pruebas con plugins de IA reales:

      1. IA en Rouncube: respuesta de correos

      2. IA en Nextcloud: asistente de escritura

      3. IA en Moodle: generación y resumen de contenidos

  5. Cómo securizar las peticiones y las respuestas a un LLM

    1. Validación y sanitización de entradas

    2. Filtrado de respuestas: toxicidad, hallucinations

    3. Autenticación y autorización en endpoints LLM

    4. Logs, trazabilidad y cumplimiento del AI Act

  6. Comparativa de entornos open-source on-premises de integración de IA

    1. LangChain vs n8n vs Flowise vs LlamaIndex

    2. Cuándo usar cada uno: orquestación, pipelines, agentes

    3. Limitaciones en entornos locales, estrategias híbridas

 



Documentación Recomendada

Se utilizará la documentación de referencia del proyecto.