IA de alto rendimiento: vLLM y Qwen VLM en producción

El despliegue de una ia de alto rendimiento requiere el dominio de herramientas de orquestación de inferencia como vLLM, que utiliza PagedAttention para maximizar el rendimiento. En este curso, se aborda la integración de modelos multimodales avanzados como Qwen VLM, permitiendo que los sistemas no solo procesen texto, sino que comprendan información visual con alta precisión. Por lo tanto, el enfoque principal es eliminar los cuellos de botella en la memoria de video y reducir el tiempo de respuesta en entornos productivos. El objetivo es alcanzar una eficiencia técnica que permita escalar soluciones de IA minimizando los costes de computación.

IA de alto rendimiento (vLLM & Qwen VLM)

Arquitectura de una ia de alto rendimiento

En primer lugar, comprender el funcionamiento de vLLM es esencial para cualquier arquitecto de sistemas modernos. Los alumnos aprenden a gestionar la memoria KV-Cache para permitir un flujo de tokens constante y sin latencia excesiva. Por este motivo, el contenido detalla la configuración de motores de inferencia para ia de alto rendimiento utilizando arquitecturas de atención optimizadas. Asimismo, se explora el despliegue de Qwen VLM para tareas de comprensión de imágenes y documentos complejos. Además de esto, se explica cómo la cuantización de modelos (AWQ o GPTQ) permite ejecutar modelos masivos en hardware más accesible. En consecuencia, se democratiza el acceso a capacidades de visión artificial de última generación. Por otra parte, se estudian los benchmarks de rendimiento para comparar diferentes backends de ejecución. De igual importancia es el aprendizaje sobre el servicio de APIs compatibles con OpenAI para facilitar la integración. En definitiva, el uso de estas tecnologías asegura un despliegue de IA robusto y escalable.

Aplicación práctica y escenarios reales

En cuanto a la implementación técnica, los participantes resolverán casos de optimización de throughput mediante el batching continuo de vLLM. Deberán diseñar flujos de trabajo donde Qwen VLM procese feeds de video en tiempo real para la extracción de metadatos. Por lo tanto, se practican dinámicas de ajuste de parámetros de inferencia para equilibrar precisión y velocidad. Los alumnos configuran contenedores Docker optimizados para GPU con drivers NVIDIA específicos para aceleración de ia de alto rendimiento. Adicionalmente, los escenarios incluyen la creación de sistemas de RAG multimodal donde la imagen aporta contexto crítico a la respuesta del modelo. Por otro lado, el curso ofrece soluciones para la monitorización de latencia y uso de VRAM en producción. Asimismo, se exploran técnicas de despliegue en nubes públicas como AWS o Google Cloud utilizando instancias aceleradas. En relación con la escalabilidad, se abordan casos de balanceo de carga entre múltiples nodos GPU. Por último, cada taller refuerza la capacidad de evaluar críticamente el coste por token de cada arquitectura. Así se garantiza que la solución sea técnica y económicamente viable.

Conclusión sobre la ia de alto rendimiento

En resumen, este programa técnico sitúa al profesional en la vanguardia del despliegue de modelos generativos. Al finalizar el curso, el estudiante dominará la infraestructura necesaria para sostener una ia de alto rendimiento bajo condiciones de alta demanda. Podrá implementar asistentes visuales y conversacionales que superen las limitaciones de los métodos tradicionales de inferencia. Debido a la rápida evolución de los modelos Qwen y las herramientas de servicio, estos conocimientos son vitales para mantener la competitividad tecnológica. Por consiguiente, se logra un equilibrio entre la potencia bruta de los modelos y la eficiencia operativa. En conclusión, la maestría en vLLM y Qwen VLM es el estándar de oro para la ingeniería de IA actual.

¿Eres docente?

¿Quieres saber más?

Duración30 horas

ModalidadOnline

TecnologíaCloud Computing, IA, Programación

¿Qué se aprenderá?

Objetivos del curso

  • Entender los cuellos de botella de la inferencia y cómo optimizarlos con vLLM (gestión de memoria y batching).
  • Desplegar un servidor de inferencia y exponerlo como API compatible con OpenAI.
  • Trabajar con modelos multimodales (VLM) para análisis de imágenes y documentos.
  • Aplicar cuantización para ejecutar modelos grandes en GPUs moderadas (enfoque práctico).
  • Integrar el modelo en scripts y aplicaciones (consumo por API).
  • Construir un flujo de agente: entrada (imagen) → análisis VLM → decisión → acción (JSON).

¿Por qué este curso?

Una formación con impacto real y medible

Explora nuestro catálogo de cursos diseñados para profesionales y empresas que buscan dominar las tecnologías más demandadas.

Cifras de éxito

"Este curso nos ha ayudado a tener éxito en nuestro sector."

Te ofrecemos la mejor formación.
Cifras de éxito
86%

de los participantes aplicaron con éxito los conocimientos obtenidos.
Cifras de éxito
75%

de los participantes obtuvieron nuevas oportunidades laborales.

Testimonios

"Gracias a la formación recibida en Exa Formación, nuestro equipo ha adquirido habilidades clave en inteligencia artificial y ciberseguridad, mejorando significativamente nuestra competitividad."

Roberto Pérez

CEO de Blabla
"Gracias a la formación recibida en Exa Formación, nuestro equipo ha adquirido habilidades clave en inteligencia artificial y ciberseguridad, mejorando significativamente nuestra competitividad."

Laura Sánchez

CEO de Invbit
Cliente Santander – formación tecnológica para empresas
Cliente BBVA – formación tecnológica para empresas
Cliente Minsait – formación tecnológica para empresas
Cliente Indra – formación tecnológica para empresas
Cliente Accenture – formación tecnológica para empresas
Cliente Red Eléctrica de España – formación tecnológica para empresas

Contenidos

Temario

A continuación detallamos todos los módulos impartidos en este curso. Si tiene alguna duda o no aparece, contacte con nosotros.

  • Módulo 1Arquitectura de Inferencia y Aceleración
  • Módulo 2Modelos Multimodales (VLM) con Qwen2-VL
  • Módulo 3Resto de módulos

Arquitectura de Inferencia y Aceleración

6 horas

Optimización de latencia y VRAM mediante vLLM y el concepto de PagedAttention. Implementación de batching continuo para gestionar múltiples usuarios y despliegue práctico de servidores de inferencia en entornos GPU (T4).

Modelos Multimodales (VLM) con Qwen2-VL

8 horas

Integración de vision encoders con LLMs para tareas de OCR, descripción de escenas y extracción de datos. Aplicación de cuantización (AWQ/FP8) para ejecutar modelos de gran escala en hardware de consumo y análisis técnico de documentos complejos.

Resto de módulos

Resto de horas

Si quiere conocer el resto de módulos, contacte con nosotros.

Metodología

Aprendizaje basado en la práctica

Cada módulo combina teoría y ejercicios aplicados

Implementación técnica centrada en el rendimiento de inferencia, cuantización de modelos y despliegue escalable en infraestructuras GPU.

Público objetivo

Formación para profesionales actuales

Enfocado a quienes buscan dominar herramientas tecnológicas modernas

Ingenieros de Machine Learning, desarrolladores de IA y arquitectos de soluciones que buscan maximizar el rendimiento de modelos de lenguaje y visión.

FAQ

Resolvemos tus dudas sobre la formación

Aclaramos las dudas más comunes sobre el curso, desde los requisitos previos hasta la metodología y el soporte disponible, para asegurarte de que estés completamente preparado para aprovechar al máximo esta formación.

Mad Formacion

¿Se puede personalizar la formación para mi empresa?

Sí, ofrecemos opciones de formación adaptadas a las necesidades específicas de tu equipo y objetivos empresariales.
Mad Formacion

¿Cuál es el nivel de experiencia requerido para el curso?

Este curso está diseñado para profesionales con experiencia en otras herramientas de informes, como JasperReports.
Mad Formacion

¿Es posible combinar modalidad online y presencial?

Sí, ofrecemos un formato híbrido que combina lo mejor de ambos mundos para mayor flexibilidad.
Mad Formacion

¿Se entrega un certificado al realizar este curso?

Sí, al completar el curso, se entrega un certificado digital en formato PDF.

Otros cursos

Cursos especializados para impulsar tu negocio

Explora nuestro catálogo de cursos diseñados para profesionales y empresas que buscan dominar las tecnologías más demandadas.

Herramientas y plataformas para el desarrollo de IA

Duración12 horas

ModalidadOnline

Domina las principales herramientas y plataformas de IA para crear modelos, automatizar flujos y desplegar soluciones reales.

Certified Ethical Hacker (CEH)

Duración40 horas

ModalidadOnline

Domina el hacking ético y las técnicas ofensivas necesarias para evaluar y fortalecer la seguridad de sistemas.

Integración de IA en el Proceso de Desarrollo de Software

Duración16 horas

ModalidadOnline

Aprende a integrar IA en el desarrollo de software para automatizar tareas, mejorar calidad y acelerar entregas.

Oracle 23ai y RMAN para administradores de datos de emergencias

Duración40 horas

ModalidadOnline

Domina Oracle 23ai y RMAN para gestionar emergencias, recuperar datos y asegurar continuidad operativa.

Veritas NetBackup 10.0: Advanced Administration

Duración40 horas

ModalidadOnline

Domina la administración avanzada de Veritas NetBackup 10.0 y optimiza la protección de datos en entornos críticos.

Servicios Cloud Pública Disponibles en los CSPs (Azure, Google Cloud, AWS)

Duración25 horas

ModalidadOnline

Conoce los servicios clave de la cloud pública y aprende a seleccionar las soluciones adecuadas en Azure, Google Cloud y AWS.

Seguridad en la Cloud Pública (Azure, Google Cloud, AWS)

Duración25 horas

ModalidadOnline

Aprende a proteger entornos cloud públicos aplicando controles, políticas y herramientas de seguridad nativas.

Rust – Arquitectura

Duración28 horas

ModalidadOnline

Domina la arquitectura en Rust y aprende a diseñar aplicaciones modernas, rápidas y altamente fiables.

Proxmox VE: Virtualización y Administración Avanzada

Duración32 horas

ModalidadOnline

Aprende a gestionar entornos virtualizados con Proxmox VE y domina clústeres, HA y administración avanzada.

Introducción a kotlin

Duración40 horas

ModalidadPresencial

Aprende los fundamentos de Kotlin y comienza a desarrollar aplicaciones modernas con un lenguaje claro y potente.

Preparación para la Certificación Oracle APEX Cloud Developer Professional (1Z0-770)

Duración40 horas

ModalidadOnline

Prepárate para la certificación Oracle APEX Cloud Developer 1Z0‑770 y domina el desarrollo low‑code en Oracle Cloud.

Optimización y Automatización con Microsoft Copilot y Azure AI

Duración15 horas

ModalidadOnline

Domina Microsoft Copilot y Azure AI para crear automatizaciones inteligentes y mejorar la productividad empresarial.

Descubre cómo podemos ayudarte a mejorar las habilidades digitales de tus empleados.

Si eres un experto en tecnología y quieres enseñar, únete a nuestra red de formadores.

Ir al contenido