Modelos Open Source 2025: Top 10 LLMs para Homelab con Benchmarks Reales
📋 TL;DR
Los modelos LLM open source han alcanzado niveles de rendimiento comparables a modelos propietarios como GPT-4, pero elegir el modelo correcto para tu homelab puede ser abrumador. Esta guía presenta los 10 mejores modelos open source de 2025 con benchmarks reales en RTX 4090/5090, requisitos exactos de VRAM, velocidad de inferencia (tokens/segundo), y recomendaciones prácticas por caso de uso.
Lo que conseguirás:
- ✅ Comparativa completa de los 10 mejores modelos con benchmarks reales
- ✅ Requisitos exactos de VRAM y quantización para cada modelo
- ✅ Velocidad real de inferencia en hardware consumer (RTX 3090/4090/5090)
- ✅ Guías de instalación paso a paso con Ollama y vLLM
- ✅ Recomendaciones específicas por caso de uso (coding, general, razonamiento)
Tiempo de lectura: ~25 minutos | Nivel: Intermedio-Avanzado
—📚 Tabla de Contenidos
- Introducción: ¿Por Qué Modelos Open Source en 2025?
- Criterios de Selección y Benchmarks
- Top 10 Modelos Open Source 2025
- Tabla Comparativa Completa
- Guía de Instalación Rápida
- Recomendaciones por Caso de Uso
- Mejores Prácticas
- Troubleshooting Común
- Preguntas Frecuentes
- Conclusión y Próximos Pasos
📅 Última actualización: Noviembre 2025
✅ Verificado con: Ollama v0.1.x, vLLM v0.6.x
🔄 Próxima revisión: Febrero 2026
—Introducción: ¿Por Qué Modelos Open Source en 2025? {#introduccion}
El panorama de los modelos de lenguaje grandes (LLMs) ha cambiado drásticamente en 2025. Mientras que hace dos años ejecutar un modelo de calidad comparable a GPT-4 requería servidores con múltiples GPUs A100, hoy puedes ejecutar modelos de 70 mil millones de parámetros en una sola RTX 4090 de 24GB con quantización inteligente.
El problema: Con cientos de modelos open source disponibles, elegir el correcto para tu homelab es complicado. ¿Necesitas velocidad o calidad? ¿Coding o general purpose? ¿Qué modelo funciona realmente en tu GPU de 24GB?
La solución: Esta guía presenta los 10 mejores modelos open source de 2025 con datos reales: benchmarks de velocidad en RTX 4090/5090, requisitos exactos de VRAM, y recomendaciones prácticas basadas en casos de uso reales. Si necesitas información detallada sobre hardware y benchmarks, consulta nuestra Guía Completa de Homelab con GPU 24GB+.
En esta guía completa aprenderás:
- Los 10 modelos open source más destacados de 2025 con benchmarks reales
- Requisitos exactos de VRAM y quantización para cada modelo
- Velocidad real de inferencia (tokens/segundo) en hardware consumer
- Cómo instalar y configurar cada modelo con Ollama y vLLM
- Recomendaciones específicas por caso de uso (coding, razonamiento, general)
- Mejores prácticas de quantización y optimización de VRAM
Ya seas desarrollador buscando un modelo para coding, investigador que necesita razonamiento avanzado, o entusiasta de homelab explorando IA local, esta guía te ayudará a elegir el modelo perfecto para tus necesidades.

Criterios de Selección y Benchmarks {#criterios}
Para seleccionar los 10 mejores modelos, evaluamos:
Benchmarks Clave
MMLU (Massive Multitask Language Understanding): Mide conocimiento general en 57 tareas académicas. Un score >80% indica rendimiento comparable a GPT-4.
HumanEval: Evalúa capacidad de coding resolviendo 164 problemas de programación. Un score >70% es excelente para modelos open source.
ARC-AGI v2: Mide razonamiento avanzado y capacidad de generalización.
Requisitos de Hardware
VRAM: Evaluamos qué modelos funcionan en GPUs consumer (RTX 3090/4090/5090 con 24-32GB).
Velocidad: Medimos tokens/segundo en hardware real, no solo benchmarks teóricos.
Quantización: Consideramos modelos que funcionan con quantización Q4/Q5 sin pérdida significativa de calidad.
Licencias
Priorizamos modelos con Apache 2.0 (uso comercial sin restricciones) o Llama 3.1 License (comercial permitido con límites razonables).
Casos de Uso
Evaluamos modelos para:
- Coding: Generación y análisis de código
- General Purpose: Chat, resúmenes, traducción
- Razonamiento: Matemáticas, lógica, análisis complejo
- Multimodal: Texto + imágenes/video/audio
Top 10 Modelos Open Source 2025 {#top-10}
1. Llama 3.1 8B / 70B (Meta) {#llama-31}
Desarrollador: Meta AI
Licencia: Llama 3.1 License (comercial permitido)
Parámetros: 8B, 70B, 400B (en desarrollo)
Contexto: 128K tokens
Especificaciones Técnicas
Llama 3.1 8B:
- VRAM FP16: 12.3GB
- Benchmarks RTX 5090: 226 tokens/segundo
- Benchmarks RTX 4090: 213 tokens/segundo
- Benchmarks RTX 3090: 101 tokens/segundo
- MMLU: ~82%
- HumanEval: ~75%
Llama 3.1 70B:
- VRAM FP16: 140GB (requiere quantización)
- VRAM Q4 (GGUF): ~20GB ✅
- VRAM Q2 (IQ2_XS): ~12GB ✅ (60 tokens/segundo)
- MMLU: ~85%
- HumanEval: 77.4%
Instalación
Con Ollama:
# Modelo 8B
ollama pull llama3.1:8b
# Modelo 70B (quantizado automáticamente)
ollama pull llama3.1:70b
Con vLLM:
# 8B
vllm serve meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 1 \
--host 0.0.0.0 \
--port 8000
# 70B (requiere quantización para 24GB)
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--quantization awq \
--load-in-4bit
Casos de Uso Ideales
- 8B: Desarrollo, prototipado rápido, chat general
- 70B: Coding avanzado, razonamiento complejo, producción
Pros y Contras
✅ Pros:
- Excelente balance calidad/velocidad
- Muy bien documentado
- Gran comunidad y soporte
- Funciona perfectamente en 24GB con quantización
❌ Contras:
- Licencia tiene restricciones (aunque permite comercial)
- 70B requiere quantización agresiva para 24GB
2. Qwen2.5 8B / 72B (Alibaba) {#qwen25}
Desarrollador: Alibaba Cloud
Licencia: Apache 2.0 (uso comercial sin restricciones)
Parámetros: 8B, 72B
Contexto: 128K tokens
Especificaciones Técnicas
Qwen2.5 8B:
- VRAM FP16: ~12GB
- Benchmarks RTX 5090: >10,400 tokens/segundo (prefill)
- MMLU: ~78%
- HumanEval: ~72%
Qwen2.5 72B:
- VRAM Q4: Cabe en 32GB
- VRAM Q2: Requerido para 24GB
- MMLU: 86.8% (compite con LLaMA 3.3-70B)
- Contextos largos (32K tokens): RTX 5090 es 50% más rápida que RTX 4090
- RTX 5090: 139,247 tokens contexto activo a 52 tokens/segundo
Instalación
Con Ollama:
ollama pull qwen2.5:8b
ollama pull qwen2.5:72b
Versión Coder (especializada en coding):
ollama pull qwen2.5-coder:8b
Casos de Uso Ideales
- 8B: General purpose, multilingüe (soporta 100+ idiomas)
- 72B: Tareas complejas, razonamiento, análisis
- Coder: Generación y análisis de código
Pros y Contras
✅ Pros:
- Licencia Apache 2.0 (sin restricciones comerciales)
- Excelente rendimiento en prefill (muy rápido)
- Soporte multilingüe excepcional
- Versión Coder especializada disponible
❌ Contras:
- Menos conocido que Llama en comunidad occidental
- 72B requiere quantización para 24GB
3. DeepSeek-Coder-V2 (DeepSeek-AI) {#deepseek-coder}
Desarrollador: DeepSeek-AI
Licencia: Apache 2.0
Parámetros: MoE (6 billones de tokens adicionales de entrenamiento)
Contexto: 128K tokens
Especificaciones Técnicas
- Arquitectura: Mixture of Experts (MoE)
- Benchmarks: Comparable a GPT-4 Turbo en codificación
- Lenguajes soportados: 338 lenguajes de programación
- Especialidad: Coding y razonamiento matemático
Instalación
Con Ollama:
ollama pull deepseek-coder:6.7b
Con vLLM:
vllm serve deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
--tensor-parallel-size 1 \
--host 0.0.0.0 \
--port 8000
Casos de Uso Ideales
- Generación de código en múltiples lenguajes
- Análisis y debugging de código
- Refactoring y optimización
- Razonamiento matemático y algoritmos
Pros y Contras
✅ Pros:
- Mejor modelo open source para coding (según benchmarks)
- Soporta 338 lenguajes de programación
- Licencia Apache 2.0
- Arquitectura MoE eficiente
❌ Contras:
- Menos versátil para tareas generales
- Requiere más VRAM que modelos densos equivalentes
4. DeepSeek R1 (DeepSeek-AI) {#deepseek-r1}
Desarrollador: DeepSeek-AI
Licencia: Apache 2.0
Parámetros: 671B
Contexto: 164K tokens
Especificaciones Técnicas
- Arquitectura: Razonamiento impulsado por aprendizaje por refuerzo
- MMLU: 90.8%
- Arena Elo: 1362
- Benchmarks: Comparable a GPT-4 en codificación y matemáticas
- Especialidad: Razonamiento avanzado, ciencia de datos
Instalación
Con Ollama:
ollama pull deepseek-r1:32b # Versión quantizada
Nota: El modelo completo de 671B requiere múltiples GPUs. Para homelab, usa versiones quantizadas más pequeñas.
Casos de Uso Ideales
- Resolución de problemas matemáticos complejos
- Análisis de datos y ciencia de datos
- Razonamiento lógico avanzado
- Investigación y análisis académico
Pros y Contras
✅ Pros:
- Excelente en razonamiento (MMLU 90.8%)
- Comparable a GPT-4 en tareas complejas
- Licencia Apache 2.0
- Contexto largo (164K tokens)
❌ Contras:
- Modelo completo muy grande (requiere múltiples GPUs)
- Versiones quantizadas pueden perder capacidades de razonamiento
5. Smaug-72B (Abacus AI) {#smaug}
Desarrollador: Abacus AI
Licencia: Apache 2.0
Parámetros: 72B
Contexto: Estándar
Especificaciones Técnicas
- MMLU-Pro: >80
- ARC-AGI v2: >80
- Benchmarks: Primer modelo open source en superar 80 en todas las evaluaciones principales
- Base: Fine-tuned de Qwen-72B
Instalación
Con Ollama:
ollama pull smaug:72b
Casos de Uso Ideales
- General purpose de alta calidad
- Tareas que requieren conocimiento amplio
- Aplicaciones que necesitan rendimiento consistente
Pros y Contras
✅ Pros:
- Primer modelo open source en superar 80 en todas las métricas
- Rendimiento muy consistente
- Licencia Apache 2.0
- Excelente para general purpose
❌ Contras:
- Requiere quantización para 24GB
- Menos especializado que modelos dedicados
6. Mixtral 8x7B (Mistral AI) {#mixtral}
Desarrollador: Mistral AI
Licencia: Apache 2.0
Parámetros: 8x7B (56B totales, 7B activos)
Contexto: 32K tokens
Especificaciones Técnicas
- Arquitectura: Mixture of Experts (MoE)
- VRAM: ~12-14GB (solo activa 7B a la vez)
- Benchmarks: Supera a otros LLMs de tamaño similar
- Especialidad: Eficiencia, bajo consumo de recursos
Instalación
Con Ollama:
ollama pull mixtral:8x7b
Con vLLM:
vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1 \
--tensor-parallel-size 1 \
--host 0.0.0.0 \
--port 8000
Casos de Uso Ideales
- Aplicaciones que requieren eficiencia
- Múltiples usuarios concurrentes
- Recursos limitados
- General purpose con buena velocidad
Pros y Contras
✅ Pros:
- Muy eficiente (solo activa 7B de 56B)
- Excelente relación calidad/VRAM
- Licencia Apache 2.0
- Buen rendimiento general
❌ Contras:
- Contexto más corto que competidores (32K vs 128K)
- Menos especializado que modelos dedicados
7. MiniMax-M2 (MiniMax AI) {#minimax}
Desarrollador: MiniMax AI
Licencia: Apache 2.0
Parámetros: 230B totales, 10B activos (MoE)
Contexto: 204K tokens
Especificaciones Técnicas
- Arquitectura: Mixture of Experts (MoE)
- Ranking: #1 open-source en Intelligence Index
- SWE-Bench Verified: 69.4%
- Especialidad: Coding, workflows agentic
- Costo: 92% más barato que Claude Sonnet
Instalación
Con Ollama:
ollama pull minimax-m2:10b # Versión quantizada
Casos de Uso Ideales
- Generación de código
- Workflows agentic
- Automatización de tareas
- Aplicaciones que requieren razonamiento estructurado
Pros y Contras
✅ Pros:
- #1 en ranking open source
- Excelente para coding
- Licencia Apache 2.0
- Muy eficiente (solo 10B activos)
❌ Contras:
- Menos conocido en comunidad occidental
- Modelo completo muy grande
8. LLaMA 4 Maverick (Meta) {#llama-4}
Desarrollador: Meta AI
Licencia: Llama 3.1 License
Parámetros: 17B activos, 400B totales (MoE)
Contexto: 10 millones de tokens
Especificaciones Técnicas
- Arquitectura: Mixture of Experts (MoE)
- HumanEval: ~62%
- Contexto: 10 millones de tokens (el más largo disponible)
- Especialidad: Multimodal, multilingüe, grandes volúmenes de datos
Instalación
Con Ollama:
ollama pull llama4-maverick:17b
Casos de Uso Ideales
- Procesamiento de documentos muy largos
- Análisis de grandes volúmenes de datos
- Aplicaciones multimodales
- Tareas que requieren contexto extremadamente largo
Pros y Contras
✅ Pros:
- Contexto más largo disponible (10M tokens)
- Multimodal
- Excelente para documentos largos
- Arquitectura MoE eficiente
❌ Contras:
- HumanEval más bajo que competidores
- Licencia con restricciones
- Requiere quantización para 24GB
9. Qwen3-235B-A22B (Alibaba) {#qwen3}
Desarrollador: Alibaba Cloud
Licencia: Apache 2.0
Parámetros: 235B totales, 22B activos (MoE)
Contexto: 128K tokens
Especificaciones Técnicas
- Arquitectura: Mixture of Experts (MoE)
- Modos: Alterna entre razonamiento complejo y diálogo general
- Idiomas: Soporta 100+ idiomas
- Especialidad: Multilingüe, escritura creativa, juegos de rol
Instalación
Con Ollama:
ollama pull qwen3:22b # Versión quantizada
Casos de Uso Ideales
- Aplicaciones multilingües
- Escritura creativa
- Juegos de rol y narrativa
- Tareas que requieren alternar entre modos de razonamiento
Pros y Contras
✅ Pros:
- Excelente soporte multilingüe
- Modos de razonamiento flexibles
- Licencia Apache 2.0
- Muy bueno para creatividad
❌ Contras:
- Modelo completo muy grande
- Menos optimizado para coding
10. Gemma 2 27B (Google) {#gemma}
Desarrollador: Google DeepMind
Licencia: Gemma License (similar a Apache 2.0)
Parámetros: 27B
Contexto: 128K tokens
Especificaciones Técnicas
- Entrenamiento: Documentos web, código, artículos científicos
- Benchmarks: Rendimiento sólido en tareas generales
- Especialidad: General purpose, bien balanceado
Instalación
Con Ollama:
ollama pull gemma2:27b
Casos de Uso Ideales
- General purpose
- Análisis de documentos
- Tareas que requieren conocimiento amplio
- Aplicaciones que necesitan buen balance calidad/velocidad
Pros y Contras
✅ Pros:
- Bien balanceado
- Entrenado en datos diversos
- Licencia permisiva
- Buen rendimiento general
❌ Contras:
- Menos destacado que competidores en benchmarks específicos
- Requiere quantización para 24GB
Tabla Comparativa Completa {#tabla-comparativa}
Tabla Principal: Top 10 Modelos
| Modelo | Parámetros | MMLU | HumanEval | VRAM (24GB) | Velocidad (RTX 4090) | Licencia | Mejor Para |
|---|---|---|---|---|---|---|---|
| Llama 3.1 8B | 8B | ~82% | ~75% | 12.3GB ✅ | 213 tok/s | Llama 3.1 | General, Coding |
| Llama 3.1 70B | 70B | ~85% | 77.4% | 20GB (Q4) ✅ | 60 tok/s (Q2) | Llama 3.1 | Coding, Razonamiento |
| Qwen2.5 8B | 8B | ~78% | ~72% | 12GB ✅ | >10K tok/s (prefill) | Apache 2.0 | General, Multilingüe |
| Qwen2.5 72B | 72B | 86.8% | – | 20GB (Q4) ✅ | 52 tok/s (32K ctx) | Apache 2.0 | General, Razonamiento |
| DeepSeek-Coder-V2 | MoE | – | GPT-4 Turbo | ~14GB | Variable | Apache 2.0 | Coding |
| DeepSeek R1 | 671B | 90.8% | – | 32GB+ (quant) | Variable | Apache 2.0 | Razonamiento |
| Smaug-72B | 72B | >80 | – | 20GB (Q4) ✅ | Variable | Apache 2.0 | General |
| Mixtral 8x7B | 8x7B | – | – | 12-14GB ✅ | Variable | Apache 2.0 | Eficiencia |
| MiniMax-M2 | 230B/10B | – | 69.4% | ~14GB | Variable | Apache 2.0 | Coding |
| LLaMA 4 Maverick | 400B/17B | – | ~62% | 20GB (Q4) ✅ | Variable | Llama 3.1 | Contexto largo |
Tabla por GPU
| GPU | Modelos Recomendados | Quantización |
|---|---|---|
| RTX 3090 (24GB) | Llama 3.1 8B, Qwen2.5 8B, Mixtral 8x7B | FP16 para 8B, Q4 para 70B |
| RTX 4090 (24GB) | Todos los 8B, 70B con Q4 | Q4 para modelos grandes |
| RTX 5090 (32GB) | Todos los modelos | Q4/Q8 para modelos grandes |
Tabla por Caso de Uso
| Caso de Uso | Modelo Recomendado | Alternativa |
|---|---|---|
| Coding | DeepSeek-Coder-V2 | MiniMax-M2, Llama 3.1 70B |
| General Purpose | Qwen2.5 72B | Llama 3.1 70B, Smaug-72B |
| Razonamiento | DeepSeek R1 | Qwen2.5 72B, Llama 3.1 70B |
| Multilingüe | Qwen2.5 8B/72B | Qwen3-235B |
| Eficiencia | Mixtral 8x7B | Llama 3.1 8B |
| Contexto Largo | LLaMA 4 Maverick | Qwen2.5 72B |

Guía de Instalación Rápida {#instalacion}
Ollama (Recomendado para Empezar)
Ollama es la herramienta más fácil para empezar con LLMs locales. Si quieres comparar Ollama con otras opciones, consulta nuestra comparativa Ollama vs LM Studio.
Instalación:
curl https://ollama.ai/install.sh | sh
Descargar modelos top 5:
ollama pull llama3.1:8b
ollama pull qwen2.5:8b
ollama pull mistral:7b
ollama pull deepseek-coder:6.7b
ollama pull llama3.1:70b
Uso básico:
# Chat interactivo
ollama run llama3.1:8b
# API REST
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "¿Qué es un LLM?",
"stream": false
}'
Docker Compose:
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ollama-data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
capabilities: ["gpu"]
restart: unless-stopped
volumes:
ollama-data:
vLLM (Para Producción)
vLLM es el motor de inferencia más rápido para producción, con hasta 24x más throughput que HuggingFace Transformers. Para una guía completa de deployment en producción, consulta vLLM: Deploy LLMs a Escala en Producción.
Instalación:
pip install vllm
Servir Llama 3.1 8B:
vllm serve meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 1 \
--host 0.0.0.0 \
--port 8000 \
--api-key "your-api-key-here"
Servir Llama 3.1 70B (quantizado):
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--quantization awq \
--load-in-4bit \
--tensor-parallel-size 1 \
--host 0.0.0.0 \
--port 8000
Uso con API:
curl http://localhost:8000/v1/chat/completions \
-H "Authorization: Bearer your-api-key-here" \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-3.1-8B-Instruct",
"messages": [{"role": "user", "content": "Hello!"}]
}'
llama.cpp (Para Recursos Limitados)
Instalación:
brew install llama.cpp # macOS/Linux
Servir modelo:
llama-server \
--hf-repo microsoft/Phi-3-mini-4k-instruct-gguf \
--hf-file Phi-3-mini-4k-instruct-q4.gguf \
-c 4096 \
--host 0.0.0.0 \
--port 8080
—
Recomendaciones por Caso de Uso {#casos-uso}
Coding
Mejor opción: DeepSeek-Coder-V2
- Soporta 338 lenguajes de programación
- Comparable a GPT-4 Turbo en benchmarks de coding
- Licencia Apache 2.0
Alternativas:
- MiniMax-M2: #1 en ranking open source, excelente para workflows agentic
- Llama 3.1 70B: 77.4% HumanEval, muy versátil
Instalación:
ollama pull deepseek-coder:6.7b
ollama run deepseek-coder:6.7b "Escribe una función Python para ordenar una lista"
General Purpose
Mejor opción: Qwen2.5 72B
- 86.8% MMLU (compite con LLaMA 3.3-70B)
- Excelente soporte multilingüe
- Licencia Apache 2.0
Alternativas:
- Llama 3.1 70B: Muy bien balanceado, gran comunidad
- Smaug-72B: Primer modelo en superar 80 en todas las métricas
Razonamiento
Mejor opción: DeepSeek R1
- 90.8% MMLU (mejor que la mayoría de modelos open source)
- Especializado en razonamiento avanzado
- Comparable a GPT-4 en matemáticas
Alternativas:
- Qwen2.5 72B: Buen rendimiento general
- Llama 3.1 70B: Versátil y confiable
Multilingüe
Mejor opción: Qwen2.5 8B / 72B
- Soporta 100+ idiomas
- Excelente calidad en múltiples idiomas
- Licencia Apache 2.0
Alternativa:
- Qwen3-235B: Aún mejor soporte multilingüe, pero más grande
Eficiencia / Recursos Limitados
Mejor opción: Mixtral 8x7B
- Solo activa 7B de 56B (muy eficiente)
- Excelente relación calidad/VRAM
- Funciona perfectamente en 24GB
Alternativas:
- Llama 3.1 8B: Muy rápido (213 tok/s en RTX 4090)
- Qwen2.5 8B: Excelente prefill (>10K tok/s)
Mejores Prácticas {#mejores-practicas}
Quantización
La quantización es esencial para ejecutar modelos grandes en GPUs consumer. Para una guía completa sobre quantización, incluyendo comparativas detalladas de GGUF vs GPTQ vs AWQ, consulta Quantization de LLMs: Guía Completa.
Cuándo usar cada nivel:
- Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
- Q5_K_M: Excelente calidad, recomendado para producción
- Q4_K_M: Balance óptimo calidad/tamaño, 3.3x compresión ✅
- Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM limitada
Recomendación: Empieza con Q4_K_M, sube a Q5 si tienes VRAM, baja a Q2 solo si es necesario.
Optimización VRAM
CPU Offloading: Mueve capas no activas a RAM cuando no se usan.
VAE Tiling: Para modelos multimodales, procesa imágenes en tiles.
Batch Size: Reduce batch size si te quedas sin VRAM.
Velocidad vs Calidad
Para desarrollo/prototipado: Usa modelos 8B en FP16 (muy rápidos).
Para producción: Usa modelos 70B con Q4 (mejor calidad, velocidad aceptable).
Para máxima velocidad: Usa vLLM con PagedAttention y continuous batching.
Actualización de Modelos
Ollama: Actualiza automáticamente con ollama pull modelo:latest
vLLM: Actualiza el paquete: pip install --upgrade vllm
Modelos Hugging Face: Descarga nuevas versiones manualmente.
—Troubleshooting Común {#troubleshooting}
Error: Out of Memory
Síntomas: El modelo no carga o se cae durante inferencia.
Soluciones:
- Usa quantización más agresiva (Q4 → Q2)
- Reduce el contexto máximo (
--max-model-len 2048) - Usa CPU offloading si está disponible
- Cierra otras aplicaciones que usen GPU
Ejemplo:
# En lugar de FP16, usa Q4
ollama pull llama3.1:70b # Ollama usa quantización automática
# Con vLLM, fuerza quantización
vLLM serve modelo --quantization awq --load-in-4bit
Modelo Muy Lento
Síntomas: Inferencia muy lenta, <10 tokens/segundo.
Soluciones:
- Usa vLLM en lugar de Ollama (más optimizado)
- Reduce quantización (Q2 → Q4 si tienes VRAM)
- Verifica que estás usando GPU, no CPU
- Cierra otros procesos que usen GPU
Verificar uso GPU:
nvidia-smi # Debe mostrar uso de GPU
Calidad Baja
Síntomas: Respuestas incoherentes o de baja calidad.
Soluciones:
- Reduce quantización (Q2 → Q4 → Q8)
- Usa un modelo más grande (8B → 70B)
- Aumenta temperatura si está muy baja
- Verifica que el prompt es claro
Instalación Falla
Ollama no instala:
# Verifica permisos
sudo curl https://ollama.ai/install.sh | sh
# O instala manualmente
wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64
chmod +x ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama
vLLM no instala:
# Requiere Python 3.8+
python3 --version
# Instala dependencias
pip install vllm[all]
# Si falla, instala sin optimizaciones
pip install vllm --no-cache-dir
—
Preguntas Frecuentes {#faq}
¿Qué modelo es mejor para coding?
Respuesta: DeepSeek-Coder-V2 es el mejor modelo open source para coding según benchmarks, con rendimiento comparable a GPT-4 Turbo. Soporta 338 lenguajes de programación y tiene licencia Apache 2.0. Alternativas excelentes son MiniMax-M2 (#1 en ranking open source) y Llama 3.1 70B (77.4% HumanEval).
¿Puedo ejecutar un modelo 70B en RTX 4090 (24GB)?
Respuesta: Sí, pero requiere quantización. Con quantización Q4 (4-bit), Llama 3.1 70B ocupa ~20GB de VRAM y funciona perfectamente en RTX 4090. Con Q2 (2-bit) baja a ~12GB pero la calidad se reduce. Recomendamos Q4 como balance óptimo.
¿Ollama vs vLLM vs llama.cpp?
Respuesta:
- Ollama: Mejor para empezar, fácil instalación, gestión automática de modelos. Ideal para desarrollo y homelab.
- vLLM: Mejor para producción, máxima velocidad (hasta 24x más rápido que Transformers), OpenAI API compatible. Ideal para APIs y múltiples usuarios.
- llama.cpp: Mejor para recursos limitados, muy ligero, funciona en CPU/GPU. Ideal para edge devices y sistemas con poca VRAM.
¿Qué quantización usar?
Respuesta:
- Q4_K_M: Balance óptimo calidad/tamaño, recomendado para la mayoría de casos ✅
- Q5_K_M: Mejor calidad, usa si tienes VRAM de sobra
- Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
- Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM muy limitada
¿Cuál es el modelo más rápido?
Respuesta: Para modelos 8B, Llama 3.1 8B alcanza 213 tokens/segundo en RTX 4090. Qwen2.5 8B tiene el prefill más rápido (>10,400 tokens/segundo). Para modelos 70B, la velocidad depende de la quantización: Q2 puede alcanzar 60 tokens/segundo, Q4 es más lento pero mejor calidad.
¿Qué licencias permiten uso comercial?
Respuesta:
- Apache 2.0: Uso comercial sin restricciones (Qwen, DeepSeek, Mixtral, Smaug, MiniMax)
- Llama 3.1 License: Uso comercial permitido pero con límites de usuarios (Llama 3.1, LLaMA 4)
¿Necesito quantización para modelos 8B?
Respuesta: No necesariamente. Modelos 8B en FP16 ocupan ~12GB de VRAM, que cabe perfectamente en RTX 3090/4090/5090. Quantización es útil si quieres ejecutar múltiples modelos simultáneamente o si tienes menos VRAM.
¿Cómo actualizo modelos en Ollama?
Respuesta: Ollama actualiza automáticamente cuando haces ollama pull modelo:latest. Para forzar actualización, elimina el modelo y vuelve a descargarlo:
ollama rm llama3.1:8b
ollama pull llama3.1:8b
¿Puedo ejecutar múltiples modelos simultáneamente?
Respuesta: Depende de tu VRAM. Con 24GB puedes ejecutar 2 modelos 8B en FP16 simultáneamente, o 1 modelo 8B + 1 modelo 70B quantizado. Con 32GB (RTX 5090) puedes ejecutar más modelos. Usa nvidia-smi para monitorear uso de VRAM.
¿Qué modelo elegir para razonamiento matemático?
Respuesta: DeepSeek R1 es el mejor para razonamiento matemático, con 90.8% MMLU y rendimiento comparable a GPT-4. Qwen2.5 72B y Llama 3.1 70B también son excelentes opciones para razonamiento general.
¿Los modelos open source son tan buenos como GPT-4?
Respuesta: Depende de la tarea. Para coding, DeepSeek-Coder-V2 es comparable a GPT-4 Turbo. Para razonamiento, DeepSeek R1 alcanza 90.8% MMLU (cerca de GPT-4). Para general purpose, modelos como Qwen2.5 72B (86.8% MMLU) están muy cerca. La ventaja de open source es privacidad, control, y sin costos por token.
¿Cómo mido la velocidad de inferencia?
Respuesta:
# Con Ollama API
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Test prompt",
"stream": false
}' | jq '.eval_count / .eval_duration'
# Con vLLM, revisa logs o usa métricas Prometheus
¿Qué modelo usar para contexto muy largo?
Respuesta: LLaMA 4 Maverick tiene el contexto más largo disponible (10 millones de tokens). Para contextos de 128K tokens, Qwen2.5 72B y Llama 3.1 70B son excelentes opciones. RTX 5090 maneja mejor contextos largos que RTX 4090 (50% más rápida en 32K tokens).
¿Puedo fine-tunear estos modelos?
Respuesta: Sí, todos los modelos open source pueden fine-tunearse. Para homelab, usa LoRA (Low-Rank Adaptation) que requiere menos VRAM. Herramientas como Text Generation WebUI (oobabooga) permiten entrenar LoRAs con datos custom. Para una guía completa de fine-tuning, consulta Fine-Tuning de LLMs: Guía Completa para Principiantes. Para fine-tuning completo, necesitas múltiples GPUs o servicios cloud.
¿Qué modelo es mejor para español?
Respuesta: Qwen2.5 8B/72B tiene excelente soporte multilingüe incluyendo español. Llama 3.1 también soporta español bien. Qwen3-235B tiene el mejor soporte multilingüe (100+ idiomas) pero requiere más recursos.
—Conclusión y Próximos Pasos {#conclusion}
Los modelos LLM open source han alcanzado un nivel de madurez impresionante en 2025. Ya no necesitas depender de APIs costosas o modelos propietarios para obtener resultados de calidad profesional. Con una RTX 4090 de 24GB puedes ejecutar modelos de 70B parámetros con quantización, obteniendo rendimiento comparable a GPT-4 en muchas tareas.
Resumen de Recomendaciones
Para coding: DeepSeek-Coder-V2 o MiniMax-M2
Para general purpose: Qwen2.5 72B o Llama 3.1 70B
Para razonamiento: DeepSeek R1
Para empezar rápido: Llama 3.1 8B o Qwen2.5 8B
Para eficiencia: Mixtral 8x7B
Próximos Pasos
- Instala Ollama y prueba los modelos 8B primero (rápidos y fáciles)
- Descarga ejemplos del repositorio GitHub
- Experimenta con diferentes modelos según tus necesidades
- Optimiza con quantización si necesitas modelos más grandes
- Lee artículos relacionados:
– Homelab con GPU 24GB+: Guía Completa – Benchmarks detallados de hardware
– Ollama vs LM Studio: Comparativa – Qué herramienta elegir
– vLLM: Deploy LLMs a Escala – Producción y APIs
– Quantization de LLMs: Guía Completa – Optimización de VRAM
– MiniMax-M2: El Modelo Open Source que Supera a Claude – Análisis profundo de MiniMax-M2
Recursos Descargables
Todos los scripts y ejemplos están disponibles en:
📦 GitHub: learningaiagents/llm-models
Incluye:
- Scripts de instalación Ollama/vLLM
- Docker Compose configurado
- Ejemplos de código Python
- Scripts de benchmarking
¿Listo para ejecutar LLMs en tu homelab? Empieza con Ollama y un modelo 8B, luego experimenta con modelos más grandes según tus necesidades. La IA local nunca ha sido tan accesible. 🚀
