Modelos Open Source 2025: Top 10 LLMs para Homelab con Benchmarks Reales

📋 TL;DR

Los modelos LLM open source han alcanzado niveles de rendimiento comparables a modelos propietarios como GPT-4, pero elegir el modelo correcto para tu homelab puede ser abrumador. Esta guía presenta los 10 mejores modelos open source de 2025 con benchmarks reales en RTX 4090/5090, requisitos exactos de VRAM, velocidad de inferencia (tokens/segundo), y recomendaciones prácticas por caso de uso.

Lo que conseguirás:

✅ Comparativa completa de los 10 mejores modelos con benchmarks reales
✅ Requisitos exactos de VRAM y quantización para cada modelo
✅ Velocidad real de inferencia en hardware consumer (RTX 3090/4090/5090)
✅ Guías de instalación paso a paso con Ollama y vLLM
✅ Recomendaciones específicas por caso de uso (coding, general, razonamiento)

Tiempo de lectura: ~25 minutos | Nivel: Intermedio-Avanzado

—

📚 Tabla de Contenidos

—

📅 Última actualización: Noviembre 2025

✅ Verificado con: Ollama v0.1.x, vLLM v0.6.x

🔄 Próxima revisión: Febrero 2026

—

Introducción: ¿Por Qué Modelos Open Source en 2025? {#introduccion}

El panorama de los modelos de lenguaje grandes (LLMs) ha cambiado drásticamente en 2025. Mientras que hace dos años ejecutar un modelo de calidad comparable a GPT-4 requería servidores con múltiples GPUs A100, hoy puedes ejecutar modelos de 70 mil millones de parámetros en una sola RTX 4090 de 24GB con quantización inteligente.

El problema: Con cientos de modelos open source disponibles, elegir el correcto para tu homelab es complicado. ¿Necesitas velocidad o calidad? ¿Coding o general purpose? ¿Qué modelo funciona realmente en tu GPU de 24GB?

La solución: Esta guía presenta los 10 mejores modelos open source de 2025 con datos reales: benchmarks de velocidad en RTX 4090/5090, requisitos exactos de VRAM, y recomendaciones prácticas basadas en casos de uso reales. Si necesitas información detallada sobre hardware y benchmarks, consulta nuestra Guía Completa de Homelab con GPU 24GB+.

En esta guía completa aprenderás:

Los 10 modelos open source más destacados de 2025 con benchmarks reales
Requisitos exactos de VRAM y quantización para cada modelo
Velocidad real de inferencia (tokens/segundo) en hardware consumer
Cómo instalar y configurar cada modelo con Ollama y vLLM
Recomendaciones específicas por caso de uso (coding, razonamiento, general)
Mejores prácticas de quantización y optimización de VRAM

Ya seas desarrollador buscando un modelo para coding, investigador que necesita razonamiento avanzado, o entusiasta de homelab explorando IA local, esta guía te ayudará a elegir el modelo perfecto para tus necesidades.

Robot punk presentando ranking de modelos LLM open source con gráficos de benchmarks 2025

—

Criterios de Selección y Benchmarks {#criterios}

Para seleccionar los 10 mejores modelos, evaluamos:

Benchmarks Clave

MMLU (Massive Multitask Language Understanding): Mide conocimiento general en 57 tareas académicas. Un score >80% indica rendimiento comparable a GPT-4.

HumanEval: Evalúa capacidad de coding resolviendo 164 problemas de programación. Un score >70% es excelente para modelos open source.

ARC-AGI v2: Mide razonamiento avanzado y capacidad de generalización.

Requisitos de Hardware

VRAM: Evaluamos qué modelos funcionan en GPUs consumer (RTX 3090/4090/5090 con 24-32GB).

Velocidad: Medimos tokens/segundo en hardware real, no solo benchmarks teóricos.

Quantización: Consideramos modelos que funcionan con quantización Q4/Q5 sin pérdida significativa de calidad.

Licencias

Priorizamos modelos con Apache 2.0 (uso comercial sin restricciones) o Llama 3.1 License (comercial permitido con límites razonables).

Casos de Uso

Evaluamos modelos para:

Coding: Generación y análisis de código
General Purpose: Chat, resúmenes, traducción
Razonamiento: Matemáticas, lógica, análisis complejo
Multimodal: Texto + imágenes/video/audio

—

Top 10 Modelos Open Source 2025 {#top-10}

1. Llama 3.1 8B / 70B (Meta) {#llama-31}

Desarrollador: Meta AI

Licencia: Llama 3.1 License (comercial permitido)

Parámetros: 8B, 70B, 400B (en desarrollo)

Contexto: 128K tokens

Especificaciones Técnicas

Llama 3.1 8B:

VRAM FP16: 12.3GB
Benchmarks RTX 5090: 226 tokens/segundo
Benchmarks RTX 4090: 213 tokens/segundo
Benchmarks RTX 3090: 101 tokens/segundo
MMLU: ~82%
HumanEval: ~75%

Llama 3.1 70B:

VRAM FP16: 140GB (requiere quantización)
VRAM Q4 (GGUF): ~20GB ✅
VRAM Q2 (IQ2_XS): ~12GB ✅ (60 tokens/segundo)
MMLU: ~85%
HumanEval: 77.4%

Instalación

Con Ollama:

# Modelo 8B
ollama pull llama3.1:8b
# Modelo 70B (quantizado automáticamente)
ollama pull llama3.1:70b

Con vLLM:

# 8B
vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000
# 70B (requiere quantización para 24GB)
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --quantization awq \
  --load-in-4bit

Casos de Uso Ideales

8B: Desarrollo, prototipado rápido, chat general
70B: Coding avanzado, razonamiento complejo, producción

Pros y Contras

✅ Pros:

Excelente balance calidad/velocidad
Muy bien documentado
Gran comunidad y soporte
Funciona perfectamente en 24GB con quantización

❌ Contras:

Licencia tiene restricciones (aunque permite comercial)
70B requiere quantización agresiva para 24GB

—

2. Qwen2.5 8B / 72B (Alibaba) {#qwen25}

Desarrollador: Alibaba Cloud

Licencia: Apache 2.0 (uso comercial sin restricciones)

Parámetros: 8B, 72B

Contexto: 128K tokens

Especificaciones Técnicas

Qwen2.5 8B:

VRAM FP16: ~12GB
Benchmarks RTX 5090: >10,400 tokens/segundo (prefill)
MMLU: ~78%
HumanEval: ~72%

Qwen2.5 72B:

VRAM Q4: Cabe en 32GB
VRAM Q2: Requerido para 24GB
MMLU: 86.8% (compite con LLaMA 3.3-70B)
Contextos largos (32K tokens): RTX 5090 es 50% más rápida que RTX 4090
RTX 5090: 139,247 tokens contexto activo a 52 tokens/segundo

Instalación

Con Ollama:

ollama pull qwen2.5:8b
ollama pull qwen2.5:72b

Versión Coder (especializada en coding):

ollama pull qwen2.5-coder:8b

Casos de Uso Ideales

8B: General purpose, multilingüe (soporta 100+ idiomas)
72B: Tareas complejas, razonamiento, análisis
Coder: Generación y análisis de código

Pros y Contras

✅ Pros:

Licencia Apache 2.0 (sin restricciones comerciales)
Excelente rendimiento en prefill (muy rápido)
Soporte multilingüe excepcional
Versión Coder especializada disponible

❌ Contras:

Menos conocido que Llama en comunidad occidental
72B requiere quantización para 24GB

—

3. DeepSeek-Coder-V2 (DeepSeek-AI) {#deepseek-coder}

Desarrollador: DeepSeek-AI

Licencia: Apache 2.0

Parámetros: MoE (6 billones de tokens adicionales de entrenamiento)

Contexto: 128K tokens

Especificaciones Técnicas

Arquitectura: Mixture of Experts (MoE)
Benchmarks: Comparable a GPT-4 Turbo en codificación
Lenguajes soportados: 338 lenguajes de programación
Especialidad: Coding y razonamiento matemático

Instalación

Con Ollama:

ollama pull deepseek-coder:6.7b

Con vLLM:

vllm serve deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Casos de Uso Ideales

Generación de código en múltiples lenguajes
Análisis y debugging de código
Refactoring y optimización
Razonamiento matemático y algoritmos

Pros y Contras

✅ Pros:

Mejor modelo open source para coding (según benchmarks)
Soporta 338 lenguajes de programación
Licencia Apache 2.0
Arquitectura MoE eficiente

❌ Contras:

Menos versátil para tareas generales
Requiere más VRAM que modelos densos equivalentes

—

4. DeepSeek R1 (DeepSeek-AI) {#deepseek-r1}

Desarrollador: DeepSeek-AI

Licencia: Apache 2.0

Parámetros: 671B

Contexto: 164K tokens

Especificaciones Técnicas

Arquitectura: Razonamiento impulsado por aprendizaje por refuerzo
MMLU: 90.8%
Arena Elo: 1362
Benchmarks: Comparable a GPT-4 en codificación y matemáticas
Especialidad: Razonamiento avanzado, ciencia de datos

Instalación

Con Ollama:

ollama pull deepseek-r1:32b  # Versión quantizada

Nota: El modelo completo de 671B requiere múltiples GPUs. Para homelab, usa versiones quantizadas más pequeñas.

Casos de Uso Ideales

Resolución de problemas matemáticos complejos
Análisis de datos y ciencia de datos
Razonamiento lógico avanzado
Investigación y análisis académico

Pros y Contras

✅ Pros:

Excelente en razonamiento (MMLU 90.8%)
Comparable a GPT-4 en tareas complejas
Licencia Apache 2.0
Contexto largo (164K tokens)

❌ Contras:

Modelo completo muy grande (requiere múltiples GPUs)
Versiones quantizadas pueden perder capacidades de razonamiento

—

5. Smaug-72B (Abacus AI) {#smaug}

Desarrollador: Abacus AI

Licencia: Apache 2.0

Parámetros: 72B

Contexto: Estándar

Especificaciones Técnicas

MMLU-Pro: >80
ARC-AGI v2: >80
Benchmarks: Primer modelo open source en superar 80 en todas las evaluaciones principales
Base: Fine-tuned de Qwen-72B

Instalación

Con Ollama:

ollama pull smaug:72b

Casos de Uso Ideales

General purpose de alta calidad
Tareas que requieren conocimiento amplio
Aplicaciones que necesitan rendimiento consistente

Pros y Contras

✅ Pros:

Primer modelo open source en superar 80 en todas las métricas
Rendimiento muy consistente
Licencia Apache 2.0
Excelente para general purpose

❌ Contras:

Requiere quantización para 24GB
Menos especializado que modelos dedicados

—

6. Mixtral 8x7B (Mistral AI) {#mixtral}

Desarrollador: Mistral AI

Licencia: Apache 2.0

Parámetros: 8x7B (56B totales, 7B activos)

Contexto: 32K tokens

Especificaciones Técnicas

Arquitectura: Mixture of Experts (MoE)
VRAM: ~12-14GB (solo activa 7B a la vez)
Benchmarks: Supera a otros LLMs de tamaño similar
Especialidad: Eficiencia, bajo consumo de recursos

Instalación

Con Ollama:

ollama pull mixtral:8x7b

Con vLLM:

vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Casos de Uso Ideales

Aplicaciones que requieren eficiencia
Múltiples usuarios concurrentes
Recursos limitados
General purpose con buena velocidad

Pros y Contras

✅ Pros:

Muy eficiente (solo activa 7B de 56B)
Excelente relación calidad/VRAM
Licencia Apache 2.0
Buen rendimiento general

❌ Contras:

Contexto más corto que competidores (32K vs 128K)
Menos especializado que modelos dedicados

—

7. MiniMax-M2 (MiniMax AI) {#minimax}

Desarrollador: MiniMax AI

Licencia: Apache 2.0

Parámetros: 230B totales, 10B activos (MoE)

Contexto: 204K tokens

Especificaciones Técnicas

Arquitectura: Mixture of Experts (MoE)
Ranking: #1 open-source en Intelligence Index
SWE-Bench Verified: 69.4%
Especialidad: Coding, workflows agentic
Costo: 92% más barato que Claude Sonnet

Instalación

Con Ollama:

ollama pull minimax-m2:10b  # Versión quantizada

Casos de Uso Ideales

Generación de código
Workflows agentic
Automatización de tareas
Aplicaciones que requieren razonamiento estructurado

Pros y Contras

✅ Pros:

#1 en ranking open source
Excelente para coding
Licencia Apache 2.0
Muy eficiente (solo 10B activos)

❌ Contras:

Menos conocido en comunidad occidental
Modelo completo muy grande

—

8. LLaMA 4 Maverick (Meta) {#llama-4}

Desarrollador: Meta AI

Licencia: Llama 3.1 License

Parámetros: 17B activos, 400B totales (MoE)

Contexto: 10 millones de tokens

Especificaciones Técnicas

Arquitectura: Mixture of Experts (MoE)
HumanEval: ~62%
Contexto: 10 millones de tokens (el más largo disponible)
Especialidad: Multimodal, multilingüe, grandes volúmenes de datos

Instalación

Con Ollama:

ollama pull llama4-maverick:17b

Casos de Uso Ideales

Procesamiento de documentos muy largos
Análisis de grandes volúmenes de datos
Aplicaciones multimodales
Tareas que requieren contexto extremadamente largo

Pros y Contras

✅ Pros:

Contexto más largo disponible (10M tokens)
Multimodal
Excelente para documentos largos
Arquitectura MoE eficiente

❌ Contras:

HumanEval más bajo que competidores
Licencia con restricciones
Requiere quantización para 24GB

—

9. Qwen3-235B-A22B (Alibaba) {#qwen3}

Desarrollador: Alibaba Cloud

Licencia: Apache 2.0

Parámetros: 235B totales, 22B activos (MoE)

Contexto: 128K tokens

Especificaciones Técnicas

Arquitectura: Mixture of Experts (MoE)
Modos: Alterna entre razonamiento complejo y diálogo general
Idiomas: Soporta 100+ idiomas
Especialidad: Multilingüe, escritura creativa, juegos de rol

Instalación

Con Ollama:

ollama pull qwen3:22b  # Versión quantizada

Casos de Uso Ideales

Aplicaciones multilingües
Escritura creativa
Juegos de rol y narrativa
Tareas que requieren alternar entre modos de razonamiento

Pros y Contras

✅ Pros:

Excelente soporte multilingüe
Modos de razonamiento flexibles
Licencia Apache 2.0
Muy bueno para creatividad

❌ Contras:

Modelo completo muy grande
Menos optimizado para coding

—

10. Gemma 2 27B (Google) {#gemma}

Desarrollador: Google DeepMind

Licencia: Gemma License (similar a Apache 2.0)

Parámetros: 27B

Contexto: 128K tokens

Especificaciones Técnicas

Entrenamiento: Documentos web, código, artículos científicos
Benchmarks: Rendimiento sólido en tareas generales
Especialidad: General purpose, bien balanceado

Instalación

Con Ollama:

ollama pull gemma2:27b

Casos de Uso Ideales

General purpose
Análisis de documentos
Tareas que requieren conocimiento amplio
Aplicaciones que necesitan buen balance calidad/velocidad

Pros y Contras

✅ Pros:

Bien balanceado
Entrenado en datos diversos
Licencia permisiva
Buen rendimiento general

❌ Contras:

Menos destacado que competidores en benchmarks específicos
Requiere quantización para 24GB

—

Tabla Comparativa Completa {#tabla-comparativa}

Tabla Principal: Top 10 Modelos

Modelo	Parámetros	MMLU	HumanEval	VRAM (24GB)	Velocidad (RTX 4090)	Licencia	Mejor Para
Llama 3.1 8B	8B	~82%	~75%	12.3GB ✅	213 tok/s	Llama 3.1	General, Coding
Llama 3.1 70B	70B	~85%	77.4%	20GB (Q4) ✅	60 tok/s (Q2)	Llama 3.1	Coding, Razonamiento
Qwen2.5 8B	8B	~78%	~72%	12GB ✅	>10K tok/s (prefill)	Apache 2.0	General, Multilingüe
Qwen2.5 72B	72B	86.8%	–	20GB (Q4) ✅	52 tok/s (32K ctx)	Apache 2.0	General, Razonamiento
DeepSeek-Coder-V2	MoE	–	GPT-4 Turbo	~14GB	Variable	Apache 2.0	Coding
DeepSeek R1	671B	90.8%	–	32GB+ (quant)	Variable	Apache 2.0	Razonamiento
Smaug-72B	72B	>80	–	20GB (Q4) ✅	Variable	Apache 2.0	General
Mixtral 8x7B	8x7B	–	–	12-14GB ✅	Variable	Apache 2.0	Eficiencia
MiniMax-M2	230B/10B	–	69.4%	~14GB	Variable	Apache 2.0	Coding
LLaMA 4 Maverick	400B/17B	–	~62%	20GB (Q4) ✅	Variable	Llama 3.1	Contexto largo

Tabla por GPU

GPU	Modelos Recomendados	Quantización
RTX 3090 (24GB)	Llama 3.1 8B, Qwen2.5 8B, Mixtral 8x7B	FP16 para 8B, Q4 para 70B
RTX 4090 (24GB)	Todos los 8B, 70B con Q4	Q4 para modelos grandes
RTX 5090 (32GB)	Todos los modelos	Q4/Q8 para modelos grandes

Tabla por Caso de Uso

Caso de Uso	Modelo Recomendado	Alternativa
Coding	DeepSeek-Coder-V2	MiniMax-M2, Llama 3.1 70B
General Purpose	Qwen2.5 72B	Llama 3.1 70B, Smaug-72B
Razonamiento	DeepSeek R1	Qwen2.5 72B, Llama 3.1 70B
Multilingüe	Qwen2.5 8B/72B	Qwen3-235B
Eficiencia	Mixtral 8x7B	Llama 3.1 8B
Contexto Largo	LLaMA 4 Maverick	Qwen2.5 72B

Robot punk comparando modelos LLM open source con gráficos de rendimiento y métricas 2025

—

Guía de Instalación Rápida {#instalacion}

Ollama (Recomendado para Empezar)

Ollama es la herramienta más fácil para empezar con LLMs locales. Si quieres comparar Ollama con otras opciones, consulta nuestra comparativa Ollama vs LM Studio.

Instalación:

curl https://ollama.ai/install.sh | sh

Descargar modelos top 5:

ollama pull llama3.1:8b
ollama pull qwen2.5:8b
ollama pull mistral:7b
ollama pull deepseek-coder:6.7b
ollama pull llama3.1:70b

Uso básico:

# Chat interactivo
ollama run llama3.1:8b
# API REST
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "¿Qué es un LLM?",
  "stream": false
}'

Docker Compose:

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama-data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: ["gpu"]
    restart: unless-stopped
volumes:
  ollama-data:

vLLM (Para Producción)

vLLM es el motor de inferencia más rápido para producción, con hasta 24x más throughput que HuggingFace Transformers. Para una guía completa de deployment en producción, consulta vLLM: Deploy LLMs a Escala en Producción.

Instalación:

pip install vllm

Servir Llama 3.1 8B:

vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000 \
  --api-key "your-api-key-here"

Servir Llama 3.1 70B (quantizado):

vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --quantization awq \
  --load-in-4bit \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Uso con API:

curl http://localhost:8000/v1/chat/completions \
  -H "Authorization: Bearer your-api-key-here" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

llama.cpp (Para Recursos Limitados)

Instalación:

brew install llama.cpp  # macOS/Linux

Servir modelo:

llama-server \
  --hf-repo microsoft/Phi-3-mini-4k-instruct-gguf \
  --hf-file Phi-3-mini-4k-instruct-q4.gguf \
  -c 4096 \
  --host 0.0.0.0 \
  --port 8080

—

Recomendaciones por Caso de Uso {#casos-uso}

Coding

Mejor opción: DeepSeek-Coder-V2

Soporta 338 lenguajes de programación
Comparable a GPT-4 Turbo en benchmarks de coding
Licencia Apache 2.0

Alternativas:

MiniMax-M2: #1 en ranking open source, excelente para workflows agentic
Llama 3.1 70B: 77.4% HumanEval, muy versátil

Instalación:

ollama pull deepseek-coder:6.7b
ollama run deepseek-coder:6.7b "Escribe una función Python para ordenar una lista"

General Purpose

Mejor opción: Qwen2.5 72B

86.8% MMLU (compite con LLaMA 3.3-70B)
Excelente soporte multilingüe
Licencia Apache 2.0

Alternativas:

Llama 3.1 70B: Muy bien balanceado, gran comunidad
Smaug-72B: Primer modelo en superar 80 en todas las métricas

Razonamiento

Mejor opción: DeepSeek R1

90.8% MMLU (mejor que la mayoría de modelos open source)
Especializado en razonamiento avanzado
Comparable a GPT-4 en matemáticas

Alternativas:

Qwen2.5 72B: Buen rendimiento general
Llama 3.1 70B: Versátil y confiable

Multilingüe

Mejor opción: Qwen2.5 8B / 72B

Soporta 100+ idiomas
Excelente calidad en múltiples idiomas
Licencia Apache 2.0

Alternativa:

Qwen3-235B: Aún mejor soporte multilingüe, pero más grande

Eficiencia / Recursos Limitados

Mejor opción: Mixtral 8x7B

Solo activa 7B de 56B (muy eficiente)
Excelente relación calidad/VRAM
Funciona perfectamente en 24GB

Alternativas:

Llama 3.1 8B: Muy rápido (213 tok/s en RTX 4090)
Qwen2.5 8B: Excelente prefill (>10K tok/s)

—

Mejores Prácticas {#mejores-practicas}

Quantización

La quantización es esencial para ejecutar modelos grandes en GPUs consumer. Para una guía completa sobre quantización, incluyendo comparativas detalladas de GGUF vs GPTQ vs AWQ, consulta Quantization de LLMs: Guía Completa.

Cuándo usar cada nivel:

Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
Q5_K_M: Excelente calidad, recomendado para producción
Q4_K_M: Balance óptimo calidad/tamaño, 3.3x compresión ✅
Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM limitada

Recomendación: Empieza con Q4_K_M, sube a Q5 si tienes VRAM, baja a Q2 solo si es necesario.

Optimización VRAM

CPU Offloading: Mueve capas no activas a RAM cuando no se usan.

VAE Tiling: Para modelos multimodales, procesa imágenes en tiles.

Batch Size: Reduce batch size si te quedas sin VRAM.

Velocidad vs Calidad

Para desarrollo/prototipado: Usa modelos 8B en FP16 (muy rápidos).

Para producción: Usa modelos 70B con Q4 (mejor calidad, velocidad aceptable).

Para máxima velocidad: Usa vLLM con PagedAttention y continuous batching.

Actualización de Modelos

Ollama: Actualiza automáticamente con ollama pull modelo:latest

vLLM: Actualiza el paquete: pip install --upgrade vllm

Modelos Hugging Face: Descarga nuevas versiones manualmente.

—

Troubleshooting Común {#troubleshooting}

Error: Out of Memory

Síntomas: El modelo no carga o se cae durante inferencia.

Soluciones:

Usa quantización más agresiva (Q4 → Q2)
Reduce el contexto máximo (--max-model-len 2048)
Usa CPU offloading si está disponible
Cierra otras aplicaciones que usen GPU

Ejemplo:

# En lugar de FP16, usa Q4
ollama pull llama3.1:70b  # Ollama usa quantización automática
# Con vLLM, fuerza quantización
vLLM serve modelo --quantization awq --load-in-4bit

Modelo Muy Lento

Síntomas: Inferencia muy lenta, <10 tokens/segundo.

Soluciones:

Usa vLLM en lugar de Ollama (más optimizado)
Reduce quantización (Q2 → Q4 si tienes VRAM)
Verifica que estás usando GPU, no CPU
Cierra otros procesos que usen GPU

Verificar uso GPU:

nvidia-smi  # Debe mostrar uso de GPU

Calidad Baja

Síntomas: Respuestas incoherentes o de baja calidad.

Soluciones:

Reduce quantización (Q2 → Q4 → Q8)
Usa un modelo más grande (8B → 70B)
Aumenta temperatura si está muy baja
Verifica que el prompt es claro

Instalación Falla

Ollama no instala:

# Verifica permisos
sudo curl https://ollama.ai/install.sh | sh
# O instala manualmente
wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64
chmod +x ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama

vLLM no instala:

# Requiere Python 3.8+
python3 --version
# Instala dependencias
pip install vllm[all]
# Si falla, instala sin optimizaciones
pip install vllm --no-cache-dir

—

Preguntas Frecuentes {#faq}

¿Qué modelo es mejor para coding?

Respuesta: DeepSeek-Coder-V2 es el mejor modelo open source para coding según benchmarks, con rendimiento comparable a GPT-4 Turbo. Soporta 338 lenguajes de programación y tiene licencia Apache 2.0. Alternativas excelentes son MiniMax-M2 (#1 en ranking open source) y Llama 3.1 70B (77.4% HumanEval).

¿Puedo ejecutar un modelo 70B en RTX 4090 (24GB)?

Respuesta: Sí, pero requiere quantización. Con quantización Q4 (4-bit), Llama 3.1 70B ocupa ~20GB de VRAM y funciona perfectamente en RTX 4090. Con Q2 (2-bit) baja a ~12GB pero la calidad se reduce. Recomendamos Q4 como balance óptimo.

¿Ollama vs vLLM vs llama.cpp?

Respuesta:

Ollama: Mejor para empezar, fácil instalación, gestión automática de modelos. Ideal para desarrollo y homelab.
vLLM: Mejor para producción, máxima velocidad (hasta 24x más rápido que Transformers), OpenAI API compatible. Ideal para APIs y múltiples usuarios.
llama.cpp: Mejor para recursos limitados, muy ligero, funciona en CPU/GPU. Ideal para edge devices y sistemas con poca VRAM.

¿Qué quantización usar?

Respuesta:

Q4_K_M: Balance óptimo calidad/tamaño, recomendado para la mayoría de casos ✅
Q5_K_M: Mejor calidad, usa si tienes VRAM de sobra
Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM muy limitada

¿Cuál es el modelo más rápido?

Respuesta: Para modelos 8B, Llama 3.1 8B alcanza 213 tokens/segundo en RTX 4090. Qwen2.5 8B tiene el prefill más rápido (>10,400 tokens/segundo). Para modelos 70B, la velocidad depende de la quantización: Q2 puede alcanzar 60 tokens/segundo, Q4 es más lento pero mejor calidad.

¿Qué licencias permiten uso comercial?

Respuesta:

Apache 2.0: Uso comercial sin restricciones (Qwen, DeepSeek, Mixtral, Smaug, MiniMax)
Llama 3.1 License: Uso comercial permitido pero con límites de usuarios (Llama 3.1, LLaMA 4)

¿Necesito quantización para modelos 8B?

Respuesta: No necesariamente. Modelos 8B en FP16 ocupan ~12GB de VRAM, que cabe perfectamente en RTX 3090/4090/5090. Quantización es útil si quieres ejecutar múltiples modelos simultáneamente o si tienes menos VRAM.

¿Cómo actualizo modelos en Ollama?

Respuesta: Ollama actualiza automáticamente cuando haces ollama pull modelo:latest. Para forzar actualización, elimina el modelo y vuelve a descargarlo:

ollama rm llama3.1:8b
ollama pull llama3.1:8b

¿Puedo ejecutar múltiples modelos simultáneamente?

Respuesta: Depende de tu VRAM. Con 24GB puedes ejecutar 2 modelos 8B en FP16 simultáneamente, o 1 modelo 8B + 1 modelo 70B quantizado. Con 32GB (RTX 5090) puedes ejecutar más modelos. Usa nvidia-smi para monitorear uso de VRAM.

¿Qué modelo elegir para razonamiento matemático?

Respuesta: DeepSeek R1 es el mejor para razonamiento matemático, con 90.8% MMLU y rendimiento comparable a GPT-4. Qwen2.5 72B y Llama 3.1 70B también son excelentes opciones para razonamiento general.

¿Los modelos open source son tan buenos como GPT-4?

Respuesta: Depende de la tarea. Para coding, DeepSeek-Coder-V2 es comparable a GPT-4 Turbo. Para razonamiento, DeepSeek R1 alcanza 90.8% MMLU (cerca de GPT-4). Para general purpose, modelos como Qwen2.5 72B (86.8% MMLU) están muy cerca. La ventaja de open source es privacidad, control, y sin costos por token.

¿Cómo mido la velocidad de inferencia?

Respuesta:

# Con Ollama API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Test prompt",
  "stream": false
}' | jq '.eval_count / .eval_duration'
# Con vLLM, revisa logs o usa métricas Prometheus

¿Qué modelo usar para contexto muy largo?

Respuesta: LLaMA 4 Maverick tiene el contexto más largo disponible (10 millones de tokens). Para contextos de 128K tokens, Qwen2.5 72B y Llama 3.1 70B son excelentes opciones. RTX 5090 maneja mejor contextos largos que RTX 4090 (50% más rápida en 32K tokens).

¿Puedo fine-tunear estos modelos?

Respuesta: Sí, todos los modelos open source pueden fine-tunearse. Para homelab, usa LoRA (Low-Rank Adaptation) que requiere menos VRAM. Herramientas como Text Generation WebUI (oobabooga) permiten entrenar LoRAs con datos custom. Para una guía completa de fine-tuning, consulta Fine-Tuning de LLMs: Guía Completa para Principiantes. Para fine-tuning completo, necesitas múltiples GPUs o servicios cloud.

¿Qué modelo es mejor para español?

Respuesta: Qwen2.5 8B/72B tiene excelente soporte multilingüe incluyendo español. Llama 3.1 también soporta español bien. Qwen3-235B tiene el mejor soporte multilingüe (100+ idiomas) pero requiere más recursos.

—

Conclusión y Próximos Pasos {#conclusion}

Los modelos LLM open source han alcanzado un nivel de madurez impresionante en 2025. Ya no necesitas depender de APIs costosas o modelos propietarios para obtener resultados de calidad profesional. Con una RTX 4090 de 24GB puedes ejecutar modelos de 70B parámetros con quantización, obteniendo rendimiento comparable a GPT-4 en muchas tareas.

Resumen de Recomendaciones

Para coding: DeepSeek-Coder-V2 o MiniMax-M2

Para general purpose: Qwen2.5 72B o Llama 3.1 70B

Para razonamiento: DeepSeek R1

Para empezar rápido: Llama 3.1 8B o Qwen2.5 8B

Para eficiencia: Mixtral 8x7B

Próximos Pasos

Instala Ollama y prueba los modelos 8B primero (rápidos y fáciles)
Descarga ejemplos del repositorio GitHub
Experimenta con diferentes modelos según tus necesidades
Optimiza con quantización si necesitas modelos más grandes
Lee artículos relacionados:

– Homelab con GPU 24GB+: Guía Completa – Benchmarks detallados de hardware

– Ollama vs LM Studio: Comparativa – Qué herramienta elegir

– vLLM: Deploy LLMs a Escala – Producción y APIs

– Quantization de LLMs: Guía Completa – Optimización de VRAM

– MiniMax-M2: El Modelo Open Source que Supera a Claude – Análisis profundo de MiniMax-M2

Recursos Descargables

Todos los scripts y ejemplos están disponibles en:

📦 GitHub: learningaiagents/llm-models

Incluye:

Scripts de instalación Ollama/vLLM
Docker Compose configurado
Ejemplos de código Python
Scripts de benchmarking

—

¿Listo para ejecutar LLMs en tu homelab? Empieza con Ollama y un modelo 8B, luego experimenta con modelos más grandes según tus necesidades. La IA local nunca ha sido tan accesible. 🚀