Modelos Open Source 2025: Top 10 LLMs para Homelab con Benchmarks Reales

📋 TL;DR

Los modelos LLM open source han alcanzado niveles de rendimiento comparables a modelos propietarios como GPT-4, pero elegir el modelo correcto para tu homelab puede ser abrumador. Esta guía presenta los 10 mejores modelos open source de 2025 con benchmarks reales en RTX 4090/5090, requisitos exactos de VRAM, velocidad de inferencia (tokens/segundo), y recomendaciones prácticas por caso de uso.

Lo que conseguirás:

  • ✅ Comparativa completa de los 10 mejores modelos con benchmarks reales
  • ✅ Requisitos exactos de VRAM y quantización para cada modelo
  • ✅ Velocidad real de inferencia en hardware consumer (RTX 3090/4090/5090)
  • ✅ Guías de instalación paso a paso con Ollama y vLLM
  • ✅ Recomendaciones específicas por caso de uso (coding, general, razonamiento)

Tiempo de lectura: ~25 minutos | Nivel: Intermedio-Avanzado

📚 Tabla de Contenidos

  1. Introducción: ¿Por Qué Modelos Open Source en 2025?
  2. Criterios de Selección y Benchmarks
  3. Top 10 Modelos Open Source 2025
  4. Tabla Comparativa Completa
  5. Guía de Instalación Rápida
  6. Recomendaciones por Caso de Uso
  7. Mejores Prácticas
  8. Troubleshooting Común
  9. Preguntas Frecuentes
  10. Conclusión y Próximos Pasos

📅 Última actualización: Noviembre 2025

✅ Verificado con: Ollama v0.1.x, vLLM v0.6.x

🔄 Próxima revisión: Febrero 2026

Introducción: ¿Por Qué Modelos Open Source en 2025? {#introduccion}

El panorama de los modelos de lenguaje grandes (LLMs) ha cambiado drásticamente en 2025. Mientras que hace dos años ejecutar un modelo de calidad comparable a GPT-4 requería servidores con múltiples GPUs A100, hoy puedes ejecutar modelos de 70 mil millones de parámetros en una sola RTX 4090 de 24GB con quantización inteligente.

El problema: Con cientos de modelos open source disponibles, elegir el correcto para tu homelab es complicado. ¿Necesitas velocidad o calidad? ¿Coding o general purpose? ¿Qué modelo funciona realmente en tu GPU de 24GB?

La solución: Esta guía presenta los 10 mejores modelos open source de 2025 con datos reales: benchmarks de velocidad en RTX 4090/5090, requisitos exactos de VRAM, y recomendaciones prácticas basadas en casos de uso reales. Si necesitas información detallada sobre hardware y benchmarks, consulta nuestra Guía Completa de Homelab con GPU 24GB+.

En esta guía completa aprenderás:

  • Los 10 modelos open source más destacados de 2025 con benchmarks reales
  • Requisitos exactos de VRAM y quantización para cada modelo
  • Velocidad real de inferencia (tokens/segundo) en hardware consumer
  • Cómo instalar y configurar cada modelo con Ollama y vLLM
  • Recomendaciones específicas por caso de uso (coding, razonamiento, general)
  • Mejores prácticas de quantización y optimización de VRAM

Ya seas desarrollador buscando un modelo para coding, investigador que necesita razonamiento avanzado, o entusiasta de homelab explorando IA local, esta guía te ayudará a elegir el modelo perfecto para tus necesidades.

Robot punk presentando ranking de modelos LLM open source con gráficos de benchmarks 2025

Criterios de Selección y Benchmarks {#criterios}

Para seleccionar los 10 mejores modelos, evaluamos:

Benchmarks Clave

MMLU (Massive Multitask Language Understanding): Mide conocimiento general en 57 tareas académicas. Un score >80% indica rendimiento comparable a GPT-4.

HumanEval: Evalúa capacidad de coding resolviendo 164 problemas de programación. Un score >70% es excelente para modelos open source.

ARC-AGI v2: Mide razonamiento avanzado y capacidad de generalización.

Requisitos de Hardware

VRAM: Evaluamos qué modelos funcionan en GPUs consumer (RTX 3090/4090/5090 con 24-32GB).

Velocidad: Medimos tokens/segundo en hardware real, no solo benchmarks teóricos.

Quantización: Consideramos modelos que funcionan con quantización Q4/Q5 sin pérdida significativa de calidad.

Licencias

Priorizamos modelos con Apache 2.0 (uso comercial sin restricciones) o Llama 3.1 License (comercial permitido con límites razonables).

Casos de Uso

Evaluamos modelos para:

  • Coding: Generación y análisis de código
  • General Purpose: Chat, resúmenes, traducción
  • Razonamiento: Matemáticas, lógica, análisis complejo
  • Multimodal: Texto + imágenes/video/audio

Top 10 Modelos Open Source 2025 {#top-10}

1. Llama 3.1 8B / 70B (Meta) {#llama-31}

Desarrollador: Meta AI

Licencia: Llama 3.1 License (comercial permitido)

Parámetros: 8B, 70B, 400B (en desarrollo)

Contexto: 128K tokens

Especificaciones Técnicas

Llama 3.1 8B:

  • VRAM FP16: 12.3GB
  • Benchmarks RTX 5090: 226 tokens/segundo
  • Benchmarks RTX 4090: 213 tokens/segundo
  • Benchmarks RTX 3090: 101 tokens/segundo
  • MMLU: ~82%
  • HumanEval: ~75%

Llama 3.1 70B:

  • VRAM FP16: 140GB (requiere quantización)
  • VRAM Q4 (GGUF): ~20GB ✅
  • VRAM Q2 (IQ2_XS): ~12GB ✅ (60 tokens/segundo)
  • MMLU: ~85%
  • HumanEval: 77.4%

Instalación

Con Ollama:

# Modelo 8B
ollama pull llama3.1:8b
# Modelo 70B (quantizado automáticamente)
ollama pull llama3.1:70b

Con vLLM:

# 8B
vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000
# 70B (requiere quantización para 24GB)
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --quantization awq \
  --load-in-4bit

Casos de Uso Ideales

  • 8B: Desarrollo, prototipado rápido, chat general
  • 70B: Coding avanzado, razonamiento complejo, producción

Pros y Contras

✅ Pros:

  • Excelente balance calidad/velocidad
  • Muy bien documentado
  • Gran comunidad y soporte
  • Funciona perfectamente en 24GB con quantización

❌ Contras:

  • Licencia tiene restricciones (aunque permite comercial)
  • 70B requiere quantización agresiva para 24GB

2. Qwen2.5 8B / 72B (Alibaba) {#qwen25}

Desarrollador: Alibaba Cloud

Licencia: Apache 2.0 (uso comercial sin restricciones)

Parámetros: 8B, 72B

Contexto: 128K tokens

Especificaciones Técnicas

Qwen2.5 8B:

  • VRAM FP16: ~12GB
  • Benchmarks RTX 5090: >10,400 tokens/segundo (prefill)
  • MMLU: ~78%
  • HumanEval: ~72%

Qwen2.5 72B:

  • VRAM Q4: Cabe en 32GB
  • VRAM Q2: Requerido para 24GB
  • MMLU: 86.8% (compite con LLaMA 3.3-70B)
  • Contextos largos (32K tokens): RTX 5090 es 50% más rápida que RTX 4090
  • RTX 5090: 139,247 tokens contexto activo a 52 tokens/segundo

Instalación

Con Ollama:

ollama pull qwen2.5:8b
ollama pull qwen2.5:72b

Versión Coder (especializada en coding):

ollama pull qwen2.5-coder:8b

Casos de Uso Ideales

  • 8B: General purpose, multilingüe (soporta 100+ idiomas)
  • 72B: Tareas complejas, razonamiento, análisis
  • Coder: Generación y análisis de código

Pros y Contras

✅ Pros:

  • Licencia Apache 2.0 (sin restricciones comerciales)
  • Excelente rendimiento en prefill (muy rápido)
  • Soporte multilingüe excepcional
  • Versión Coder especializada disponible

❌ Contras:

  • Menos conocido que Llama en comunidad occidental
  • 72B requiere quantización para 24GB

3. DeepSeek-Coder-V2 (DeepSeek-AI) {#deepseek-coder}

Desarrollador: DeepSeek-AI

Licencia: Apache 2.0

Parámetros: MoE (6 billones de tokens adicionales de entrenamiento)

Contexto: 128K tokens

Especificaciones Técnicas

  • Arquitectura: Mixture of Experts (MoE)
  • Benchmarks: Comparable a GPT-4 Turbo en codificación
  • Lenguajes soportados: 338 lenguajes de programación
  • Especialidad: Coding y razonamiento matemático

Instalación

Con Ollama:

ollama pull deepseek-coder:6.7b

Con vLLM:

vllm serve deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Casos de Uso Ideales

  • Generación de código en múltiples lenguajes
  • Análisis y debugging de código
  • Refactoring y optimización
  • Razonamiento matemático y algoritmos

Pros y Contras

✅ Pros:

  • Mejor modelo open source para coding (según benchmarks)
  • Soporta 338 lenguajes de programación
  • Licencia Apache 2.0
  • Arquitectura MoE eficiente

❌ Contras:

  • Menos versátil para tareas generales
  • Requiere más VRAM que modelos densos equivalentes

4. DeepSeek R1 (DeepSeek-AI) {#deepseek-r1}

Desarrollador: DeepSeek-AI

Licencia: Apache 2.0

Parámetros: 671B

Contexto: 164K tokens

Especificaciones Técnicas

  • Arquitectura: Razonamiento impulsado por aprendizaje por refuerzo
  • MMLU: 90.8%
  • Arena Elo: 1362
  • Benchmarks: Comparable a GPT-4 en codificación y matemáticas
  • Especialidad: Razonamiento avanzado, ciencia de datos

Instalación

Con Ollama:

ollama pull deepseek-r1:32b  # Versión quantizada

Nota: El modelo completo de 671B requiere múltiples GPUs. Para homelab, usa versiones quantizadas más pequeñas.

Casos de Uso Ideales

  • Resolución de problemas matemáticos complejos
  • Análisis de datos y ciencia de datos
  • Razonamiento lógico avanzado
  • Investigación y análisis académico

Pros y Contras

✅ Pros:

  • Excelente en razonamiento (MMLU 90.8%)
  • Comparable a GPT-4 en tareas complejas
  • Licencia Apache 2.0
  • Contexto largo (164K tokens)

❌ Contras:

  • Modelo completo muy grande (requiere múltiples GPUs)
  • Versiones quantizadas pueden perder capacidades de razonamiento

5. Smaug-72B (Abacus AI) {#smaug}

Desarrollador: Abacus AI

Licencia: Apache 2.0

Parámetros: 72B

Contexto: Estándar

Especificaciones Técnicas

  • MMLU-Pro: >80
  • ARC-AGI v2: >80
  • Benchmarks: Primer modelo open source en superar 80 en todas las evaluaciones principales
  • Base: Fine-tuned de Qwen-72B

Instalación

Con Ollama:

ollama pull smaug:72b

Casos de Uso Ideales

  • General purpose de alta calidad
  • Tareas que requieren conocimiento amplio
  • Aplicaciones que necesitan rendimiento consistente

Pros y Contras

✅ Pros:

  • Primer modelo open source en superar 80 en todas las métricas
  • Rendimiento muy consistente
  • Licencia Apache 2.0
  • Excelente para general purpose

❌ Contras:

  • Requiere quantización para 24GB
  • Menos especializado que modelos dedicados

6. Mixtral 8x7B (Mistral AI) {#mixtral}

Desarrollador: Mistral AI

Licencia: Apache 2.0

Parámetros: 8x7B (56B totales, 7B activos)

Contexto: 32K tokens

Especificaciones Técnicas

  • Arquitectura: Mixture of Experts (MoE)
  • VRAM: ~12-14GB (solo activa 7B a la vez)
  • Benchmarks: Supera a otros LLMs de tamaño similar
  • Especialidad: Eficiencia, bajo consumo de recursos

Instalación

Con Ollama:

ollama pull mixtral:8x7b

Con vLLM:

vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Casos de Uso Ideales

  • Aplicaciones que requieren eficiencia
  • Múltiples usuarios concurrentes
  • Recursos limitados
  • General purpose con buena velocidad

Pros y Contras

✅ Pros:

  • Muy eficiente (solo activa 7B de 56B)
  • Excelente relación calidad/VRAM
  • Licencia Apache 2.0
  • Buen rendimiento general

❌ Contras:

  • Contexto más corto que competidores (32K vs 128K)
  • Menos especializado que modelos dedicados

7. MiniMax-M2 (MiniMax AI) {#minimax}

Desarrollador: MiniMax AI

Licencia: Apache 2.0

Parámetros: 230B totales, 10B activos (MoE)

Contexto: 204K tokens

Especificaciones Técnicas

  • Arquitectura: Mixture of Experts (MoE)
  • Ranking: #1 open-source en Intelligence Index
  • SWE-Bench Verified: 69.4%
  • Especialidad: Coding, workflows agentic
  • Costo: 92% más barato que Claude Sonnet

Instalación

Con Ollama:

ollama pull minimax-m2:10b  # Versión quantizada

Casos de Uso Ideales

  • Generación de código
  • Workflows agentic
  • Automatización de tareas
  • Aplicaciones que requieren razonamiento estructurado

Pros y Contras

✅ Pros:

  • #1 en ranking open source
  • Excelente para coding
  • Licencia Apache 2.0
  • Muy eficiente (solo 10B activos)

❌ Contras:

  • Menos conocido en comunidad occidental
  • Modelo completo muy grande

8. LLaMA 4 Maverick (Meta) {#llama-4}

Desarrollador: Meta AI

Licencia: Llama 3.1 License

Parámetros: 17B activos, 400B totales (MoE)

Contexto: 10 millones de tokens

Especificaciones Técnicas

  • Arquitectura: Mixture of Experts (MoE)
  • HumanEval: ~62%
  • Contexto: 10 millones de tokens (el más largo disponible)
  • Especialidad: Multimodal, multilingüe, grandes volúmenes de datos

Instalación

Con Ollama:

ollama pull llama4-maverick:17b

Casos de Uso Ideales

  • Procesamiento de documentos muy largos
  • Análisis de grandes volúmenes de datos
  • Aplicaciones multimodales
  • Tareas que requieren contexto extremadamente largo

Pros y Contras

✅ Pros:

  • Contexto más largo disponible (10M tokens)
  • Multimodal
  • Excelente para documentos largos
  • Arquitectura MoE eficiente

❌ Contras:

  • HumanEval más bajo que competidores
  • Licencia con restricciones
  • Requiere quantización para 24GB

9. Qwen3-235B-A22B (Alibaba) {#qwen3}

Desarrollador: Alibaba Cloud

Licencia: Apache 2.0

Parámetros: 235B totales, 22B activos (MoE)

Contexto: 128K tokens

Especificaciones Técnicas

  • Arquitectura: Mixture of Experts (MoE)
  • Modos: Alterna entre razonamiento complejo y diálogo general
  • Idiomas: Soporta 100+ idiomas
  • Especialidad: Multilingüe, escritura creativa, juegos de rol

Instalación

Con Ollama:

ollama pull qwen3:22b  # Versión quantizada

Casos de Uso Ideales

  • Aplicaciones multilingües
  • Escritura creativa
  • Juegos de rol y narrativa
  • Tareas que requieren alternar entre modos de razonamiento

Pros y Contras

✅ Pros:

  • Excelente soporte multilingüe
  • Modos de razonamiento flexibles
  • Licencia Apache 2.0
  • Muy bueno para creatividad

❌ Contras:

  • Modelo completo muy grande
  • Menos optimizado para coding

10. Gemma 2 27B (Google) {#gemma}

Desarrollador: Google DeepMind

Licencia: Gemma License (similar a Apache 2.0)

Parámetros: 27B

Contexto: 128K tokens

Especificaciones Técnicas

  • Entrenamiento: Documentos web, código, artículos científicos
  • Benchmarks: Rendimiento sólido en tareas generales
  • Especialidad: General purpose, bien balanceado

Instalación

Con Ollama:

ollama pull gemma2:27b

Casos de Uso Ideales

  • General purpose
  • Análisis de documentos
  • Tareas que requieren conocimiento amplio
  • Aplicaciones que necesitan buen balance calidad/velocidad

Pros y Contras

✅ Pros:

  • Bien balanceado
  • Entrenado en datos diversos
  • Licencia permisiva
  • Buen rendimiento general

❌ Contras:

  • Menos destacado que competidores en benchmarks específicos
  • Requiere quantización para 24GB

Tabla Comparativa Completa {#tabla-comparativa}

Tabla Principal: Top 10 Modelos

ModeloParámetrosMMLUHumanEvalVRAM (24GB)Velocidad (RTX 4090)LicenciaMejor Para
Llama 3.1 8B8B~82%~75%12.3GB ✅213 tok/sLlama 3.1General, Coding
Llama 3.1 70B70B~85%77.4%20GB (Q4) ✅60 tok/s (Q2)Llama 3.1Coding, Razonamiento
Qwen2.5 8B8B~78%~72%12GB ✅>10K tok/s (prefill)Apache 2.0General, Multilingüe
Qwen2.5 72B72B86.8%20GB (Q4) ✅52 tok/s (32K ctx)Apache 2.0General, Razonamiento
DeepSeek-Coder-V2MoEGPT-4 Turbo~14GBVariableApache 2.0Coding
DeepSeek R1671B90.8%32GB+ (quant)VariableApache 2.0Razonamiento
Smaug-72B72B>8020GB (Q4) ✅VariableApache 2.0General
Mixtral 8x7B8x7B12-14GB ✅VariableApache 2.0Eficiencia
MiniMax-M2230B/10B69.4%~14GBVariableApache 2.0Coding
LLaMA 4 Maverick400B/17B~62%20GB (Q4) ✅VariableLlama 3.1Contexto largo

Tabla por GPU

GPUModelos RecomendadosQuantización
RTX 3090 (24GB)Llama 3.1 8B, Qwen2.5 8B, Mixtral 8x7BFP16 para 8B, Q4 para 70B
RTX 4090 (24GB)Todos los 8B, 70B con Q4Q4 para modelos grandes
RTX 5090 (32GB)Todos los modelosQ4/Q8 para modelos grandes

Tabla por Caso de Uso

Caso de UsoModelo RecomendadoAlternativa
CodingDeepSeek-Coder-V2MiniMax-M2, Llama 3.1 70B
General PurposeQwen2.5 72BLlama 3.1 70B, Smaug-72B
RazonamientoDeepSeek R1Qwen2.5 72B, Llama 3.1 70B
MultilingüeQwen2.5 8B/72BQwen3-235B
EficienciaMixtral 8x7BLlama 3.1 8B
Contexto LargoLLaMA 4 MaverickQwen2.5 72B
Robot punk comparando modelos LLM open source con gráficos de rendimiento y métricas 2025

Guía de Instalación Rápida {#instalacion}

Ollama (Recomendado para Empezar)

Ollama es la herramienta más fácil para empezar con LLMs locales. Si quieres comparar Ollama con otras opciones, consulta nuestra comparativa Ollama vs LM Studio.

Instalación:

curl https://ollama.ai/install.sh | sh

Descargar modelos top 5:

ollama pull llama3.1:8b
ollama pull qwen2.5:8b
ollama pull mistral:7b
ollama pull deepseek-coder:6.7b
ollama pull llama3.1:70b

Uso básico:

# Chat interactivo
ollama run llama3.1:8b
# API REST
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "¿Qué es un LLM?",
  "stream": false
}'

Docker Compose:

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama-data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: ["gpu"]
    restart: unless-stopped
volumes:
  ollama-data:

vLLM (Para Producción)

vLLM es el motor de inferencia más rápido para producción, con hasta 24x más throughput que HuggingFace Transformers. Para una guía completa de deployment en producción, consulta vLLM: Deploy LLMs a Escala en Producción.

Instalación:

pip install vllm

Servir Llama 3.1 8B:

vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000 \
  --api-key "your-api-key-here"

Servir Llama 3.1 70B (quantizado):

vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --quantization awq \
  --load-in-4bit \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Uso con API:

curl http://localhost:8000/v1/chat/completions \
  -H "Authorization: Bearer your-api-key-here" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

llama.cpp (Para Recursos Limitados)

Instalación:

brew install llama.cpp  # macOS/Linux

Servir modelo:

llama-server \
  --hf-repo microsoft/Phi-3-mini-4k-instruct-gguf \
  --hf-file Phi-3-mini-4k-instruct-q4.gguf \
  -c 4096 \
  --host 0.0.0.0 \
  --port 8080

Recomendaciones por Caso de Uso {#casos-uso}

Coding

Mejor opción: DeepSeek-Coder-V2

  • Soporta 338 lenguajes de programación
  • Comparable a GPT-4 Turbo en benchmarks de coding
  • Licencia Apache 2.0

Alternativas:

  • MiniMax-M2: #1 en ranking open source, excelente para workflows agentic
  • Llama 3.1 70B: 77.4% HumanEval, muy versátil

Instalación:

ollama pull deepseek-coder:6.7b
ollama run deepseek-coder:6.7b "Escribe una función Python para ordenar una lista"

General Purpose

Mejor opción: Qwen2.5 72B

  • 86.8% MMLU (compite con LLaMA 3.3-70B)
  • Excelente soporte multilingüe
  • Licencia Apache 2.0

Alternativas:

  • Llama 3.1 70B: Muy bien balanceado, gran comunidad
  • Smaug-72B: Primer modelo en superar 80 en todas las métricas

Razonamiento

Mejor opción: DeepSeek R1

  • 90.8% MMLU (mejor que la mayoría de modelos open source)
  • Especializado en razonamiento avanzado
  • Comparable a GPT-4 en matemáticas

Alternativas:

  • Qwen2.5 72B: Buen rendimiento general
  • Llama 3.1 70B: Versátil y confiable

Multilingüe

Mejor opción: Qwen2.5 8B / 72B

  • Soporta 100+ idiomas
  • Excelente calidad en múltiples idiomas
  • Licencia Apache 2.0

Alternativa:

  • Qwen3-235B: Aún mejor soporte multilingüe, pero más grande

Eficiencia / Recursos Limitados

Mejor opción: Mixtral 8x7B

  • Solo activa 7B de 56B (muy eficiente)
  • Excelente relación calidad/VRAM
  • Funciona perfectamente en 24GB

Alternativas:

  • Llama 3.1 8B: Muy rápido (213 tok/s en RTX 4090)
  • Qwen2.5 8B: Excelente prefill (>10K tok/s)

Mejores Prácticas {#mejores-practicas}

Quantización

La quantización es esencial para ejecutar modelos grandes en GPUs consumer. Para una guía completa sobre quantización, incluyendo comparativas detalladas de GGUF vs GPTQ vs AWQ, consulta Quantization de LLMs: Guía Completa.

Cuándo usar cada nivel:

  • Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
  • Q5_K_M: Excelente calidad, recomendado para producción
  • Q4_K_M: Balance óptimo calidad/tamaño, 3.3x compresión ✅
  • Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM limitada

Recomendación: Empieza con Q4_K_M, sube a Q5 si tienes VRAM, baja a Q2 solo si es necesario.

Optimización VRAM

CPU Offloading: Mueve capas no activas a RAM cuando no se usan.

VAE Tiling: Para modelos multimodales, procesa imágenes en tiles.

Batch Size: Reduce batch size si te quedas sin VRAM.

Velocidad vs Calidad

Para desarrollo/prototipado: Usa modelos 8B en FP16 (muy rápidos).

Para producción: Usa modelos 70B con Q4 (mejor calidad, velocidad aceptable).

Para máxima velocidad: Usa vLLM con PagedAttention y continuous batching.

Actualización de Modelos

Ollama: Actualiza automáticamente con ollama pull modelo:latest

vLLM: Actualiza el paquete: pip install --upgrade vllm

Modelos Hugging Face: Descarga nuevas versiones manualmente.

Troubleshooting Común {#troubleshooting}

Error: Out of Memory

Síntomas: El modelo no carga o se cae durante inferencia.

Soluciones:

  1. Usa quantización más agresiva (Q4 → Q2)
  2. Reduce el contexto máximo (--max-model-len 2048)
  3. Usa CPU offloading si está disponible
  4. Cierra otras aplicaciones que usen GPU

Ejemplo:

# En lugar de FP16, usa Q4
ollama pull llama3.1:70b  # Ollama usa quantización automática
# Con vLLM, fuerza quantización
vLLM serve modelo --quantization awq --load-in-4bit

Modelo Muy Lento

Síntomas: Inferencia muy lenta, <10 tokens/segundo.

Soluciones:

  1. Usa vLLM en lugar de Ollama (más optimizado)
  2. Reduce quantización (Q2 → Q4 si tienes VRAM)
  3. Verifica que estás usando GPU, no CPU
  4. Cierra otros procesos que usen GPU

Verificar uso GPU:

nvidia-smi  # Debe mostrar uso de GPU

Calidad Baja

Síntomas: Respuestas incoherentes o de baja calidad.

Soluciones:

  1. Reduce quantización (Q2 → Q4 → Q8)
  2. Usa un modelo más grande (8B → 70B)
  3. Aumenta temperatura si está muy baja
  4. Verifica que el prompt es claro

Instalación Falla

Ollama no instala:

# Verifica permisos
sudo curl https://ollama.ai/install.sh | sh
# O instala manualmente
wget https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64
chmod +x ollama-linux-amd64
sudo mv ollama-linux-amd64 /usr/local/bin/ollama

vLLM no instala:

# Requiere Python 3.8+
python3 --version
# Instala dependencias
pip install vllm[all]
# Si falla, instala sin optimizaciones
pip install vllm --no-cache-dir

Preguntas Frecuentes {#faq}

¿Qué modelo es mejor para coding?

Respuesta: DeepSeek-Coder-V2 es el mejor modelo open source para coding según benchmarks, con rendimiento comparable a GPT-4 Turbo. Soporta 338 lenguajes de programación y tiene licencia Apache 2.0. Alternativas excelentes son MiniMax-M2 (#1 en ranking open source) y Llama 3.1 70B (77.4% HumanEval).

¿Puedo ejecutar un modelo 70B en RTX 4090 (24GB)?

Respuesta: Sí, pero requiere quantización. Con quantización Q4 (4-bit), Llama 3.1 70B ocupa ~20GB de VRAM y funciona perfectamente en RTX 4090. Con Q2 (2-bit) baja a ~12GB pero la calidad se reduce. Recomendamos Q4 como balance óptimo.

¿Ollama vs vLLM vs llama.cpp?

Respuesta:

  • Ollama: Mejor para empezar, fácil instalación, gestión automática de modelos. Ideal para desarrollo y homelab.
  • vLLM: Mejor para producción, máxima velocidad (hasta 24x más rápido que Transformers), OpenAI API compatible. Ideal para APIs y múltiples usuarios.
  • llama.cpp: Mejor para recursos limitados, muy ligero, funciona en CPU/GPU. Ideal para edge devices y sistemas con poca VRAM.

¿Qué quantización usar?

Respuesta:

  • Q4_K_M: Balance óptimo calidad/tamaño, recomendado para la mayoría de casos ✅
  • Q5_K_M: Mejor calidad, usa si tienes VRAM de sobra
  • Q8_0: Calidad casi indistinguible de FP16, 2.8x más pequeño
  • Q2 (IQ2_XS): Solo para modelos muy grandes en VRAM muy limitada

¿Cuál es el modelo más rápido?

Respuesta: Para modelos 8B, Llama 3.1 8B alcanza 213 tokens/segundo en RTX 4090. Qwen2.5 8B tiene el prefill más rápido (>10,400 tokens/segundo). Para modelos 70B, la velocidad depende de la quantización: Q2 puede alcanzar 60 tokens/segundo, Q4 es más lento pero mejor calidad.

¿Qué licencias permiten uso comercial?

Respuesta:

  • Apache 2.0: Uso comercial sin restricciones (Qwen, DeepSeek, Mixtral, Smaug, MiniMax)
  • Llama 3.1 License: Uso comercial permitido pero con límites de usuarios (Llama 3.1, LLaMA 4)

¿Necesito quantización para modelos 8B?

Respuesta: No necesariamente. Modelos 8B en FP16 ocupan ~12GB de VRAM, que cabe perfectamente en RTX 3090/4090/5090. Quantización es útil si quieres ejecutar múltiples modelos simultáneamente o si tienes menos VRAM.

¿Cómo actualizo modelos en Ollama?

Respuesta: Ollama actualiza automáticamente cuando haces ollama pull modelo:latest. Para forzar actualización, elimina el modelo y vuelve a descargarlo:

ollama rm llama3.1:8b
ollama pull llama3.1:8b

¿Puedo ejecutar múltiples modelos simultáneamente?

Respuesta: Depende de tu VRAM. Con 24GB puedes ejecutar 2 modelos 8B en FP16 simultáneamente, o 1 modelo 8B + 1 modelo 70B quantizado. Con 32GB (RTX 5090) puedes ejecutar más modelos. Usa nvidia-smi para monitorear uso de VRAM.

¿Qué modelo elegir para razonamiento matemático?

Respuesta: DeepSeek R1 es el mejor para razonamiento matemático, con 90.8% MMLU y rendimiento comparable a GPT-4. Qwen2.5 72B y Llama 3.1 70B también son excelentes opciones para razonamiento general.

¿Los modelos open source son tan buenos como GPT-4?

Respuesta: Depende de la tarea. Para coding, DeepSeek-Coder-V2 es comparable a GPT-4 Turbo. Para razonamiento, DeepSeek R1 alcanza 90.8% MMLU (cerca de GPT-4). Para general purpose, modelos como Qwen2.5 72B (86.8% MMLU) están muy cerca. La ventaja de open source es privacidad, control, y sin costos por token.

¿Cómo mido la velocidad de inferencia?

Respuesta:

# Con Ollama API
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Test prompt",
  "stream": false
}' | jq '.eval_count / .eval_duration'
# Con vLLM, revisa logs o usa métricas Prometheus

¿Qué modelo usar para contexto muy largo?

Respuesta: LLaMA 4 Maverick tiene el contexto más largo disponible (10 millones de tokens). Para contextos de 128K tokens, Qwen2.5 72B y Llama 3.1 70B son excelentes opciones. RTX 5090 maneja mejor contextos largos que RTX 4090 (50% más rápida en 32K tokens).

¿Puedo fine-tunear estos modelos?

Respuesta: Sí, todos los modelos open source pueden fine-tunearse. Para homelab, usa LoRA (Low-Rank Adaptation) que requiere menos VRAM. Herramientas como Text Generation WebUI (oobabooga) permiten entrenar LoRAs con datos custom. Para una guía completa de fine-tuning, consulta Fine-Tuning de LLMs: Guía Completa para Principiantes. Para fine-tuning completo, necesitas múltiples GPUs o servicios cloud.

¿Qué modelo es mejor para español?

Respuesta: Qwen2.5 8B/72B tiene excelente soporte multilingüe incluyendo español. Llama 3.1 también soporta español bien. Qwen3-235B tiene el mejor soporte multilingüe (100+ idiomas) pero requiere más recursos.

Conclusión y Próximos Pasos {#conclusion}

Los modelos LLM open source han alcanzado un nivel de madurez impresionante en 2025. Ya no necesitas depender de APIs costosas o modelos propietarios para obtener resultados de calidad profesional. Con una RTX 4090 de 24GB puedes ejecutar modelos de 70B parámetros con quantización, obteniendo rendimiento comparable a GPT-4 en muchas tareas.

Resumen de Recomendaciones

Para coding: DeepSeek-Coder-V2 o MiniMax-M2

Para general purpose: Qwen2.5 72B o Llama 3.1 70B

Para razonamiento: DeepSeek R1

Para empezar rápido: Llama 3.1 8B o Qwen2.5 8B

Para eficiencia: Mixtral 8x7B

Próximos Pasos

  1. Instala Ollama y prueba los modelos 8B primero (rápidos y fáciles)
  2. Descarga ejemplos del repositorio GitHub
  3. Experimenta con diferentes modelos según tus necesidades
  4. Optimiza con quantización si necesitas modelos más grandes
  5. Lee artículos relacionados:

Homelab con GPU 24GB+: Guía Completa – Benchmarks detallados de hardware

Ollama vs LM Studio: Comparativa – Qué herramienta elegir

vLLM: Deploy LLMs a Escala – Producción y APIs

Quantization de LLMs: Guía Completa – Optimización de VRAM

MiniMax-M2: El Modelo Open Source que Supera a Claude – Análisis profundo de MiniMax-M2

Recursos Descargables

Todos los scripts y ejemplos están disponibles en:

📦 GitHub: learningaiagents/llm-models

Incluye:

  • Scripts de instalación Ollama/vLLM
  • Docker Compose configurado
  • Ejemplos de código Python
  • Scripts de benchmarking

¿Listo para ejecutar LLMs en tu homelab? Empieza con Ollama y un modelo 8B, luego experimenta con modelos más grandes según tus necesidades. La IA local nunca ha sido tan accesible. 🚀

Por ziru

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
El Diario IA
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.