Ollama vs LM Studio: ¿Cuál Elegir para Ejecutar LLMs Locales en tu Homelab?
Si tienes un homelab y quieres ejecutar modelos de lenguaje (LLMs) localmente sin depender de APIs cloud, probablemente te has encontrado con dos nombres: Ollama y LM Studio. Ambas son soluciones potentes, pero son MUY diferentes en filosofía y uso.
En esta guía te cuento las diferencias clave, cuándo usar cada una, benchmarks reales con diferentes GPUs, y cómo instalarlas con Docker en tu homelab.
¿Qué es Ollama?
Ollama es una herramienta CLI open-source (MIT) para ejecutar LLMs localmente. Pensada para desarrolladores, es ligera, rápida y se integra perfecto con scripts y pipelines automatizados.
Características de Ollama
✅ CLI rápida y eficiente: Comandos simples como ollama run llama3
✅ API REST compatible OpenAI: Úsala desde cualquier lenguaje de programación
✅ Docker nativo: Contenedor oficial optimizado
✅ Modelfiles: Personaliza modelos con configuración tipo Dockerfile
✅ +100 modelos: Llama 3.3, Mistral, CodeLlama, Phi-4, DeepSeek-V3.1
✅ Múltiples plataformas: NVIDIA, AMD (Vulkan), Intel, Apple Silicon
Versión actual: 0.6.6 (abril 2025) con Flash Attention y tool calling
Ventajas de Ollama
-
- Performance brutal: Basado en llama.cpp, optimizado al máximo
- Automatización fácil: Scripts, cron jobs, integración con n8n
- Ligero: Consume pocos recursos en modo servidor
- Open source: Código auditab
le, comunidad activa
Desventajas de Ollama
-
- Curva de aprendizaje: Requiere terminal y conocimientos básicos CLI
- Sin GUI nativa: Necesitas interfaces separadas como Open WebUI
- Menos intuitivo: Para no-técnicos puede ser intimidante
Instalación de Ollama
Linux
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
# Ejecutar servidor
ollama serve
# Descargar y ejecutar modelo
ollama run llama3:8b
Docker
docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--gpus all \
--name ollama \
ollama/ollama
# Ejecutar modelo
docker exec -it ollama ollama run llama3:8b
¿Qué es LM Studio?
LM Studio es una aplicación desktop gratuita con GUI estilo ChatGPT. Perfecta para principiantes, arrastra modelos, chateas y listo.
Características de LM Studio
✅ GUI intuitiva: Interfaz moderna tipo ChatGPT
✅ Drag & drop: Descarga modelos desde Hugging Face con un clic
✅ Multi-GPU nativo: Distribuye carga entre varias GPUs automáticamente
✅ RAG local: Chat con documentos PDF sin subir nada a la nube
✅ Model Context Protocol (MCP): Conecta herramientas externas
✅ API local: Servidor compatible OpenAI incluido
✅ Soporte MLX: Optimización para Apple Silicon M1/M2/M3/M4
Versión actual: 0.3.30 (2024-2025)
Ventajas de LM Studio
-
- Zero curva de aprendizaje: Instala, abre, chateas
- Perfecto para experimentar: Cambiar modelos en segundos
- Multi-GPU avanzado: Mejor que Ollama para setups con múltiples GPUs
- RAG integrado: Chat con documentos locales out-of-the-box
Desventajas de LM Studio
-
- No es CLI-friendly: Difícil de automatizar
- Consume más recursos: La GUI usa RAM/CPU extra
- Menos portable: Aplicación desktop vs servidor ligero
Instalación de LM Studio
-
- Descarga desde lmstudio.ai
- Instala (Windows/macOS/Linux)
- Abre la app
- Busca modelo en la pestaña “Search”
- Descarga con un clic
- Chatea en la pestaña “Chat”
Comparativa Directa: Ollama vs LM Studio
| Criterio | Ollama | LM Studio | Ganador |
|---|---|---|---|
| Facilidad de uso | ⭐⭐⭐ (CLI) | ⭐⭐⭐⭐⭐ (GUI) | LM Studio |
| Performance | ⭐⭐⭐⭐⭐ (llama.cpp) | ⭐⭐⭐⭐ (MLX/llama.cpp) | Ollama |
| Automatización | ⭐⭐⭐⭐⭐ (API/CLI) | ⭐⭐ (Solo GUI) | Ollama |
| Multi-GPU | ⭐⭐⭐ (Básico) | ⭐⭐⭐⭐⭐ (Avanzado) | LM Studio |
| Consumo recursos | ⭐⭐⭐⭐⭐ (Mínimo) | ⭐⭐⭐ (GUI overhead) | Ollama |
| RAG local | ⭐⭐ (Requiere setup) | ⭐⭐⭐⭐⭐ (Integrado) | LM Studio |
| Open Source | ⭐⭐⭐⭐⭐ (MIT) | ⭐ (Propietario) | Ollama |
| Apple Silicon | ⭐⭐⭐⭐ (MPS) | ⭐⭐⭐⭐⭐ (MLX nativo) | LM Studio |
| Docker | ⭐⭐⭐⭐⭐ (Oficial) | ⭐⭐ (Workarounds) | Ollama |
| API OpenAI | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Empate |
Cuándo Usar Ollama
-
- Eres desarrollador y quieres integrar LLMs en tu stack
- Automatizas workflows con n8n para WhatsApp, cron, scripts
- Homelab con Docker: Todo tu setup corre en contenedores (guía completa Docker homelab)
- Hardware limitado: CPU y RAM al mínimo
- Prefieres open source y control total del código
Cuándo Usar LM Studio
-
- Eres principiante con LLMs locales
- Experimentas con modelos: Quieres probar decenas rápido
- Tienes múltiples GPUs (2x RTX 4090, por ejemplo)
- Apple Silicon: M1/M2/M3 se benefician de MLX
- Chat con documentos: RAG local sin setup técnico
- Quieres GUI: Prefieres clicks vs terminal
Benchmarks Reales (2025)
Hardware Testeado
Tests con modelos Llama 3.1 8B (Q4_K_M cuantización):
| GPU | Ollama (t/s) | LM Studio (t/s) | VRAM Usada |
|---|---|---|---|
| RTX 4090 24GB | 78-82 | 72-76 | 6.5GB |
| RTX 4070 12GB | 52-55 | 48-51 | 6.2GB |
| RTX 3060 12GB | 32-35 | 28-31 | 6.8GB |
| M3 Max (MLX) | 58-62 | 63-68 | 8GB RAM |
| CPU (i9-13900K) | 4-6 | 3-5 | 12GB RAM |
t/s = tokens por segundo (mayor es mejor)
Observaciones:
-
- Ollama gana en GPUs NVIDIA por optimización CUDA
- LM Studio gana en Apple Silicon gracias a MLX
- Con CPU, ambos son lentos pero usables para tareas simples
Modelos Grandes: Llama 3.3 70B
| GPU | Ollama (t/s) | LM Studio (t/s) | Cuantización |
|---|---|---|---|
| RTX 4090 24GB | 18-22 | 16-19 | Q4_K_M |
| 2x RTX 4090 | 35-42 | 48-55 | Q4_K_M |
| M3 Ultra (MLX) | 28-32 | 32-38 | Q4_0 |
Conclusión: Para multi-GPU, LM Studio es superior. Distribuye carga mejor.
Instalación Completa con Docker Compose
Aquí un setup profesional: Ollama + Open WebUI + n8n para automatización total.
docker-compose.yml
version: '3.8'
services:
# Ollama: Motor LLM
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped
# Open WebUI: Interfaz web para Ollama
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
volumes:
- open_webui_data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
- ollama
restart: unless-stopped
# n8n: Automatización de workflows
n8n:
image: n8nio/n8n:latest
container_name: n8n
ports:
- "5678:5678"
volumes:
- n8n_data:/home/node/.n8n
environment:
- N8N_HOST=0.0.0.0
- WEBHOOK_URL=http://localhost:5678/
restart: unless-stopped
volumes:
ollama_data:
open_webui_data:
n8n_data:
Iniciar el Stack
# Crear directorios
mkdir ollama-stack && cd ollama-stack
# Guardar docker-compose.yml
# Iniciar servicios
docker compose up -d
# Descargar modelos
docker exec ollama ollama pull llama3:8b
docker exec ollama ollama pull codellama:7b
docker exec ollama ollama pull mistral:7b
# Acceder a las interfaces
# Open WebUI: http://localhost:3000
# n8n: http://localhost:5678
Casos de Uso Prácticos
1. Chatbot Local con Ollama + n8n
Workflow en n8n:
-
-
- Webhook Trigger recibe mensaje de usuario
- HTTP Request Node llama a Ollama API:
-
POST http://ollama:11434/api/generate
{
"model": "llama3:8b",
"prompt": "{{$json.message}}",
"stream": false
}
- Function Node procesa respuesta
- HTTP Response devuelve resultado
Ventaja: Privacidad total, sin APIs externas, sin costos recurrentes.
Si quieres profundizar en integración de chatbots con n8n, revisa nuestra guía completa de automatización con n8n donde explicamos workflows avanzados.
2. Asistente de Código con LM Studio
-
-
- Abre LM Studio
- Descarga
CodeLlama 13B - Pestaña “Developer” → Inicia servidor API
- Configura VSCode con extensión “Continue»:
-
{
"models": [{
"title": "CodeLlama Local",
"provider": "lmstudio",
"model": "codellama-13b",
"apiBase": "http://localhost:1234/v1"
}]
}
- Usa
Ctrl+Len VSCode para preguntar al modelo
Ventaja: Code completion local, sin enviar código a la nube.
3. Análisis de Logs con Ollama
Script Python automatizado:
import ollama
# Leer logs
with open('/var/log/nginx/error.log', 'r') as f:
logs = f.read()
# Analizar con LLM
response = ollama.generate(
model='llama3:8b',
prompt=f'Analiza estos logs y encuentra errores críticos:\n{logs}'
)
print(response['response'])
Ventaja: Análisis inteligente de logs sin depender de servicios externos.
4. RAG Local con LM Studio
-
- Abre LM Studio
- Pestaña “Chat with Docs”
- Arrastra PDFs (manuales, docs técnicas)
- Selecciona modelo (Llama 3.1 8B)
- Pregunta: «¿Cómo configurar RAID en este manual?»
Ventaja: Busca en documentación local sin subir nada a la nube. Perfecto para docs confidenciales.
5. Monitoreo Automatizado con Ollama + Kubernetes
Si tienes un homelab con Kubernetes, puedes desplegar Ollama como servicio y usarlo para analizar métricas y logs.
Deploy básico en K8s:
apiVersion: apps/v1
kind: Deployment
metadata:
name: ollama
spec:
replicas: 1
selector:
matchLabels:
app: ollama
template:
metadata:
labels:
app: ollama
spec:
containers:
- name: ollama
image: ollama/ollama:latest
ports:
- containerPort: 11434
resources:
limits:
nvidia.com/gpu: 1
volumeMounts:
- name: ollama-data
mountPath: /root/.ollama
volumes:
- name: ollama-data
persistentVolumeClaim:
claimName: ollama-pvc
Luego usa un CronJob para analizar logs periódicamente:
apiVersion: batch/v1
kind: CronJob
metadata:
name: log-analyzer
spec:
schedule: "0 */6 * * *" # Cada 6 horas
jobTemplate:
spec:
template:
spec:
containers:
- name: analyzer
image: python:3.11
command:
- python
- /scripts/analyze_logs.py
restartPolicy: OnFailure
Para más detalles sobre deployar IA en Kubernetes, consulta nuestra guía de Kubernetes para IA en producción que cubre Ollama, GPUs, y escalado automático.
6. Web Scraping Inteligente con Ollama + Playwright
Combina Ollama con Browserless y Playwright para scraping web con análisis IA:
import ollama
from playwright.sync_api import sync_playwright
# Scrape contenido
with sync_playwright() as p:
browser = p.chromium.launch()
page = browser.new_page()
page.goto('https://example.com/articulo')
content = page.inner_text('article')
browser.close()
# Analizar con LLM
response = ollama.generate(
model='llama3:8b',
prompt=f'Extrae los puntos clave de este artículo:\n{content}'
)
print(response['response'])
Esto es especialmente útil para monitorear competencia, noticias del sector o cambios en documentación técnica.
Modelos Recomendados 2025
Para Propósito General
| Modelo | Tamaño | VRAM | Velocidad | Calidad |
|---|---|---|---|---|
| Llama 3.3 70B | 40GB (Q4) | 24GB+ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Llama 3.1 8B | 4.5GB (Q4) | 6GB | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Mistral 7B | 4.1GB (Q4) | 6GB | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Phi-4 14B | 8GB (Q4) | 10GB | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Para Programación
| Modelo | Lenguajes | VRAM | Mejor Para |
|---|---|---|---|
| CodeLlama 34B | Todos | 20GB (Q4) | Proyectos complejos |
| CodeLlama 13B | Todos | 8GB (Q4) | Balance calidad/velocidad |
| CodeLlama 7B | Todos | 6GB (Q4) | Hardware limitado |
| DeepSeek Coder | Python, JS, Go | 10GB (Q4) | Code review |
Para Hardware Limitado (6GB VRAM)
-
- Llama 3.2 3B (2GB Q4): Sorprendentemente capaz
- Phi-3.5 3.8B (2.5GB Q4): Excelente para chat
- Gemma 2 2B (1.5GB Q4): Ultra rápido
Troubleshooting Común
Error: “CUDA out of memory” (Ollama)
# Usar cuantización más agresiva
ollama run llama3:8b-q3_K_S # En lugar de Q4
# O limitar contexto
ollama run llama3:8b --ctx-size 2048 # Default es 4096
Error: GPU no detectada (LM Studio)
Windows:
-
- Verifica drivers NVIDIA actualizados
- Reinstala CUDA Toolkit 12.x
- LM Studio → Settings → GPU → Force reload
Linux:
# Verificar CUDA
nvidia-smi
# Verificar que LM Studio ve la GPU
LD_LIBRARY_PATH=/usr/local/cuda/lib64 ./lmstudio
Performance Lenta
Ollama:
# Habilitar Flash Attention (modelos Llama 3+)
export OLLAMA_FLASH_ATTENTION=1
# Usar CUDA streams
export OLLAMA_NUM_PARALLEL=2
# Restart servidor
ollama serve
LM Studio:
-
- Settings → GPU Offload → Max (100%)
- Settings → Context Length → Reducir a 2048 si es lento
- Usar cuantización Q4 en lugar de Q5/Q8
Mejores Prácticas para LLMs Locales
Gestión de Recursos
Monitorea uso de VRAM constantemente:
# Con Ollama
watch -n 1 nvidia-smi
# Ver uso de VRAM por modelo
ollama ps
Limita modelos cargados simultáneamente:
Por defecto, Ollama mantiene modelos en VRAM por 5 minutos después de usarlos. Ajusta con:
export OLLAMA_KEEP_ALIVE=1m # Solo 1 minuto
# O para descargar inmediatamente:
export OLLAMA_KEEP_ALIVE=0
Usa cuantización apropiada según tu GPU:
-
- 24GB VRAM (RTX 4090): Q5_K_M o Q8_0 para máxima calidad
- 12GB VRAM (RTX 3060/4070): Q4_K_M (balance perfecto)
- 8GB VRAM (RTX 3050): Q3_K_M + modelos pequeños (7B)
- <8GB VRAM: Solo modelos tiny (2-3B) con Q4
Seguridad y Privacidad
Verifica que los modelos NO llamen home:
# Bloquea conexiones salientes del contenedor Ollama
docker run -d \
--network none \ # Sin red
-v ollama:/root/.ollama \
ollama/ollama
Audita modelos descargados:
Los modelos GGUF pueden contener malware teóricamente. Descarga solo de fuentes confiables:
-
- ✅ Ollama oficial (ollama.com/library)
- ✅ Hugging Face verificados
- ❌ Sitios desconocidos o repositorios no verificados
Cifra el volumen de datos:
# Linux con LUKS
cryptsetup luksFormat /dev/sdb1
cryptsetup open /dev/sdb1 ollama_encrypted
mkfs.ext4 /dev/mapper/ollama_encrypted
mount /dev/mapper/ollama_encrypted /var/lib/docker/volumes/ollama
Optimización de Performance
Flash Attention (Ollama):
Para modelos Llama 3+, habilita Flash Attention para ~30% más velocidad:
export OLLAMA_FLASH_ATTENTION=1
ollama serve
Paralelismo (Ollama):
Procesa múltiples requests en paralelo:
export OLLAMA_NUM_PARALLEL=4 # 4 requests simultáneos
export OLLAMA_MAX_LOADED_MODELS=2 # Máximo 2 modelos en VRAM
Batch Size (LM Studio):
Settings → GPU Settings → Batch Size → 512 (default 128)
Esto acelera generación de texto largo a costa de más VRAM.
Backups y Versionado
Backup de modelos Ollama:
# Modelos están en:
~/.ollama/models # Linux/macOS
C:\Users\<user>\.ollama\models # Windows
# Backup manual
tar -czf ollama-models-$(date +%Y%m%d).tar.gz ~/.ollama/models
# O usar rsync para backups incrementales
rsync -av --progress ~/.ollama/models/ /backup/ollama-models/
Versionado de Modelfiles:
# Git para tus Modelfiles personalizados
mkdir ~/ollama-modelfiles && cd ~/ollama-modelfiles
git init
# Crear Modelfile
cat > CodeAssistant <<EOF
FROM codellama:13b
SYSTEM "Eres un experto en Python..."
PARAMETER temperature 0.7
EOF
git add . && git commit -m "CodeAssistant v1.0"
Integración con Proxies Inversos
Nginx para Ollama:
server {
listen 443 ssl;
server_name ollama.tudominio.com;
ssl_certificate /etc/ssl/certs/ollama.crt;
ssl_certificate_key /etc/ssl/private/ollama.key;
location / {
proxy_pass http://localhost:11434;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
# Para streaming
proxy_buffering off;
chunked_transfer_encoding on;
}
}
Esto permite acceder a Ollama desde fuera de tu homelab de forma segura (HTTPS + autenticación).
Alternativas: Otras Opciones
Jan.ai
-
- Similar a LM Studio pero open source
- Menos maduro, pero prometedor
- Alternativa interesante para quien prefiere FOSS
LocalAI
-
- Compatible con OpenAI API
- Corre en Docker
- Soporta modelos de imagen (Stable Diffusion) y audio (Whisper) también
- Más pesado pero más versátil
Text Generation WebUI (oobabooga)
-
- GUI web para LLMs
- Más técnico que LM Studio
- Excelente para fine-tuning y experimentación avanzada
- Comunidad activa en Reddit y Discord
Preguntas Frecuentes (FAQ)
¿Puedo usar Ollama y LM Studio a la vez?
Sí, pero no en el mismo puerto. Ollama usa 11434, LM Studio usa 1234. Puedes tener ambos corriendo sin conflicto.
De hecho, algunos usuarios usan LM Studio para experimentar y encontrar el mejor modelo para su tarea, y luego usan Ollama en producción para automatizaciones porque es más ligero y eficiente en recursos. Es una combinación perfecta: GUI para experimentar, CLI para producir.
¿Cuál consume menos VRAM?
Ollama está más optimizado. Con el mismo modelo y cuantización, Ollama usa ~10-15% menos VRAM que LM Studio.
Ejemplo concreto:
-
- Llama 3.1 8B (Q4_K_M) en Ollama: ~5.8GB VRAM
- Mismo modelo en LM Studio: ~6.5GB VRAM
La diferencia se debe a que Ollama usa optimizaciones más agresivas de llama.cpp, mientras que LM Studio prioriza compatibilidad y facilidad de uso sobre eficiencia máxima.
¿Funcionan en CPUs sin GPU?
Sí, ambos funcionan en CPU puro. Es lento (~4-8 tokens/segundo con modelos 7B) pero usable para tareas simples.
¿Puedo entrenar modelos?
No directamente. Para fine-tuning usa herramientas como LoRA con frameworks como Axolotl o Unsloth, luego importa a Ollama/LM Studio.
¿Qué modelo es mejor para empezar?
Llama 3.1 8B (Q4_K_M). Balance perfecto entre calidad, velocidad y requisitos de hardware. Funciona bien desde 6GB VRAM.
Este modelo ofrece respuestas coherentes, entiende contexto complejo (hasta 128k tokens), y genera código decente. Es el “Swiss Army knife” de los LLMs locales: no es el mejor en nada específico, pero es muy bueno en todo. Perfecto para aprender y experimentar sin invertir en hardware caro.
¿Cómo actualizo modelos en Ollama?
ollama pull llama3:8b # Descarga versión más reciente
ollama rm llama3:8b # Borra versión antigua (opcional)
¿LM Studio requiere internet?
Solo para descargar modelos. Una vez descargados, funciona 100% offline. Perfecto para entornos air-gapped.
¿Puedo usar modelos de Hugging Face?
Ollama:
ollama run hf.co/username/model:q4_k_m
LM Studio: Busca el modelo en la pestaña “Search” y descarga con un clic.
¿Qué pasa con la privacidad?
Ambos corren 100% local. Cero datos salen de tu máquina. Perfecto para datos sensibles o confidenciales.
¿Cuánto espacio en disco necesito?
Depende de los modelos:
-
- Modelos 7B (Q4): ~4-5GB cada uno
- Modelos 13B (Q4): ~7-9GB
- Modelos 70B (Q4): ~35-40GB
Recomendado: 100GB+ libres si vas a experimentar con varios modelos.
¿Funcionan en Raspberry Pi?
Ollama sí (ARM64 soportado), pero es extremadamente lento. Solo modelos tiny (2-3B) son viables. LM Studio no tiene versión ARM.
Si quieres probar LLMs en Raspberry Pi, te recomiendo:
-
- Raspberry Pi 5 (8GB) con Ollama + Phi-3.5 3.8B (Q4)
- Espera ~15-20 segundos por respuesta (lento pero funcional)
- Úsalo para proyectos educativos o PoC, no para producción
- Alternativa: Usa Raspberry Pi como cliente y Ollama corriendo en un servidor más potente en tu red local
¿Puedo usar ambos con la misma colección de modelos?
No directamente. Ollama guarda en ~/.ollama/models, LM Studio en su propia carpeta. Tendrías que duplicar modelos (desperdicio de espacio).
¿Cuál tiene mejor integración con VSCode?
LM Studio via extensión “Continue”. Ollama funciona pero requiere más setup manual.
¿Hay límite de tokens por consulta?
Depende del modelo y tu VRAM. Típico: 2048-8192 tokens de contexto. Modelos recientes (Llama 3.3) soportan hasta 128k tokens.
¿Puedo usar Ollama en Kubernetes?
Sí, hay charts de Helm oficiales. Perfecto para despliegues enterprise con múltiples nodos.
Conclusión: ¿Cuál Elegir?
Elige Ollama si:
-
- Eres desarrollador o DevOps
- Tu homelab corre principalmente en Docker
- Quieres automatizar con scripts/APIs
- Valoras performance y eficiencia de recursos
- Prefieres herramientas open source
Elige LM Studio si:
-
- Eres principiante con LLMs
- Quieres experimentar rápido sin tocar terminal
- Tienes Apple Silicon (M1/M2/M3/M4)
- Necesitas multi-GPU avanzado (2+ GPUs)
- Prefieres GUI sobre CLI
Mi recomendación:
Si tienes espacio, instala ambos:
-
- LM Studio para experimentar y probar modelos rápido
- Ollama en Docker para producción y automatizaciones
Con un homelab decente (RTX 3060 12GB+, 32GB RAM), puedes correr ambos sin problema y elegir la herramienta correcta para cada tarea.
Hardware recomendado para empezar:
-
- GPU: RTX 3060 12GB (~€300 usada) o RTX 4060 Ti 16GB (~€500)
- CPU: Ryzen 5 5600 o superior
- RAM: 32GB DDR4
- SSD: 500GB NVMe para modelos
Con este setup puedes correr modelos hasta 13B cómodamente en Q4, o modelos 70B en Q3 para tareas menos críticas.
¿Ya usas Ollama o LM Studio? ¿Qué modelo es tu favorito para tu homelab? Cuéntame en los comentarios tu experiencia.
Artículos relacionados:
