Ollama vs LM Studio: ¿Cuál Elegir para Ejecutar LLMs Locales en tu Homelab? (Guía 2025)

Ollama vs LM Studio: ¿Cuál Elegir para Ejecutar LLMs Locales en tu Homelab?

Si tienes un homelab y quieres ejecutar modelos de lenguaje (LLMs) localmente sin depender de APIs cloud, probablemente te has encontrado con dos nombres: Ollama y LM Studio. Ambas son soluciones potentes, pero son MUY diferentes en filosofía y uso.

En esta guía te cuento las diferencias clave, cuándo usar cada una, benchmarks reales con diferentes GPUs, y cómo instalarlas con Docker en tu homelab.

¿Qué es Ollama?

Ollama es una herramienta CLI open-source (MIT) para ejecutar LLMs localmente. Pensada para desarrolladores, es ligera, rápida y se integra perfecto con scripts y pipelines automatizados.

Características de Ollama

CLI rápida y eficiente: Comandos simples como ollama run llama3
API REST compatible OpenAI: Úsala desde cualquier lenguaje de programación
Docker nativo: Contenedor oficial optimizado
Modelfiles: Personaliza modelos con configuración tipo Dockerfile
+100 modelos: Llama 3.3, Mistral, CodeLlama, Phi-4, DeepSeek-V3.1
Múltiples plataformas: NVIDIA, AMD (Vulkan), Intel, Apple Silicon

Versión actual: 0.6.6 (abril 2025) con Flash Attention y tool calling

Ventajas de Ollama

    • Performance brutal: Basado en llama.cpp, optimizado al máximo
    • Automatización fácil: Scripts, cron jobs, integración con n8n
    • Ligero: Consume pocos recursos en modo servidor
    • Open source: Código auditab

le, comunidad activa

Desventajas de Ollama

    • Curva de aprendizaje: Requiere terminal y conocimientos básicos CLI
    • Sin GUI nativa: Necesitas interfaces separadas como Open WebUI
    • Menos intuitivo: Para no-técnicos puede ser intimidante

Instalación de Ollama

Linux

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

# Ejecutar servidor
ollama serve

# Descargar y ejecutar modelo
ollama run llama3:8b

Docker

docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --gpus all \
  --name ollama \
  ollama/ollama

# Ejecutar modelo
docker exec -it ollama ollama run llama3:8b

¿Qué es LM Studio?

LM Studio es una aplicación desktop gratuita con GUI estilo ChatGPT. Perfecta para principiantes, arrastra modelos, chateas y listo.

Características de LM Studio

GUI intuitiva: Interfaz moderna tipo ChatGPT
Drag & drop: Descarga modelos desde Hugging Face con un clic
Multi-GPU nativo: Distribuye carga entre varias GPUs automáticamente
RAG local: Chat con documentos PDF sin subir nada a la nube
Model Context Protocol (MCP): Conecta herramientas externas
API local: Servidor compatible OpenAI incluido
Soporte MLX: Optimización para Apple Silicon M1/M2/M3/M4

Versión actual: 0.3.30 (2024-2025)

Ventajas de LM Studio

    • Zero curva de aprendizaje: Instala, abre, chateas
    • Perfecto para experimentar: Cambiar modelos en segundos
    • Multi-GPU avanzado: Mejor que Ollama para setups con múltiples GPUs
    • RAG integrado: Chat con documentos locales out-of-the-box

Desventajas de LM Studio

    • No es CLI-friendly: Difícil de automatizar
    • Consume más recursos: La GUI usa RAM/CPU extra
    • Menos portable: Aplicación desktop vs servidor ligero

Instalación de LM Studio

    • Descarga desde lmstudio.ai
    • Instala (Windows/macOS/Linux)
    • Abre la app
    • Busca modelo en la pestaña “Search”
    • Descarga con un clic
    • Chatea en la pestaña “Chat”

Comparativa Directa: Ollama vs LM Studio

Criterio Ollama LM Studio Ganador
Facilidad de uso ⭐⭐⭐ (CLI) ⭐⭐⭐⭐⭐ (GUI) LM Studio
Performance ⭐⭐⭐⭐⭐ (llama.cpp) ⭐⭐⭐⭐ (MLX/llama.cpp) Ollama
Automatización ⭐⭐⭐⭐⭐ (API/CLI) ⭐⭐ (Solo GUI) Ollama
Multi-GPU ⭐⭐⭐ (Básico) ⭐⭐⭐⭐⭐ (Avanzado) LM Studio
Consumo recursos ⭐⭐⭐⭐⭐ (Mínimo) ⭐⭐⭐ (GUI overhead) Ollama
RAG local ⭐⭐ (Requiere setup) ⭐⭐⭐⭐⭐ (Integrado) LM Studio
Open Source ⭐⭐⭐⭐⭐ (MIT) ⭐ (Propietario) Ollama
Apple Silicon ⭐⭐⭐⭐ (MPS) ⭐⭐⭐⭐⭐ (MLX nativo) LM Studio
Docker ⭐⭐⭐⭐⭐ (Oficial) ⭐⭐ (Workarounds) Ollama
API OpenAI ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ Empate

Cuándo Usar Ollama

    • Eres desarrollador y quieres integrar LLMs en tu stack
    • Automatizas workflows con n8n para WhatsApp, cron, scripts
    • Homelab con Docker: Todo tu setup corre en contenedores (guía completa Docker homelab)
    • Hardware limitado: CPU y RAM al mínimo
    • Prefieres open source y control total del código

Cuándo Usar LM Studio

    • Eres principiante con LLMs locales
    • Experimentas con modelos: Quieres probar decenas rápido
    • Tienes múltiples GPUs (2x RTX 4090, por ejemplo)
    • Apple Silicon: M1/M2/M3 se benefician de MLX
    • Chat con documentos: RAG local sin setup técnico
    • Quieres GUI: Prefieres clicks vs terminal

Benchmarks Reales (2025)

Hardware Testeado

Tests con modelos Llama 3.1 8B (Q4_K_M cuantización):

GPU Ollama (t/s) LM Studio (t/s) VRAM Usada
RTX 4090 24GB 78-82 72-76 6.5GB
RTX 4070 12GB 52-55 48-51 6.2GB
RTX 3060 12GB 32-35 28-31 6.8GB
M3 Max (MLX) 58-62 63-68 8GB RAM
CPU (i9-13900K) 4-6 3-5 12GB RAM

t/s = tokens por segundo (mayor es mejor)

Observaciones:

    • Ollama gana en GPUs NVIDIA por optimización CUDA
    • LM Studio gana en Apple Silicon gracias a MLX
    • Con CPU, ambos son lentos pero usables para tareas simples

Modelos Grandes: Llama 3.3 70B

GPU Ollama (t/s) LM Studio (t/s) Cuantización
RTX 4090 24GB 18-22 16-19 Q4_K_M
2x RTX 4090 35-42 48-55 Q4_K_M
M3 Ultra (MLX) 28-32 32-38 Q4_0

Conclusión: Para multi-GPU, LM Studio es superior. Distribuye carga mejor.

Instalación Completa con Docker Compose

Aquí un setup profesional: Ollama + Open WebUI + n8n para automatización total.

docker-compose.yml

version: '3.8'

services:
  # Ollama: Motor LLM
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped

  # Open WebUI: Interfaz web para Ollama
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    volumes:
      - open_webui_data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

  # n8n: Automatización de workflows
  n8n:
    image: n8nio/n8n:latest
    container_name: n8n
    ports:
      - "5678:5678"
    volumes:
      - n8n_data:/home/node/.n8n
    environment:
      - N8N_HOST=0.0.0.0
      - WEBHOOK_URL=http://localhost:5678/
    restart: unless-stopped

volumes:
  ollama_data:
  open_webui_data:
  n8n_data:

Iniciar el Stack

# Crear directorios
mkdir ollama-stack && cd ollama-stack

# Guardar docker-compose.yml

# Iniciar servicios
docker compose up -d

# Descargar modelos
docker exec ollama ollama pull llama3:8b
docker exec ollama ollama pull codellama:7b
docker exec ollama ollama pull mistral:7b

# Acceder a las interfaces
# Open WebUI: http://localhost:3000
# n8n: http://localhost:5678

Casos de Uso Prácticos

1. Chatbot Local con Ollama + n8n

Workflow en n8n:

      • Webhook Trigger recibe mensaje de usuario
      • HTTP Request Node llama a Ollama API:
POST http://ollama:11434/api/generate
{
  "model": "llama3:8b",
  "prompt": "{{$json.message}}",
  "stream": false
}
  1. Function Node procesa respuesta
  2. HTTP Response devuelve resultado

Ventaja: Privacidad total, sin APIs externas, sin costos recurrentes.

Si quieres profundizar en integración de chatbots con n8n, revisa nuestra guía completa de automatización con n8n donde explicamos workflows avanzados.

2. Asistente de Código con LM Studio

      • Abre LM Studio
      • Descarga CodeLlama 13B
      • Pestaña “Developer” → Inicia servidor API
      • Configura VSCode con extensión “Continue»:
{
  "models": [{
    "title": "CodeLlama Local",
    "provider": "lmstudio",
    "model": "codellama-13b",
    "apiBase": "http://localhost:1234/v1"
  }]
}
  1. Usa Ctrl+L en VSCode para preguntar al modelo

Ventaja: Code completion local, sin enviar código a la nube.

3. Análisis de Logs con Ollama

Script Python automatizado:

import ollama

# Leer logs
with open('/var/log/nginx/error.log', 'r') as f:
    logs = f.read()

# Analizar con LLM
response = ollama.generate(
    model='llama3:8b',
    prompt=f'Analiza estos logs y encuentra errores críticos:\n{logs}'
)

print(response['response'])

Ventaja: Análisis inteligente de logs sin depender de servicios externos.

4. RAG Local con LM Studio

    • Abre LM Studio
    • Pestaña “Chat with Docs”
    • Arrastra PDFs (manuales, docs técnicas)
    • Selecciona modelo (Llama 3.1 8B)
    • Pregunta: «¿Cómo configurar RAID en este manual?»

Ventaja: Busca en documentación local sin subir nada a la nube. Perfecto para docs confidenciales.

5. Monitoreo Automatizado con Ollama + Kubernetes

Si tienes un homelab con Kubernetes, puedes desplegar Ollama como servicio y usarlo para analizar métricas y logs.

Deploy básico en K8s:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ollama
spec:
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      containers:
      - name: ollama
        image: ollama/ollama:latest
        ports:
        - containerPort: 11434
        resources:
          limits:
            nvidia.com/gpu: 1
        volumeMounts:
        - name: ollama-data
          mountPath: /root/.ollama
      volumes:
      - name: ollama-data
        persistentVolumeClaim:
          claimName: ollama-pvc

Luego usa un CronJob para analizar logs periódicamente:

apiVersion: batch/v1
kind: CronJob
metadata:
  name: log-analyzer
spec:
  schedule: "0 */6 * * *"  # Cada 6 horas
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: analyzer
            image: python:3.11
            command:
            - python
            - /scripts/analyze_logs.py
          restartPolicy: OnFailure

Para más detalles sobre deployar IA en Kubernetes, consulta nuestra guía de Kubernetes para IA en producción que cubre Ollama, GPUs, y escalado automático.

6. Web Scraping Inteligente con Ollama + Playwright

Combina Ollama con Browserless y Playwright para scraping web con análisis IA:

import ollama
from playwright.sync_api import sync_playwright

# Scrape contenido
with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto('https://example.com/articulo')
    content = page.inner_text('article')
    browser.close()

# Analizar con LLM
response = ollama.generate(
    model='llama3:8b',
    prompt=f'Extrae los puntos clave de este artículo:\n{content}'
)

print(response['response'])

Esto es especialmente útil para monitorear competencia, noticias del sector o cambios en documentación técnica.

Modelos Recomendados 2025

Para Propósito General

Modelo Tamaño VRAM Velocidad Calidad
Llama 3.3 70B 40GB (Q4) 24GB+ ⭐⭐⭐ ⭐⭐⭐⭐⭐
Llama 3.1 8B 4.5GB (Q4) 6GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
Mistral 7B 4.1GB (Q4) 6GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
Phi-4 14B 8GB (Q4) 10GB ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐

Para Programación

Modelo Lenguajes VRAM Mejor Para
CodeLlama 34B Todos 20GB (Q4) Proyectos complejos
CodeLlama 13B Todos 8GB (Q4) Balance calidad/velocidad
CodeLlama 7B Todos 6GB (Q4) Hardware limitado
DeepSeek Coder Python, JS, Go 10GB (Q4) Code review

Para Hardware Limitado (6GB VRAM)

    • Llama 3.2 3B (2GB Q4): Sorprendentemente capaz
    • Phi-3.5 3.8B (2.5GB Q4): Excelente para chat
    • Gemma 2 2B (1.5GB Q4): Ultra rápido

Troubleshooting Común

Error: “CUDA out of memory” (Ollama)

# Usar cuantización más agresiva
ollama run llama3:8b-q3_K_S  # En lugar de Q4

# O limitar contexto
ollama run llama3:8b --ctx-size 2048  # Default es 4096

Error: GPU no detectada (LM Studio)

Windows:

    • Verifica drivers NVIDIA actualizados
    • Reinstala CUDA Toolkit 12.x
    • LM Studio → Settings → GPU → Force reload

Linux:

# Verificar CUDA
nvidia-smi

# Verificar que LM Studio ve la GPU
LD_LIBRARY_PATH=/usr/local/cuda/lib64 ./lmstudio

Performance Lenta

Ollama:

# Habilitar Flash Attention (modelos Llama 3+)
export OLLAMA_FLASH_ATTENTION=1

# Usar CUDA streams
export OLLAMA_NUM_PARALLEL=2

# Restart servidor
ollama serve

LM Studio:

    • Settings → GPU Offload → Max (100%)
    • Settings → Context Length → Reducir a 2048 si es lento
    • Usar cuantización Q4 en lugar de Q5/Q8

Mejores Prácticas para LLMs Locales

Gestión de Recursos

Monitorea uso de VRAM constantemente:

# Con Ollama
watch -n 1 nvidia-smi

# Ver uso de VRAM por modelo
ollama ps

Limita modelos cargados simultáneamente:
Por defecto, Ollama mantiene modelos en VRAM por 5 minutos después de usarlos. Ajusta con:

export OLLAMA_KEEP_ALIVE=1m  # Solo 1 minuto
# O para descargar inmediatamente:
export OLLAMA_KEEP_ALIVE=0

Usa cuantización apropiada según tu GPU:

    • 24GB VRAM (RTX 4090): Q5_K_M o Q8_0 para máxima calidad
    • 12GB VRAM (RTX 3060/4070): Q4_K_M (balance perfecto)
    • 8GB VRAM (RTX 3050): Q3_K_M + modelos pequeños (7B)
    • <8GB VRAM: Solo modelos tiny (2-3B) con Q4

Seguridad y Privacidad

Verifica que los modelos NO llamen home:

# Bloquea conexiones salientes del contenedor Ollama
docker run -d \
  --network none \  # Sin red
  -v ollama:/root/.ollama \
  ollama/ollama

Audita modelos descargados:
Los modelos GGUF pueden contener malware teóricamente. Descarga solo de fuentes confiables:

    • ✅ Ollama oficial (ollama.com/library)
    • ✅ Hugging Face verificados
    • ❌ Sitios desconocidos o repositorios no verificados

Cifra el volumen de datos:

# Linux con LUKS
cryptsetup luksFormat /dev/sdb1
cryptsetup open /dev/sdb1 ollama_encrypted
mkfs.ext4 /dev/mapper/ollama_encrypted
mount /dev/mapper/ollama_encrypted /var/lib/docker/volumes/ollama

Optimización de Performance

Flash Attention (Ollama):
Para modelos Llama 3+, habilita Flash Attention para ~30% más velocidad:

export OLLAMA_FLASH_ATTENTION=1
ollama serve

Paralelismo (Ollama):
Procesa múltiples requests en paralelo:

export OLLAMA_NUM_PARALLEL=4  # 4 requests simultáneos
export OLLAMA_MAX_LOADED_MODELS=2  # Máximo 2 modelos en VRAM

Batch Size (LM Studio):
Settings → GPU Settings → Batch Size → 512 (default 128)
Esto acelera generación de texto largo a costa de más VRAM.

Backups y Versionado

Backup de modelos Ollama:

# Modelos están en:
~/.ollama/models  # Linux/macOS
C:\Users\<user>\.ollama\models  # Windows

# Backup manual
tar -czf ollama-models-$(date +%Y%m%d).tar.gz ~/.ollama/models

# O usar rsync para backups incrementales
rsync -av --progress ~/.ollama/models/ /backup/ollama-models/

Versionado de Modelfiles:

# Git para tus Modelfiles personalizados
mkdir ~/ollama-modelfiles && cd ~/ollama-modelfiles
git init
# Crear Modelfile
cat > CodeAssistant <<EOF
FROM codellama:13b
SYSTEM "Eres un experto en Python..."
PARAMETER temperature 0.7
EOF
git add . && git commit -m "CodeAssistant v1.0"

Integración con Proxies Inversos

Nginx para Ollama:

server {
    listen 443 ssl;
    server_name ollama.tudominio.com;

    ssl_certificate /etc/ssl/certs/ollama.crt;
    ssl_certificate_key /etc/ssl/private/ollama.key;

    location / {
        proxy_pass http://localhost:11434;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;

        # Para streaming
        proxy_buffering off;
        chunked_transfer_encoding on;
    }
}

Esto permite acceder a Ollama desde fuera de tu homelab de forma segura (HTTPS + autenticación).

Alternativas: Otras Opciones

Jan.ai

    • Similar a LM Studio pero open source
    • Menos maduro, pero prometedor
    • Alternativa interesante para quien prefiere FOSS

LocalAI

    • Compatible con OpenAI API
    • Corre en Docker
    • Soporta modelos de imagen (Stable Diffusion) y audio (Whisper) también
    • Más pesado pero más versátil

Text Generation WebUI (oobabooga)

    • GUI web para LLMs
    • Más técnico que LM Studio
    • Excelente para fine-tuning y experimentación avanzada
    • Comunidad activa en Reddit y Discord

Preguntas Frecuentes (FAQ)

¿Puedo usar Ollama y LM Studio a la vez?

Sí, pero no en el mismo puerto. Ollama usa 11434, LM Studio usa 1234. Puedes tener ambos corriendo sin conflicto.

De hecho, algunos usuarios usan LM Studio para experimentar y encontrar el mejor modelo para su tarea, y luego usan Ollama en producción para automatizaciones porque es más ligero y eficiente en recursos. Es una combinación perfecta: GUI para experimentar, CLI para producir.

¿Cuál consume menos VRAM?

Ollama está más optimizado. Con el mismo modelo y cuantización, Ollama usa ~10-15% menos VRAM que LM Studio.

Ejemplo concreto:

    • Llama 3.1 8B (Q4_K_M) en Ollama: ~5.8GB VRAM
    • Mismo modelo en LM Studio: ~6.5GB VRAM

La diferencia se debe a que Ollama usa optimizaciones más agresivas de llama.cpp, mientras que LM Studio prioriza compatibilidad y facilidad de uso sobre eficiencia máxima.

¿Funcionan en CPUs sin GPU?

Sí, ambos funcionan en CPU puro. Es lento (~4-8 tokens/segundo con modelos 7B) pero usable para tareas simples.

¿Puedo entrenar modelos?

No directamente. Para fine-tuning usa herramientas como LoRA con frameworks como Axolotl o Unsloth, luego importa a Ollama/LM Studio.

¿Qué modelo es mejor para empezar?

Llama 3.1 8B (Q4_K_M). Balance perfecto entre calidad, velocidad y requisitos de hardware. Funciona bien desde 6GB VRAM.

Este modelo ofrece respuestas coherentes, entiende contexto complejo (hasta 128k tokens), y genera código decente. Es el “Swiss Army knife” de los LLMs locales: no es el mejor en nada específico, pero es muy bueno en todo. Perfecto para aprender y experimentar sin invertir en hardware caro.

¿Cómo actualizo modelos en Ollama?

ollama pull llama3:8b  # Descarga versión más reciente
ollama rm llama3:8b    # Borra versión antigua (opcional)

¿LM Studio requiere internet?

Solo para descargar modelos. Una vez descargados, funciona 100% offline. Perfecto para entornos air-gapped.

¿Puedo usar modelos de Hugging Face?

Ollama:

ollama run hf.co/username/model:q4_k_m

LM Studio: Busca el modelo en la pestaña “Search” y descarga con un clic.

¿Qué pasa con la privacidad?

Ambos corren 100% local. Cero datos salen de tu máquina. Perfecto para datos sensibles o confidenciales.

¿Cuánto espacio en disco necesito?

Depende de los modelos:

    • Modelos 7B (Q4): ~4-5GB cada uno
    • Modelos 13B (Q4): ~7-9GB
    • Modelos 70B (Q4): ~35-40GB

Recomendado: 100GB+ libres si vas a experimentar con varios modelos.

¿Funcionan en Raspberry Pi?

Ollama sí (ARM64 soportado), pero es extremadamente lento. Solo modelos tiny (2-3B) son viables. LM Studio no tiene versión ARM.

Si quieres probar LLMs en Raspberry Pi, te recomiendo:

    • Raspberry Pi 5 (8GB) con Ollama + Phi-3.5 3.8B (Q4)
    • Espera ~15-20 segundos por respuesta (lento pero funcional)
    • Úsalo para proyectos educativos o PoC, no para producción
    • Alternativa: Usa Raspberry Pi como cliente y Ollama corriendo en un servidor más potente en tu red local

¿Puedo usar ambos con la misma colección de modelos?

No directamente. Ollama guarda en ~/.ollama/models, LM Studio en su propia carpeta. Tendrías que duplicar modelos (desperdicio de espacio).

¿Cuál tiene mejor integración con VSCode?

LM Studio via extensión “Continue”. Ollama funciona pero requiere más setup manual.

¿Hay límite de tokens por consulta?

Depende del modelo y tu VRAM. Típico: 2048-8192 tokens de contexto. Modelos recientes (Llama 3.3) soportan hasta 128k tokens.

¿Puedo usar Ollama en Kubernetes?

Sí, hay charts de Helm oficiales. Perfecto para despliegues enterprise con múltiples nodos.

Conclusión: ¿Cuál Elegir?

Elige Ollama si:

    • Eres desarrollador o DevOps
    • Tu homelab corre principalmente en Docker
    • Quieres automatizar con scripts/APIs
    • Valoras performance y eficiencia de recursos
    • Prefieres herramientas open source

Elige LM Studio si:

    • Eres principiante con LLMs
    • Quieres experimentar rápido sin tocar terminal
    • Tienes Apple Silicon (M1/M2/M3/M4)
    • Necesitas multi-GPU avanzado (2+ GPUs)
    • Prefieres GUI sobre CLI

Mi recomendación:
Si tienes espacio, instala ambos:

    • LM Studio para experimentar y probar modelos rápido
    • Ollama en Docker para producción y automatizaciones

Con un homelab decente (RTX 3060 12GB+, 32GB RAM), puedes correr ambos sin problema y elegir la herramienta correcta para cada tarea.

Hardware recomendado para empezar:

    • GPU: RTX 3060 12GB (~€300 usada) o RTX 4060 Ti 16GB (~€500)
    • CPU: Ryzen 5 5600 o superior
    • RAM: 32GB DDR4
    • SSD: 500GB NVMe para modelos

Con este setup puedes correr modelos hasta 13B cómodamente en Q4, o modelos 70B en Q3 para tareas menos críticas.

¿Ya usas Ollama o LM Studio? ¿Qué modelo es tu favorito para tu homelab? Cuéntame en los comentarios tu experiencia.


Artículos relacionados:

Por ziru

El Diario IA
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.