🏠 Monta tu propio servidor de IA casero (sin arruinarte ni volverte loco)

⚡️ Prólogo importante antes de empezar

Esta guía NO forma parte de la «guía desde 0» de la web. Si eres completamente nuevo, te recomendamos empezar por esa serie para familiarizarte con los conceptos básicos y el entorno.
Un servidor como el de este artículo te servirá para hacer el resto de guías de la página (WordPress, n8n, proxys, bots, etc.), pero ojo: portátiles, miniPCs y Raspberry Pi, que usamos en otras guías, lo tienen mucho más complicado para montar una GPU dedicada. Si tienes uno de esos, podrás seguir la mayoría de tutoriales… ¡pero para IA potente, necesitarás un servidor con gráfica!

1️⃣ ¿Qué es un servidor de IA casero y por qué mola tanto?

Un servidor de IA casero es, básicamente, un PC o un servidor que usas en casa para ejecutar modelos de inteligencia artificial: chatbots, generadores de imágenes, asistentes personales, análisis de datos y mucho más. La diferencia con un servidor normal es que aquí la gráfica (GPU) es la estrella: cuanto más potente, más rápido y grandes serán los modelos que podrás usar.

¿Por qué montarte tu propio servidor de IA?

Ventajas que te cambiarán la vida digital:

Privacidad absoluta: Tus datos, conversaciones y proyectos no salen de casa. No hay servicios cloud espiando tus prompts ni entrenando con tu información.
Sin cuotas ni límites: Olvídate de pagar $20/mes por ChatGPT Plus o quedarte sin créditos de Midjourney. Una vez montado, úsalo todo lo que quieras sin límites.
Control total: Elige qué modelos ejecutas, cuándo los actualizas, cómo los configuras. Es TU infraestructura.
Experimentación sin miedo: Prueba modelos nuevos, hackea prompts, entrena fine-tunings, aprende cómo funciona la IA por dentro sin restricciones.
Latencia cero: Todo funciona en tu red local. Nada de esperar a servidores sobrecargados o caídas de servicio.
Disponibilidad 24/7: No depende de que OpenAI, Google o Anthropic estén funcionando. Tu servidor, tus reglas.
Presumir de IA propia: Seamos honestos, tener tu propio servidor de IA mola un montón 😎

¿Qué puedes hacer con un servidor de IA casero?

Más de lo que te imaginas. Aquí algunas ideas:

ChatGPT casero: Interfaz web para chatear con modelos tipo Llama, Mistral, Gemma
Generación de imágenes: Stable Diffusion, FLUX, SDXL para crear arte IA
Asistente de voz: Whisper para transcripción + LLM para respuestas
Análisis de documentos: RAG (Retrieval Augmented Generation) para chatear con tus PDFs
Automatización inteligente: Integrar IA con n8n para workflows automáticos
Code assistant: CodeLlama o DeepSeek Coder para ayudarte a programar
Traducción local: Modelos multilenguaje sin depender de APIs externas
Fine-tuning: Entrenar modelos con tus propios datos

2️⃣ ¿Hace falta gastarse un dineral? ¡No!

Olvídate del mito de las GPUs de 2000 euros. Para la mayoría de modelos de IA actuales, puedes montar un servidor muy capaz sin arruinarte.

GPUs recomendadas según presupuesto

🏆 Opción premium: RTX 3090 (24GB VRAM)

Es la joya de segunda mano para IA. Se encuentra por 700-900€ en el mercado de usados y sigue siendo un monstruo:

24GB de VRAM = puedes cargar modelos 70B cuantizados
Excelente soporte CUDA
Muy buscada por mineros, ahora disponible en masa
Mejor relación VRAM/precio del mercado

Alternativa nueva: RTX 4090 (24GB, ~1.800€) si tienes el presupuesto y quieres lo último en rendimiento.

💰 Opción calidad-precio: RTX 4070 SUPER / 4070 Ti SUPER

GPUs modernas con excelente eficiencia energética:

4070 SUPER (12GB): ~600-700€, perfecta para modelos 13B-30B
4070 Ti SUPER (16GB): ~800-900€, sweet spot para homelab
Arquitectura Ada Lovelace (más eficiente que Ampere)
Consume menos electricidad = facturas más bajas

🎯 Opción equilibrada: RTX 3080 / 3080 Ti

Segunda mano a buen precio:

RTX 3080 (10GB): 400-500€, suficiente para modelos medianos
RTX 3080 Ti (12GB): 500-600€, algo más de margen
Buena disponibilidad en el mercado de segunda mano
Soporta todos los frameworks modernos

🔧 Opción AMD: Radeon RX 6800 XT / RX 7900 XT

Más baratas pero con algunos asteriscos:

RX 6800 XT (16GB): ~500€, mucha VRAM por poco dinero
RX 7900 XT (20GB): ~700€, gran cantidad de memoria
Pero: ROCm (equivalente a CUDA) tiene menos soporte que NVIDIA
Mejor para: Stable Diffusion, algunos frameworks específicos
No recomendado si: Eres principiante o quieres compatibilidad universal

🏠 Opción entrada: GPUs 8GB+

Para empezar sin mucha inversión:

RTX 3060 (12GB): ~250-300€ segunda mano, sorprendentemente capaz
RTX 4060 Ti (16GB): ~500€ nueva, buena opción para modelos ligeros
Perfecto para aprender y experimentar
Modelos 7B-13B funcionan perfectamente

Tabla comparativa rápida

GPU	VRAM	Precio aprox.	Modelos recomendados	Consumo
RTX 3090	24GB	700-900€ (2ª mano)	Hasta 70B cuantizados	350W
RTX 4070 Ti SUPER	16GB	800-900€	Hasta 30B completos	285W
RTX 4070 SUPER	12GB	600-700€	Hasta 13B completos	220W
RTX 3080	10GB	400-500€ (2ª mano)	Hasta 13B	320W
RX 6800 XT	16GB	~500€	SD, modelos AMD	300W
RTX 3060	12GB	250-300€ (2ª mano)	Hasta 7B-13B	170W

Consejo punk: El mercado de segunda mano es tu amigo. Muchas GPUs de minería están en perfecto estado (las usaban con voltajes bajos). Comprueba que el vendedor sea de confianza, pide fotos del número de serie y verifica temperaturas antes de comprar.

3️⃣ Hardware complementario: no solo es la GPU

La GPU es la estrella, pero necesita buenos compañeros de banda:

CPU: No tiene que ser top

Mínimo recomendado: 4 cores / 8 threads (Ryzen 5, Intel i5)
Ideal: 6-8 cores (Ryzen 7, Intel i7)
La CPU no hace el trabajo pesado en IA, pero gestiona el sistema
Un Ryzen 5 5600 (~150€) o similar es más que suficiente

RAM: Cuanta más, mejor

Mínimo: 16GB (puedes tirar, pero justo)
Recomendado: 32GB (confortable para todo)
Pro: 64GB+ (si vas a hacer fine-tuning o cargar modelos enormes en RAM)
La RAM actúa como buffer cuando la VRAM se llena
DDR4 3200MHz es el sweet spot calidad/precio

Almacenamiento: SSD es obligatorio

SSD NVMe 500GB mínimo para el sistema y modelos básicos
1TB recomendado si vas a tener varios modelos (ocupan 4-40GB cada uno)
HDD adicional para datasets, backups, archivos pesados
Los modelos cargan mucho más rápido desde SSD

Fuente de alimentación: No escatimes aquí

Mínimo: 750W 80+ Bronze para GPUs de gama media
Recomendado: 850W 80+ Gold para RTX 3090, 4070 Ti y superiores
Pro tip: Calculadora de PSU → GPU TDP + CPU TDP + 150W de margen
Una PSU de calidad te ahorra disgustos y dura años

Presupuesto ejemplo para un servidor completo

Componente	Opción económica	Opción equilibrada	Opción premium
GPU	RTX 3060 12GB (300€)	RTX 4070 SUPER (650€)	RTX 3090 24GB (800€)
CPU	Ryzen 5 5600 (150€)	Ryzen 7 5700X (200€)	Ryzen 9 5900X (300€)
RAM	16GB DDR4 (50€)	32GB DDR4 (90€)	64GB DDR4 (180€)
SSD	500GB NVMe (40€)	1TB NVMe (70€)	2TB NVMe (150€)
Placa + PSU + Caja	~250€	~350€	~450€
TOTAL	~790€	~1.360€	~1.880€

4️⃣ ¿Qué modelo de IA puedo usar según mi gráfica?

La VRAM es el factor limitante. Aquí una guía práctica de qué puedes ejecutar:

8-12GB VRAM (RTX 3060, 4060, 3080 10GB)

Modelos de texto (LLMs):

✅ Llama 3.1 8B, Mistral 7B, Gemma 7B (completos, sin cuantizar)
✅ Llama 2 13B, Mixtral 8x7B (cuantizados Q4/Q5)
⚠️ Llama 3.1 70B (cuantizado Q2/Q3, pero lento)

Generación de imágenes:

✅ Stable Diffusion 1.5 / 2.1 (perfecto)
✅ SDXL (funciona, algo lento)
✅ FLUX.1 Schnell (cuantizado)

16-20GB VRAM (4070 Ti SUPER, RX 6800 XT, RX 7900 XT)

Modelos de texto:

✅ Todos los modelos 13B sin cuantizar
✅ Llama 3.1 70B (cuantizado Q4, velocidad aceptable)
✅ Mixtral 8x7B completo
✅ DeepSeek Coder 33B (cuantizado)

Generación de imágenes:

✅ SDXL sin problemas
✅ FLUX.1 Dev (cuantizado fp8)
✅ Stable Cascade
✅ Múltiples LoRAs y ControlNets

24GB+ VRAM (RTX 3090, 4090)

Modelos de texto:

✅ Llama 3.1 70B (cuantizado Q5/Q6, buena velocidad)
✅ Todos los modelos 30B sin cuantizar
✅ Qwen 2.5 72B (cuantizado Q4)
✅ Fine-tuning de modelos 7B-13B

Generación de imágenes:

✅ Todo lo anterior + training de LoRAs
✅ FLUX.1 Dev completo
✅ Generación en batch rápida
✅ Upscaling 4x sin problemas

Truco: Quantization es tu amiga

Los modelos grandes se pueden comprimir sin perder mucha calidad:

Q8: Casi sin pérdida de calidad, 8 bits por parámetro
Q6: Excelente balance, imperceptible en la mayoría de casos
Q5: Muy buena calidad, notable reducción de VRAM
Q4: Calidad aceptable, ocupa ~40% del original
Q3/Q2: Pérdida notable, solo si no tienes otra opción

Ejemplo práctico: Llama 3.1 70B completo ocupa ~140GB. Con Q4 ocupa ~40GB → ¡cabe en una 3090 con 24GB usando offloading a RAM!

5️⃣ Instala Docker fácil (si no lo tienes)

Docker es la base de todo. Sin él, tendrás que instalar dependencias manualmente y es un infierno de conflictos de versiones.

¿Por qué Docker?

Todo está containerizado = entornos aislados sin conflictos
Instalaciones con un solo comando
Fácil de actualizar, desinstalar o resetear
Compatibilidad universal (Linux, Windows con WSL2, macOS)

No te líes con instalaciones raras: sigue nuestra guía actualizada y tendrás Docker listo en minutos:
Instala Docker sin miedo: Guía completa desde cero (2025)

Una vez instalado, verifica que funciona:

docker --version
docker compose version

Si ves las versiones, estás listo. Si tienes NVIDIA, instala también el NVIDIA Container Toolkit para que Docker pueda usar tu GPU:

# Ubuntu/Debian
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Verifica que Docker ve tu GPU:

docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi

Si ves información de tu GPU, ¡perfecto!

6️⃣ Instala Ollama y ponle WebUI (interfaz gráfica)

Aquí viene la parte divertida: tendrás tu propio «ChatGPT casero» accesible desde cualquier navegador de tu red local.

¿Qué es Ollama?

Ollama es como Docker pero para modelos de IA. Te permite descargar y ejecutar LLMs con comandos simples tipo:

Ollama vs Alternativas: Comparativa 2025

Herramienta	Facilidad de uso	Modelos soportados	Interfaz	Cuantización	Mejor para
Ollama	⭐⭐⭐⭐⭐ (más fácil)	LLMs principales (Llama, Mistral, Qwen, Gemma)	CLI + API REST	Automática (Q4 default)	Principiantes, uso rápido, chatbots
LM Studio	⭐⭐⭐⭐ (GUI amigable)	Cualquier GGUF	App GUI nativa	Manual (eliges Q2-Q8)	Usuarios desktop, testing modelos
text-generation-webui	⭐⭐⭐ (técnico)	Todos (GGUF, GPTQ, EXL2, AWQ)	Web UI avanzada	Manual, muy configurable	Power users, fine-tuning, extensions
llama.cpp	⭐⭐ (CLI puro)	Cualquier GGUF	Solo terminal	Manual	Developers, integración custom, máximo rendimiento
vLLM	⭐⭐ (enterprise)	Modelos Hugging Face	API OpenAI-compatible	Automática	Producción, alta concurrencia, APIs

Nuestra recomendación:

Empiezas desde cero: Ollama (instalación 5 min, funciona YA)
Quieres GUI bonita: LM Studio (descarga, click, listo)
Experimentas mucho: text-generation-webui (máxima flexibilidad)
Produces APIs serias: vLLM (rendimiento enterprise)

ollama run llama3.1:8b

Y automáticamente descarga el modelo, lo configura y lo ejecuta. Magia pura.

Instalación rápida con Docker Compose

Vamos a instalar Ollama + Open WebUI (la interfaz gráfica más popular) con un solo docker-compose.yml:

Paso 1: Crea una carpeta para el proyecto

mkdir -p ~/ai-server
cd ~/ai-server

Paso 2: Crea el archivo docker-compose.yml

nano docker-compose.yml

Y pega esta configuración:

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    volumes:
      - open_webui_data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

volumes:
  ollama_data:
  open_webui_data:

Paso 3: Levanta los servicios

docker compose up -d

Esto descargará las imágenes y levantará ambos servicios en segundo plano.

Paso 4: Accede a la interfaz web

Abre tu navegador y ve a: http://localhost:3000

La primera vez te pedirá crear una cuenta (es local, solo usuario/contraseña para tu interfaz).

Descarga tu primer modelo

Desde la interfaz web, ve a Settings > Models y descarga un modelo. Recomendaciones según tu GPU:

8-12GB VRAM: llama3.1:8b, mistral:7b, gemma2:9b
16GB VRAM: llama3.1:8b, mixtral:8x7b, qwen2.5:14b
24GB+ VRAM: llama3.1:70b-q4, qwen2.5:32b, deepseek-coder:33b-q5

O desde terminal:

docker exec -it ollama ollama pull llama3.1:8b

¡Ya tienes tu ChatGPT casero funcionando!

Ahora puedes chatear con modelos de IA desde tu navegador, sin límites, sin cuotas, completamente privado.

7️⃣ Generación de imágenes: Instala SwarmUI o Stable Diffusion WebUI

Si quieres generar imágenes tipo Midjourney pero local, tienes dos opciones principales:

Opción A: SwarmUI (recomendado, más moderno)

Tenemos una guía completa en la web:
Cómo instalar SwarmUI e integrarlo con n8n

SwarmUI es la evolución de Stable Diffusion WebUI: interfaz más moderna, mejor rendimiento, soporte para FLUX y otros modelos recientes.

Opción B: Automatic1111 Stable Diffusion WebUI (clásico, muy popular)

Con Docker Compose:

version: '3.8'

services:
  stable-diffusion:
    image: universonic/stable-diffusion-webui:latest
    container_name: sd-webui
    restart: unless-stopped
    ports:
      - "7860:7860"
    volumes:
      - sd_models:/app/models
      - sd_outputs:/app/outputs
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    command: --listen --xformers

volumes:
  sd_models:
  sd_outputs:

Acceso: http://localhost:7860

8️⃣ Integración con n8n: Automatiza tu IA

Si ya tienes n8n instalado (o quieres instalarlo), puedes crear workflows que usen tu servidor de IA local:

Chatbots automatizados que responden con tu Ollama local
Generación de imágenes programada para redes sociales
Análisis de documentos con RAG
Transcripción de audios con Whisper local

Guías relacionadas en la web:

9️⃣ Gestión de múltiples modelos y optimización

¿Cuántos modelos puedo tener cargados?

Solo uno a la vez en VRAM, pero puedes tener muchos descargados:

Ollama guarda los modelos en disco (~4-40GB cada uno)
Cuando ejecutas un modelo, se carga en VRAM
Si ejecutas otro, el anterior se descarga automáticamente
El cambio entre modelos tarda 5-30 segundos según el tamaño

Optimización de rendimiento

Para modelos de texto (Ollama):

Usa cuantización Q4/Q5 para modelos grandes
Ajusta el parámetro num_gpu en Ollama para controlar cuántas capas van a GPU
Activa mmap para cargar modelos más rápido

Para generación de imágenes:

Usa xformers o FlashAttention para reducir uso de VRAM
Reduce batch size si te quedas sin memoria
Prueba modelos cuantizados (fp16 → fp8 → int8)

Monitorización de recursos

Vigila tu GPU para evitar sobrecalentamiento:

# Ver uso de GPU en tiempo real
watch -n 1 nvidia-smi

# O instala nvtop (más visual)
sudo apt install nvtop
nvtop

Temperaturas saludables:

Idle: 30-50°C
Bajo carga: 60-75°C (perfecto)
Alerta: 80-85°C (mejora refrigeración)
Peligro: 90°C+ (apaga y revisa ventiladores)

🔟 Troubleshooting: Problemas comunes y soluciones

❌ «CUDA out of memory»

Problema: El modelo no cabe en VRAM.

Soluciones:

Usa un modelo más pequeño o cuantizado
Cierra otras aplicaciones que usen GPU
Activa offloading a RAM (más lento pero funciona)
Reduce batch size en generación de imágenes

❌ Docker no ve la GPU

Problema: nvidia-smi funciona fuera de Docker pero no dentro.

Solución:

# Reinstala NVIDIA Container Toolkit
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# Verifica
docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi

❌ Modelos se cargan muy lento

Solución:

Asegúrate de que los modelos están en SSD NVMe (no HDD)
Aumenta RAM si haces swapping
Usa modelos con menor precisión (Q4 vs Q8)

❌ WebUI no responde o da timeout

Solución:

Revisa logs: docker logs open-webui
Reinicia contenedores: docker compose restart
Verifica que Ollama esté corriendo: curl http://localhost:11434

1️⃣1️⃣ Actualizaciones y mantenimiento

Actualizar Ollama y Open WebUI

cd ~/ai-server
docker compose pull
docker compose up -d

Esto descarga las últimas versiones y reinicia los servicios.

Limpiar modelos antiguos

# Ver modelos instalados
docker exec -it ollama ollama list

# Eliminar modelo que no uses
docker exec -it ollama ollama rm llama2:70b

Backup de configuraciones

Los volúmenes de Docker contienen tus datos:

# Backup
docker run --rm -v ollama_data:/data -v $(pwd):/backup ubuntu tar czf /backup/ollama_backup.tar.gz /data

# Restore
docker run --rm -v ollama_data:/data -v $(pwd):/backup ubuntu tar xzf /backup/ollama_backup.tar.gz -C /

1️⃣2️⃣ Siguientes pasos: ¿Qué más puedes hacer?

Una vez tengas tu servidor funcionando, las posibilidades son infinitas:

Fine-tuning: Entrena modelos con tus propios datos usando Unsloth o Axolotl
RAG (Retrieval Augmented Generation): Chatea con tus documentos usando LangChain o LlamaIndex
Agentes autónomos: Crea agentes que ejecuten tareas usando AutoGPT o CrewAI
Whisper local: Transcripción de audio/vídeo sin límites
Voice cloning: Clona voces con Bark o Tortoise TTS
Code assistant: Ayudante de programación con Continue.dev + tu Ollama
Multi-modal: Modelos que entienden imágenes y texto (LLaVA, Bakllava)

📊 Resumen punk: Checklist de lo que has montado

✅ Servidor de IA casero = privacidad, cero cuotas y todo el poder en tus manos
✅ GPU adecuada: No necesitas la última, una RTX 3090 de segunda mano, una 4070 SUPER o incluso una 3060 12GB te servirán
✅ Hardware complementario: CPU decente, 32GB RAM, SSD NVMe, PSU 750W+
✅ Docker instalado con soporte GPU (NVIDIA Container Toolkit)
✅ Ollama + Open WebUI = ChatGPT casero funcional
✅ (Opcional) SwarmUI o SD WebUI = Midjourney casero
✅ Modelos adaptados a tu VRAM con cuantización inteligente
✅ Integración con n8n para automatización avanzada

Coste total estimado: 800-1.900€ según configuración elegida
Ahorro anual vs servicios cloud: ~500-1.000€/año (ChatGPT Plus + Midjourney + APIs)
ROI: 1-2 años, luego todo es ganancia

🎸 Despedida

El robot punk ya tiene su servidor de IA casero y presume de él en el barrio digital. ¿Te animas a montarte el tuyo?

Montar tu propio servidor de IA es una de las inversiones más rentables que puedes hacer si te interesa la tecnología. No solo ahorras dinero a largo plazo, sino que aprendes cómo funciona la IA por dentro, experimentas sin límites y mantienes el control total de tus datos.

En El Diario IA seguiremos trayendo guías, ideas y locuras para que tu servidor sea cada vez más inteligente y divertido. Si tienes dudas, problemas o quieres compartir tu setup, déjalo en los comentarios. ¡La comunidad punk te apoya!

¿Ya montaste tu servidor? Cuéntanos qué GPU usas y qué modelos estás ejecutando. ¡Nos encanta ver lo que la comunidad está construyendo!

¡Nos leemos en la próxima aventura! 🤘

❓ Preguntas Frecuentes (FAQ)

¿Cuánto cuesta montar un servidor de IA casero en 2025?

Depende de tu presupuesto. Desde 790€ con una RTX 3060 12GB (entrada) hasta 1.880€ con RTX 3090 24GB (premium). Lo bueno es que con ROI de 1-2 años te ahorras las cuotas de ChatGPT Plus (20€/mes) y Midjourney (30€/mes), recuperando la inversión rápido.

¿Qué GPU necesito para ejecutar Llama 70B?

Con una RTX 3090 de 24GB puedes ejecutar Llama 3.1 70B cuantizado en Q4-Q5 sin problemas. Si tienes 16GB (como 4070 Ti SUPER), necesitarás Q4 y algo de offloading a RAM, pero funciona. Con 12GB o menos, no es viable ejecutar 70B completo.

¿Puedo usar AMD Radeon en lugar de NVIDIA para IA?

Sí, pero con limitaciones. Las AMD RX 6800 XT y RX 7900 XT tienen mucha VRAM por poco precio, pero ROCm (equivalente AMD de CUDA) tiene menos soporte. Funcionan bien para Stable Diffusion, pero para LLMs Ollama y otros frameworks están optimizados para NVIDIA. Si eres principiante, ve a por NVIDIA.

¿Es difícil instalar Docker y Ollama?

Para nada. Con Docker instalado (3 comandos siguiendo nuestra guía), levantar Ollama + Open WebUI es literalmente copiar un docker-compose.yml y hacer docker compose up -d. En 5 minutos tienes tu ChatGPT casero funcionando. No necesitas saber programar.

¿Consume mucha electricidad un servidor de IA?

Depende de la GPU. Una RTX 3060 consume ~170W, una 3090 ~350W, y una 4070 SUPER ~220W. Si lo usas 8 horas al día, son 40-80 kWh/mes (~7-15€ en España). Sigue siendo mucho más barato que pagar ChatGPT Plus (20€/mes) + Midjourney (30€/mes) a largo plazo.

¿Qué modelos puedo ejecutar con 12GB de VRAM?

Con 12GB (RTX 3060, 4070 SUPER) puedes ejecutar cómodamente Llama 3.1 8B, Mistral 7B, Gemma 7B completos sin cuantizar, y modelos 13B cuantizados (Q4/Q5). Para imágenes, Stable Diffusion 1.5/2.1 perfecto, SDXL funciona, y FLUX Schnell cuantizado también. Es un sweet spot para empezar.

¿Puedo acceder a mi servidor de IA desde fuera de casa?

Sí, usando Cloudflare Tunnel (gratuito y seguro) o una VPN como WireGuard o Tailscale. Así puedes usar tu ChatGPT casero desde el móvil estés donde estés, sin abrir puertos en tu router. Tenemos guías sobre esto en la web.

¿Vale la pena comprar una GPU de segunda mano de minería?

En general sí. Las GPUs de minería solían correr con voltajes bajos (para eficiencia), así que su desgaste es menor de lo que parece. Verifica que el vendedor sea de confianza, pide fotos del número de serie, prueba temperaturas antes de comprar y comprueba que todos los ventiladores funcionen. La RTX 3090 de segunda mano por 700-800€ es un chollo.

🏠 Monta tu propio servidor de IA casero (sin arruinarte ni volverte loco)

⚡️ Prólogo importante antes de empezar

1️⃣ ¿Qué es un servidor de IA casero y por qué mola tanto?

¿Por qué montarte tu propio servidor de IA?

¿Qué puedes hacer con un servidor de IA casero?

2️⃣ ¿Hace falta gastarse un dineral? ¡No!

GPUs recomendadas según presupuesto

🏆 Opción premium: RTX 3090 (24GB VRAM)

💰 Opción calidad-precio: RTX 4070 SUPER / 4070 Ti SUPER

🎯 Opción equilibrada: RTX 3080 / 3080 Ti

🔧 Opción AMD: Radeon RX 6800 XT / RX 7900 XT

🏠 Opción entrada: GPUs 8GB+

Tabla comparativa rápida

3️⃣ Hardware complementario: no solo es la GPU

CPU: No tiene que ser top

RAM: Cuanta más, mejor

Almacenamiento: SSD es obligatorio

Fuente de alimentación: No escatimes aquí

Presupuesto ejemplo para un servidor completo

4️⃣ ¿Qué modelo de IA puedo usar según mi gráfica?

8-12GB VRAM (RTX 3060, 4060, 3080 10GB)

16-20GB VRAM (4070 Ti SUPER, RX 6800 XT, RX 7900 XT)

24GB+ VRAM (RTX 3090, 4090)

Truco: Quantization es tu amiga

5️⃣ Instala Docker fácil (si no lo tienes)

6️⃣ Instala Ollama y ponle WebUI (interfaz gráfica)

¿Qué es Ollama?

Ollama vs Alternativas: Comparativa 2025

Instalación rápida con Docker Compose

Descarga tu primer modelo

¡Ya tienes tu ChatGPT casero funcionando!

7️⃣ Generación de imágenes: Instala SwarmUI o Stable Diffusion WebUI

Opción A: SwarmUI (recomendado, más moderno)

Opción B: Automatic1111 Stable Diffusion WebUI (clásico, muy popular)

8️⃣ Integración con n8n: Automatiza tu IA

9️⃣ Gestión de múltiples modelos y optimización

¿Cuántos modelos puedo tener cargados?

Optimización de rendimiento

Monitorización de recursos

🔟 Troubleshooting: Problemas comunes y soluciones

❌ «CUDA out of memory»

❌ Docker no ve la GPU

❌ Modelos se cargan muy lento

❌ WebUI no responde o da timeout

1️⃣1️⃣ Actualizaciones y mantenimiento

Actualizar Ollama y Open WebUI

Limpiar modelos antiguos

Backup de configuraciones

1️⃣2️⃣ Siguientes pasos: ¿Qué más puedes hacer?

📊 Resumen punk: Checklist de lo que has montado

🎸 Despedida

❓ Preguntas Frecuentes (FAQ)

¿Cuánto cuesta montar un servidor de IA casero en 2025?

¿Qué GPU necesito para ejecutar Llama 70B?

¿Puedo usar AMD Radeon en lugar de NVIDIA para IA?

¿Es difícil instalar Docker y Ollama?

¿Consume mucha electricidad un servidor de IA?

¿Qué modelos puedo ejecutar con 12GB de VRAM?

¿Puedo acceder a mi servidor de IA desde fuera de casa?

¿Vale la pena comprar una GPU de segunda mano de minería?

Por ziru

Entradas relacionadas

Paperless-ngx: Digitaliza Documentos con IA en tu Homelab (Guía Completa 2025)

Cloudflare Registrar + Zero Trust: Migra tus Dominios tras Freenom (Guía Completa 2025)

Discord ElDiarioIA: Comunidad Homelab + IA Gratis (Guía Completa 2025)

Te has perdido

Paperless-ngx: Digitaliza Documentos con IA en tu Homelab (Guía Completa 2025)

Cloudflare Registrar + Zero Trust: Migra tus Dominios tras Freenom (Guía Completa 2025)

Discord ElDiarioIA: Comunidad Homelab + IA Gratis (Guía Completa 2025)

Prometheus + Grafana + Loki: Stack de Observabilidad Completo para tu Homelab 2025