⚡️ Prólogo importante antes de empezar
- Esta guía NO forma parte de la «guía desde 0» de la web. Si eres completamente nuevo, te recomendamos empezar por esa serie para familiarizarte con los conceptos básicos y el entorno.
- Un servidor como el de este artículo te servirá para hacer el resto de guías de la página (WordPress, n8n, proxys, bots, etc.), pero ojo: portátiles, miniPCs y Raspberry Pi, que usamos en otras guías, lo tienen mucho más complicado para montar una GPU dedicada. Si tienes uno de esos, podrás seguir la mayoría de tutoriales… ¡pero para IA potente, necesitarás un servidor con gráfica!
1️⃣ ¿Qué es un servidor de IA casero y por qué mola tanto?
Un servidor de IA casero es, básicamente, un PC o un servidor que usas en casa para ejecutar modelos de inteligencia artificial: chatbots, generadores de imágenes, asistentes personales, análisis de datos y mucho más. La diferencia con un servidor normal es que aquí la gráfica (GPU) es la estrella: cuanto más potente, más rápido y grandes serán los modelos que podrás usar.
¿Por qué montarte tu propio servidor de IA?
Ventajas que te cambiarán la vida digital:
- Privacidad absoluta: Tus datos, conversaciones y proyectos no salen de casa. No hay servicios cloud espiando tus prompts ni entrenando con tu información.
- Sin cuotas ni límites: Olvídate de pagar $20/mes por ChatGPT Plus o quedarte sin créditos de Midjourney. Una vez montado, úsalo todo lo que quieras sin límites.
- Control total: Elige qué modelos ejecutas, cuándo los actualizas, cómo los configuras. Es TU infraestructura.
- Experimentación sin miedo: Prueba modelos nuevos, hackea prompts, entrena fine-tunings, aprende cómo funciona la IA por dentro sin restricciones.
- Latencia cero: Todo funciona en tu red local. Nada de esperar a servidores sobrecargados o caídas de servicio.
- Disponibilidad 24/7: No depende de que OpenAI, Google o Anthropic estén funcionando. Tu servidor, tus reglas.
- Presumir de IA propia: Seamos honestos, tener tu propio servidor de IA mola un montón 😎
¿Qué puedes hacer con un servidor de IA casero?
Más de lo que te imaginas. Aquí algunas ideas:
- ChatGPT casero: Interfaz web para chatear con modelos tipo Llama, Mistral, Gemma
- Generación de imágenes: Stable Diffusion, FLUX, SDXL para crear arte IA
- Asistente de voz: Whisper para transcripción + LLM para respuestas
- Análisis de documentos: RAG (Retrieval Augmented Generation) para chatear con tus PDFs
- Automatización inteligente: Integrar IA con n8n para workflows automáticos
- Code assistant: CodeLlama o DeepSeek Coder para ayudarte a programar
- Traducción local: Modelos multilenguaje sin depender de APIs externas
- Fine-tuning: Entrenar modelos con tus propios datos
2️⃣ ¿Hace falta gastarse un dineral? ¡No!
Olvídate del mito de las GPUs de 2000 euros. Para la mayoría de modelos de IA actuales, puedes montar un servidor muy capaz sin arruinarte.
GPUs recomendadas según presupuesto
🏆 Opción premium: RTX 3090 (24GB VRAM)
Es la joya de segunda mano para IA. Se encuentra por 700-900€ en el mercado de usados y sigue siendo un monstruo:
- 24GB de VRAM = puedes cargar modelos 70B cuantizados
- Excelente soporte CUDA
- Muy buscada por mineros, ahora disponible en masa
- Mejor relación VRAM/precio del mercado
Alternativa nueva: RTX 4090 (24GB, ~1.800€) si tienes el presupuesto y quieres lo último en rendimiento.
💰 Opción calidad-precio: RTX 4070 SUPER / 4070 Ti SUPER
GPUs modernas con excelente eficiencia energética:
- 4070 SUPER (12GB): ~600-700€, perfecta para modelos 13B-30B
- 4070 Ti SUPER (16GB): ~800-900€, sweet spot para homelab
- Arquitectura Ada Lovelace (más eficiente que Ampere)
- Consume menos electricidad = facturas más bajas
🎯 Opción equilibrada: RTX 3080 / 3080 Ti
Segunda mano a buen precio:
- RTX 3080 (10GB): 400-500€, suficiente para modelos medianos
- RTX 3080 Ti (12GB): 500-600€, algo más de margen
- Buena disponibilidad en el mercado de segunda mano
- Soporta todos los frameworks modernos
🔧 Opción AMD: Radeon RX 6800 XT / RX 7900 XT
Más baratas pero con algunos asteriscos:
- RX 6800 XT (16GB): ~500€, mucha VRAM por poco dinero
- RX 7900 XT (20GB): ~700€, gran cantidad de memoria
- Pero: ROCm (equivalente a CUDA) tiene menos soporte que NVIDIA
- Mejor para: Stable Diffusion, algunos frameworks específicos
- No recomendado si: Eres principiante o quieres compatibilidad universal
🏠 Opción entrada: GPUs 8GB+
Para empezar sin mucha inversión:
- RTX 3060 (12GB): ~250-300€ segunda mano, sorprendentemente capaz
- RTX 4060 Ti (16GB): ~500€ nueva, buena opción para modelos ligeros
- Perfecto para aprender y experimentar
- Modelos 7B-13B funcionan perfectamente
Tabla comparativa rápida
GPU | VRAM | Precio aprox. | Modelos recomendados | Consumo |
---|---|---|---|---|
RTX 3090 | 24GB | 700-900€ (2ª mano) | Hasta 70B cuantizados | 350W |
RTX 4070 Ti SUPER | 16GB | 800-900€ | Hasta 30B completos | 285W |
RTX 4070 SUPER | 12GB | 600-700€ | Hasta 13B completos | 220W |
RTX 3080 | 10GB | 400-500€ (2ª mano) | Hasta 13B | 320W |
RX 6800 XT | 16GB | ~500€ | SD, modelos AMD | 300W |
RTX 3060 | 12GB | 250-300€ (2ª mano) | Hasta 7B-13B | 170W |
Consejo punk: El mercado de segunda mano es tu amigo. Muchas GPUs de minería están en perfecto estado (las usaban con voltajes bajos). Comprueba que el vendedor sea de confianza, pide fotos del número de serie y verifica temperaturas antes de comprar.
3️⃣ Hardware complementario: no solo es la GPU
La GPU es la estrella, pero necesita buenos compañeros de banda:
CPU: No tiene que ser top
- Mínimo recomendado: 4 cores / 8 threads (Ryzen 5, Intel i5)
- Ideal: 6-8 cores (Ryzen 7, Intel i7)
- La CPU no hace el trabajo pesado en IA, pero gestiona el sistema
- Un Ryzen 5 5600 (~150€) o similar es más que suficiente
RAM: Cuanta más, mejor
- Mínimo: 16GB (puedes tirar, pero justo)
- Recomendado: 32GB (confortable para todo)
- Pro: 64GB+ (si vas a hacer fine-tuning o cargar modelos enormes en RAM)
- La RAM actúa como buffer cuando la VRAM se llena
- DDR4 3200MHz es el sweet spot calidad/precio
Almacenamiento: SSD es obligatorio
- SSD NVMe 500GB mínimo para el sistema y modelos básicos
- 1TB recomendado si vas a tener varios modelos (ocupan 4-40GB cada uno)
- HDD adicional para datasets, backups, archivos pesados
- Los modelos cargan mucho más rápido desde SSD
Fuente de alimentación: No escatimes aquí
- Mínimo: 750W 80+ Bronze para GPUs de gama media
- Recomendado: 850W 80+ Gold para RTX 3090, 4070 Ti y superiores
- Pro tip: Calculadora de PSU → GPU TDP + CPU TDP + 150W de margen
- Una PSU de calidad te ahorra disgustos y dura años
Presupuesto ejemplo para un servidor completo
Componente | Opción económica | Opción equilibrada | Opción premium |
---|---|---|---|
GPU | RTX 3060 12GB (300€) | RTX 4070 SUPER (650€) | RTX 3090 24GB (800€) |
CPU | Ryzen 5 5600 (150€) | Ryzen 7 5700X (200€) | Ryzen 9 5900X (300€) |
RAM | 16GB DDR4 (50€) | 32GB DDR4 (90€) | 64GB DDR4 (180€) |
SSD | 500GB NVMe (40€) | 1TB NVMe (70€) | 2TB NVMe (150€) |
Placa + PSU + Caja | ~250€ | ~350€ | ~450€ |
TOTAL | ~790€ | ~1.360€ | ~1.880€ |
4️⃣ ¿Qué modelo de IA puedo usar según mi gráfica?
La VRAM es el factor limitante. Aquí una guía práctica de qué puedes ejecutar:
8-12GB VRAM (RTX 3060, 4060, 3080 10GB)
Modelos de texto (LLMs):
- ✅ Llama 3.1 8B, Mistral 7B, Gemma 7B (completos, sin cuantizar)
- ✅ Llama 2 13B, Mixtral 8x7B (cuantizados Q4/Q5)
- ⚠️ Llama 3.1 70B (cuantizado Q2/Q3, pero lento)
Generación de imágenes:
- ✅ Stable Diffusion 1.5 / 2.1 (perfecto)
- ✅ SDXL (funciona, algo lento)
- ✅ FLUX.1 Schnell (cuantizado)
16-20GB VRAM (4070 Ti SUPER, RX 6800 XT, RX 7900 XT)
Modelos de texto:
- ✅ Todos los modelos 13B sin cuantizar
- ✅ Llama 3.1 70B (cuantizado Q4, velocidad aceptable)
- ✅ Mixtral 8x7B completo
- ✅ DeepSeek Coder 33B (cuantizado)
Generación de imágenes:
- ✅ SDXL sin problemas
- ✅ FLUX.1 Dev (cuantizado fp8)
- ✅ Stable Cascade
- ✅ Múltiples LoRAs y ControlNets
24GB+ VRAM (RTX 3090, 4090)
Modelos de texto:
- ✅ Llama 3.1 70B (cuantizado Q5/Q6, buena velocidad)
- ✅ Todos los modelos 30B sin cuantizar
- ✅ Qwen 2.5 72B (cuantizado Q4)
- ✅ Fine-tuning de modelos 7B-13B
Generación de imágenes:
- ✅ Todo lo anterior + training de LoRAs
- ✅ FLUX.1 Dev completo
- ✅ Generación en batch rápida
- ✅ Upscaling 4x sin problemas
Truco: Quantization es tu amiga
Los modelos grandes se pueden comprimir sin perder mucha calidad:
- Q8: Casi sin pérdida de calidad, 8 bits por parámetro
- Q6: Excelente balance, imperceptible en la mayoría de casos
- Q5: Muy buena calidad, notable reducción de VRAM
- Q4: Calidad aceptable, ocupa ~40% del original
- Q3/Q2: Pérdida notable, solo si no tienes otra opción
Ejemplo práctico: Llama 3.1 70B completo ocupa ~140GB. Con Q4 ocupa ~40GB → ¡cabe en una 3090 con 24GB usando offloading a RAM!
5️⃣ Instala Docker fácil (si no lo tienes)
Docker es la base de todo. Sin él, tendrás que instalar dependencias manualmente y es un infierno de conflictos de versiones.
¿Por qué Docker?
- Todo está containerizado = entornos aislados sin conflictos
- Instalaciones con un solo comando
- Fácil de actualizar, desinstalar o resetear
- Compatibilidad universal (Linux, Windows con WSL2, macOS)
No te líes con instalaciones raras: sigue nuestra guía actualizada y tendrás Docker listo en minutos:
Instala Docker sin miedo: Guía completa desde cero (2025)
Una vez instalado, verifica que funciona:
docker --version
docker compose version
Si ves las versiones, estás listo. Si tienes NVIDIA, instala también el NVIDIA Container Toolkit para que Docker pueda usar tu GPU:
# Ubuntu/Debian
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
Verifica que Docker ve tu GPU:
docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi
Si ves información de tu GPU, ¡perfecto!
6️⃣ Instala Ollama y ponle WebUI (interfaz gráfica)
Aquí viene la parte divertida: tendrás tu propio «ChatGPT casero» accesible desde cualquier navegador de tu red local.
¿Qué es Ollama?
Ollama es como Docker pero para modelos de IA. Te permite descargar y ejecutar LLMs con comandos simples tipo:
Ollama vs Alternativas: Comparativa 2025
Herramienta | Facilidad de uso | Modelos soportados | Interfaz | Cuantización | Mejor para |
---|---|---|---|---|---|
Ollama | ⭐⭐⭐⭐⭐ (más fácil) | LLMs principales (Llama, Mistral, Qwen, Gemma) | CLI + API REST | Automática (Q4 default) | Principiantes, uso rápido, chatbots |
LM Studio | ⭐⭐⭐⭐ (GUI amigable) | Cualquier GGUF | App GUI nativa | Manual (eliges Q2-Q8) | Usuarios desktop, testing modelos |
text-generation-webui | ⭐⭐⭐ (técnico) | Todos (GGUF, GPTQ, EXL2, AWQ) | Web UI avanzada | Manual, muy configurable | Power users, fine-tuning, extensions |
llama.cpp | ⭐⭐ (CLI puro) | Cualquier GGUF | Solo terminal | Manual | Developers, integración custom, máximo rendimiento |
vLLM | ⭐⭐ (enterprise) | Modelos Hugging Face | API OpenAI-compatible | Automática | Producción, alta concurrencia, APIs |
Nuestra recomendación:
- Empiezas desde cero: Ollama (instalación 5 min, funciona YA)
- Quieres GUI bonita: LM Studio (descarga, click, listo)
- Experimentas mucho: text-generation-webui (máxima flexibilidad)
- Produces APIs serias: vLLM (rendimiento enterprise)
ollama run llama3.1:8b
Y automáticamente descarga el modelo, lo configura y lo ejecuta. Magia pura.
Instalación rápida con Docker Compose
Vamos a instalar Ollama + Open WebUI (la interfaz gráfica más popular) con un solo docker-compose.yml:
Paso 1: Crea una carpeta para el proyecto
mkdir -p ~/ai-server
cd ~/ai-server
Paso 2: Crea el archivo docker-compose.yml
nano docker-compose.yml
Y pega esta configuración:
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: unless-stopped
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
ports:
- "3000:8080"
volumes:
- open_webui_data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
- ollama
volumes:
ollama_data:
open_webui_data:
Paso 3: Levanta los servicios
docker compose up -d
Esto descargará las imágenes y levantará ambos servicios en segundo plano.
Paso 4: Accede a la interfaz web
Abre tu navegador y ve a: http://localhost:3000
La primera vez te pedirá crear una cuenta (es local, solo usuario/contraseña para tu interfaz).
Descarga tu primer modelo
Desde la interfaz web, ve a Settings > Models y descarga un modelo. Recomendaciones según tu GPU:
- 8-12GB VRAM: llama3.1:8b, mistral:7b, gemma2:9b
- 16GB VRAM: llama3.1:8b, mixtral:8x7b, qwen2.5:14b
- 24GB+ VRAM: llama3.1:70b-q4, qwen2.5:32b, deepseek-coder:33b-q5
O desde terminal:
docker exec -it ollama ollama pull llama3.1:8b
¡Ya tienes tu ChatGPT casero funcionando!
Ahora puedes chatear con modelos de IA desde tu navegador, sin límites, sin cuotas, completamente privado.
7️⃣ Generación de imágenes: Instala SwarmUI o Stable Diffusion WebUI
Si quieres generar imágenes tipo Midjourney pero local, tienes dos opciones principales:
Opción A: SwarmUI (recomendado, más moderno)
Tenemos una guía completa en la web:
Cómo instalar SwarmUI e integrarlo con n8n
SwarmUI es la evolución de Stable Diffusion WebUI: interfaz más moderna, mejor rendimiento, soporte para FLUX y otros modelos recientes.
Opción B: Automatic1111 Stable Diffusion WebUI (clásico, muy popular)
Con Docker Compose:
version: '3.8'
services:
stable-diffusion:
image: universonic/stable-diffusion-webui:latest
container_name: sd-webui
restart: unless-stopped
ports:
- "7860:7860"
volumes:
- sd_models:/app/models
- sd_outputs:/app/outputs
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
command: --listen --xformers
volumes:
sd_models:
sd_outputs:
Acceso: http://localhost:7860
8️⃣ Integración con n8n: Automatiza tu IA
Si ya tienes n8n instalado (o quieres instalarlo), puedes crear workflows que usen tu servidor de IA local:
- Chatbots automatizados que responden con tu Ollama local
- Generación de imágenes programada para redes sociales
- Análisis de documentos con RAG
- Transcripción de audios con Whisper local
Guías relacionadas en la web:
9️⃣ Gestión de múltiples modelos y optimización
¿Cuántos modelos puedo tener cargados?
Solo uno a la vez en VRAM, pero puedes tener muchos descargados:
- Ollama guarda los modelos en disco (~4-40GB cada uno)
- Cuando ejecutas un modelo, se carga en VRAM
- Si ejecutas otro, el anterior se descarga automáticamente
- El cambio entre modelos tarda 5-30 segundos según el tamaño
Optimización de rendimiento
Para modelos de texto (Ollama):
- Usa cuantización Q4/Q5 para modelos grandes
- Ajusta el parámetro
num_gpu
en Ollama para controlar cuántas capas van a GPU - Activa
mmap
para cargar modelos más rápido
Para generación de imágenes:
- Usa xformers o FlashAttention para reducir uso de VRAM
- Reduce batch size si te quedas sin memoria
- Prueba modelos cuantizados (fp16 → fp8 → int8)
Monitorización de recursos
Vigila tu GPU para evitar sobrecalentamiento:
# Ver uso de GPU en tiempo real
watch -n 1 nvidia-smi
# O instala nvtop (más visual)
sudo apt install nvtop
nvtop
Temperaturas saludables:
- Idle: 30-50°C
- Bajo carga: 60-75°C (perfecto)
- Alerta: 80-85°C (mejora refrigeración)
- Peligro: 90°C+ (apaga y revisa ventiladores)
🔟 Troubleshooting: Problemas comunes y soluciones
❌ «CUDA out of memory»
Problema: El modelo no cabe en VRAM.
Soluciones:
- Usa un modelo más pequeño o cuantizado
- Cierra otras aplicaciones que usen GPU
- Activa offloading a RAM (más lento pero funciona)
- Reduce batch size en generación de imágenes
❌ Docker no ve la GPU
Problema: nvidia-smi
funciona fuera de Docker pero no dentro.
Solución:
# Reinstala NVIDIA Container Toolkit
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
# Verifica
docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi
❌ Modelos se cargan muy lento
Solución:
- Asegúrate de que los modelos están en SSD NVMe (no HDD)
- Aumenta RAM si haces swapping
- Usa modelos con menor precisión (Q4 vs Q8)
❌ WebUI no responde o da timeout
Solución:
- Revisa logs:
docker logs open-webui
- Reinicia contenedores:
docker compose restart
- Verifica que Ollama esté corriendo:
curl http://localhost:11434
1️⃣1️⃣ Actualizaciones y mantenimiento
Actualizar Ollama y Open WebUI
cd ~/ai-server
docker compose pull
docker compose up -d
Esto descarga las últimas versiones y reinicia los servicios.
Limpiar modelos antiguos
# Ver modelos instalados
docker exec -it ollama ollama list
# Eliminar modelo que no uses
docker exec -it ollama ollama rm llama2:70b
Backup de configuraciones
Los volúmenes de Docker contienen tus datos:
# Backup
docker run --rm -v ollama_data:/data -v $(pwd):/backup ubuntu tar czf /backup/ollama_backup.tar.gz /data
# Restore
docker run --rm -v ollama_data:/data -v $(pwd):/backup ubuntu tar xzf /backup/ollama_backup.tar.gz -C /
1️⃣2️⃣ Siguientes pasos: ¿Qué más puedes hacer?
Una vez tengas tu servidor funcionando, las posibilidades son infinitas:
- Fine-tuning: Entrena modelos con tus propios datos usando Unsloth o Axolotl
- RAG (Retrieval Augmented Generation): Chatea con tus documentos usando LangChain o LlamaIndex
- Agentes autónomos: Crea agentes que ejecuten tareas usando AutoGPT o CrewAI
- Whisper local: Transcripción de audio/vídeo sin límites
- Voice cloning: Clona voces con Bark o Tortoise TTS
- Code assistant: Ayudante de programación con Continue.dev + tu Ollama
- Multi-modal: Modelos que entienden imágenes y texto (LLaVA, Bakllava)
📊 Resumen punk: Checklist de lo que has montado
- ✅ Servidor de IA casero = privacidad, cero cuotas y todo el poder en tus manos
- ✅ GPU adecuada: No necesitas la última, una RTX 3090 de segunda mano, una 4070 SUPER o incluso una 3060 12GB te servirán
- ✅ Hardware complementario: CPU decente, 32GB RAM, SSD NVMe, PSU 750W+
- ✅ Docker instalado con soporte GPU (NVIDIA Container Toolkit)
- ✅ Ollama + Open WebUI = ChatGPT casero funcional
- ✅ (Opcional) SwarmUI o SD WebUI = Midjourney casero
- ✅ Modelos adaptados a tu VRAM con cuantización inteligente
- ✅ Integración con n8n para automatización avanzada
Coste total estimado: 800-1.900€ según configuración elegida
Ahorro anual vs servicios cloud: ~500-1.000€/año (ChatGPT Plus + Midjourney + APIs)
ROI: 1-2 años, luego todo es ganancia
🎸 Despedida
El robot punk ya tiene su servidor de IA casero y presume de él en el barrio digital. ¿Te animas a montarte el tuyo?
Montar tu propio servidor de IA es una de las inversiones más rentables que puedes hacer si te interesa la tecnología. No solo ahorras dinero a largo plazo, sino que aprendes cómo funciona la IA por dentro, experimentas sin límites y mantienes el control total de tus datos.
En El Diario IA seguiremos trayendo guías, ideas y locuras para que tu servidor sea cada vez más inteligente y divertido. Si tienes dudas, problemas o quieres compartir tu setup, déjalo en los comentarios. ¡La comunidad punk te apoya!
¿Ya montaste tu servidor? Cuéntanos qué GPU usas y qué modelos estás ejecutando. ¡Nos encanta ver lo que la comunidad está construyendo!
¡Nos leemos en la próxima aventura! 🤘
❓ Preguntas Frecuentes (FAQ)
¿Cuánto cuesta montar un servidor de IA casero en 2025?
Depende de tu presupuesto. Desde 790€ con una RTX 3060 12GB (entrada) hasta 1.880€ con RTX 3090 24GB (premium). Lo bueno es que con ROI de 1-2 años te ahorras las cuotas de ChatGPT Plus (20€/mes) y Midjourney (30€/mes), recuperando la inversión rápido.
¿Qué GPU necesito para ejecutar Llama 70B?
Con una RTX 3090 de 24GB puedes ejecutar Llama 3.1 70B cuantizado en Q4-Q5 sin problemas. Si tienes 16GB (como 4070 Ti SUPER), necesitarás Q4 y algo de offloading a RAM, pero funciona. Con 12GB o menos, no es viable ejecutar 70B completo.
¿Puedo usar AMD Radeon en lugar de NVIDIA para IA?
Sí, pero con limitaciones. Las AMD RX 6800 XT y RX 7900 XT tienen mucha VRAM por poco precio, pero ROCm (equivalente AMD de CUDA) tiene menos soporte. Funcionan bien para Stable Diffusion, pero para LLMs Ollama y otros frameworks están optimizados para NVIDIA. Si eres principiante, ve a por NVIDIA.
¿Es difícil instalar Docker y Ollama?
Para nada. Con Docker instalado (3 comandos siguiendo nuestra guía), levantar Ollama + Open WebUI es literalmente copiar un docker-compose.yml y hacer docker compose up -d
. En 5 minutos tienes tu ChatGPT casero funcionando. No necesitas saber programar.
¿Consume mucha electricidad un servidor de IA?
Depende de la GPU. Una RTX 3060 consume ~170W, una 3090 ~350W, y una 4070 SUPER ~220W. Si lo usas 8 horas al día, son 40-80 kWh/mes (~7-15€ en España). Sigue siendo mucho más barato que pagar ChatGPT Plus (20€/mes) + Midjourney (30€/mes) a largo plazo.
¿Qué modelos puedo ejecutar con 12GB de VRAM?
Con 12GB (RTX 3060, 4070 SUPER) puedes ejecutar cómodamente Llama 3.1 8B, Mistral 7B, Gemma 7B completos sin cuantizar, y modelos 13B cuantizados (Q4/Q5). Para imágenes, Stable Diffusion 1.5/2.1 perfecto, SDXL funciona, y FLUX Schnell cuantizado también. Es un sweet spot para empezar.
¿Puedo acceder a mi servidor de IA desde fuera de casa?
Sí, usando Cloudflare Tunnel (gratuito y seguro) o una VPN como WireGuard o Tailscale. Así puedes usar tu ChatGPT casero desde el móvil estés donde estés, sin abrir puertos en tu router. Tenemos guías sobre esto en la web.
¿Vale la pena comprar una GPU de segunda mano de minería?
En general sí. Las GPUs de minería solían correr con voltajes bajos (para eficiencia), así que su desgaste es menor de lo que parece. Verifica que el vendedor sea de confianza, pide fotos del número de serie, prueba temperaturas antes de comprar y comprueba que todos los ventiladores funcionen. La RTX 3090 de segunda mano por 700-800€ es un chollo.