Homelab con GPU 24GB+: Guía Completa de Modelos IA, Herramientas y Stack Profesional (2025)

Homelab con GPU 24GB+: Guía Completa de Modelos IA, Herramientas y Stack Profesional (2025)

Meta descripción: Guía definitiva homelab GPU 24GB+ (RTX 3090/4090/5090). LLMs, generación imágenes/video/audio, benchmarks reales, Docker stack completo. Qué puedes ejecutar HOY.

Por Qué 24GB es el Sweet Spot para IA en Homelab

Si tienes una RTX 3090, 4090 o 5090 en tu homelab, estás en el rango óptimo para ejecutar cargas de trabajo de IA profesionales sin depender de la nube. Los 24GB de VRAM (32GB en la 5090) te permiten ejecutar desde LLMs de 70B parámetros hasta generación de imágenes 4K y fine-tuning de modelos custom.

La pregunta no es si puedes ejecutar IA en tu homelab, sino qué específicamente puedes ejecutar y cómo configurarlo para máximo rendimiento.

Esta guía cubre:

    • LLMs por categoría de tamaño: 7B-13B, 30B-34B, 70B+ con benchmarks reales
    • Motores de inferencia: Ollama, vLLM, llama.cpp, ExLlamaV2
    • Generación de imágenes/video/audio: FLUX, SDXL, ComfyUI, Whisper, Bark
    • Stack completo Docker con configuración GPU
    • Comparativas RTX 3090 vs 4090 vs 5090 con datos reales

LLMs Que Puedes Ejecutar: Por Categoría de Tamaño

7B-13B: Rendimiento Brutal en FP16

Llama 3.1 8B es el caballo de batalla perfecto para 24GB. En FP16 ocupa solo 12.3GB de VRAM, dejando espacio de sobra para contextos largos.

Benchmarks reales:

    • RTX 5090: 226 tokens/segundo
    • RTX 4090: 213 tokens/segundo
    • RTX 3090: 101 tokens/segundo

Mistral 7B ofrece latencia increíble: 130ms hasta el primer token y 170 tokens/segundo sostenidos. Con solo 12.3GB en FP16, funciona perfectamente en las tres GPUs y sorprendentemente supera en benchmarks a Llama 2 13B.

Qwen2.5 8B rompe récords en la RTX 5090: más de 10,400 tokens/segundo en prefill. La versión Coder con cuantización Q6K funciona sin problemas en consumer GPUs.

Modelos 13B: El límite de FP16 en 24GB

LLaMA-13B en FP16 necesita exactamente 24GB de VRAM para inferencia – estás al límite absoluto. En bfloat16 consume 14-15GB para cargar pero 26GB en runtime, haciendo la cuantización casi obligatoria.

Con INT4 en RTX 4090: 110 tokens/segundo – rendimiento más que aceptable.

30B-34B: Cuantización Obligatoria pero Viable

Yi-34B y Qwen2.5-32B representan el tier superior que puedes ejecutar en una sola GPU de 24GB con cuantización agresiva.

Benchmarks RTX 5090 con modelos 32B:

    • Prefill a 4K context: ~3,000 tokens/segundo
    • Generación: 61 tokens/segundo

Benchmarks RTX 4090:

    • Q4KM cuantización: 37-40 tokens/segundo

Qwen2.5-Coder 32B funciona con 32K de contexto a aproximadamente 4.5 bits por peso en 24GB. Una versión 4-bit consume prácticamente toda la VRAM disponible: 23.7GB.

RTX 3090 con 32B @ Q4KM: ~25 tokens/segundo – lento pero funcional.

⚠️ Importante: AWQ INT4 para modelos 32B necesita ~35GB solo para cargar el checkpoint con vLLM (tensor-parallel-size 4, max-model-len 4096). Esto excede 24GB y requiere cuantización 2-bit o setup dual-GPU.

70B+: Los Límites de lo Posible

Llama 3.1 70B es el desafío definitivo. El modelo completo necesita 140GB en FP16, pero con cuantización 2-bit agresiva baja a 21.1GB – técnicamente viable en 24GB.

Cuantización GGUF con Ollama:

    • 8-bit: ~35GB VRAM (NO cabe en 24GB)
    • 4-bit: ~20GB VRAM ✅
    • 2-bit (IQ2_XS): ~12GB VRAM ✅ 60 tokens/segundo

Ventaja RTX 5090 (32GB): Con INT4/INT8, los 70B caben sin spillover a RAM, manteniendo velocidad completa. Un solo layer offloaded reduce el performance a 25% de la velocidad.

Qwen2.5-72B sigue patrones similares: 4-bit cabe en 32GB, requiere 2-bit para 24GB.

Contextos largos (32K tokens): La ventaja de la 5090 sobre la 4090 crece a 50% más rápida. La 5090 mantiene 139,247 tokens de contexto activo a 52 tokens/segundo gracias a sus 1.79 TB/s de bandwidth (vs 1.01 TB/s de la 4090).

Motores de Inferencia: Cuál Usar y Cuándo

Ollama: Simplicidad sin Concesiones

Para qué es perfecto: Desarrollo, pruebas rápidas, uso diario personal. Si estás evaluando Ollama vs LM Studio, Ollama gana en facilidad de integración Docker.

Ventajas:

    • Instalación trivial: curl https://ollama.ai/install.sh | sh
    • Streaming ultra rápido
    • GGUF nativo (cuantización flexible)
    • Server en http://localhost:11434

Limitaciones:

    • Solo GGUF (no AWQ, GPTQ, EXL2)
    • Sin LoRA training
    • Sin TTS/STT integrado
    • Sin extensiones

Docker Compose:

ollama:
  image: ollama/ollama:latest
  ports:
    - "11434:11434"
  volumes:
    - ollama-data:/root/.ollama
  deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            capabilities: ["gpu"]

vLLM: Producción y Máximo Throughput

Para qué es perfecto: APIs de producción, múltiples usuarios concurrentes, máximo rendimiento.

Ventajas clave:

    • Hasta 24x más throughput que HuggingFace Transformers
    • OpenAI API compatible (drop-in replacement)
    • PagedAttention: reduce uso de memoria 50-70%
    • Continuous batching: múltiples requests simultáneas
    • Scaling de 1 GPU a multi-node sin cambios de código
    • Autenticación con --api-key o VLLM_API_KEY

Lanzar servidor:

vllm serve meta-llama/Llama-2-7b-hf \
  --tensor-parallel-size 1 \
  --host 0.0.0.0 \
  --port 8000

Importante: vLLM ejecuta un modelo a la vez definido en startup (vs Ollama que puede cargar múltiples).

Caso de uso homelab: Servir Llama-3 70B a múltiples aplicaciones/usuarios con mínima latencia.

llama.cpp: Máxima Flexibilidad

Para qué es perfecto: Portabilidad, cuantización custom, control total.

Instalación:

brew install llama.cpp  # macOS/Linux
# Windows: usa WSL

Lanzar server:

llama-server \
  --hf-repo microsoft/Phi-3-mini-4k-instruct-gguf \
  --hf-file Phi-3-mini-4k-instruct-q4.gguf \
  -c 4096 \
  --host 0.0.0.0 \
  --port 8080

GUI incluida en: http://localhost:8080

Endpoints OpenAI-compatible:

    • /v1/chat/completions
    • /completion

Formatos de Cuantización GGUF (modelo 7B)

Formato Tamaño Perplexity Notas
FP16 13.5GB Baseline Referencia sin comprimir
Q8_0 4.70GB +0.0415 Indistinguible de FP16 ✅
Q5_K_S 4.33GB +0.0353 Excelente calidad
Q5_K_M 4.78GB Recomendado, 2.8x más pequeño
Q4_K_M 4.08GB +0.0535 Balance óptimo, 3.3x compresión ✅

Sufijos S/M/L: Indican intensidad de cuantización – Q3_K_S es más agresivo que Q3_K_L.

Recomendación: Q4_K_M para producción (usa Q6_K en attention.wv y feed_forward.w2, Q4_K en el resto).

Text Generation WebUI (oobabooga)

Para qué es perfecto: Experimentación, roleplay, múltiples backends.

Ventaja única: Soporte de múltiples backends en una sola UI:

    • Transformers
    • ExLlama v2
    • AutoGPTQ
    • AutoAWQ
    • GPTQ-for-Llama

Features avanzadas:

    • Train LoRA adapters con datos custom
    • Cargar/descargar LoRAs on the fly
    • Extensiones: Coqui TTS, Whisper STT, traducción, Stable Diffusion, vector DBs
    • Roleplay nativo: Characters, historias persistentes

Problema conocido: llama.cpp via Oobabooga puede tener stuttering cada pocos segundos (trade-off por features extra).

ExLlamaV2: Velocidad Pura

Benchmark: llama.cpp toma 2.22x más tiempo que ExLlamaV2 para procesar prompts de 3200 tokens.

Con Flash Attention: EXL2 destroza a llama.cpp incluso con full GPU offload.

Generación: EXL2 es el más rápido, seguido de GPTQ via ExLlama v1. GPTQ via ExLlamaV2 logra 13% más rápido que v1.

Hardware del benchmark: RTX 4090, 10700k, DDR4 3200 MT/s dual-channel.

Comparativa de Cuantización: AWQ vs GPTQ vs EXL2

Métrica EXL2 GPTQ AWQ
Velocidad prompt 🥇 Fastest Rápido Lento
Velocidad generación 🥇 Fastest Muy rápido Moderado
Perplexity Bueno Bueno 🥇 Mejor
Uso VRAM Moderado 🥇 Eficiente Alto
Tamaño disco Moderado Moderado 🥇 Pequeño

Tiempo de cuantización: GPTQ toma ~35 min con A10 GPU.

Recomendación:

    • Máxima velocidad: EXL2
    • Balance speed/VRAM: GPTQ
    • Máxima calidad (aceptas más VRAM): AWQ

Generación de Imágenes en 24GB

FLUX (schnell vs dev)

VRAM sin optimizar: ~33GB en bf16 (NO cabe en 24GB)

Con CPU offloading: Baja a 24GB exactos ✅

Quantización GGUF: Ahorra VRAM significativa manteniendo calidad.

Batch processing en 24GB: Usuarios reportan 2048×2048 batch_size=2 en… 6GB usando offloading secuencial + VAE tiling (MUY lento). Para performance real: 16-24GB recomendados.

SDXL: Batch Sizes por GPU

VRAM mínima: 8GB
Recomendado profesional: 12GB+
Base + Refiner: 24GB para workflows complejos

RTX 5090 (32GB): 4x imágenes 1024×1024 en paralelo a VRAM completa.

⚠️ Escalado de resolución: 2048×2048 aumenta VRAM cuadráticamente – se come la GPU rápido.

ComfyUI: El Power User Tool

ComfyUI hace FLUX viable en 24GB mediante CPU offloading + VAE tiling + memory management inteligente. Si vienes de comparar ComfyUI vs Stable Diffusion WebUI, ComfyUI es superior para workflows complejos y memory optimization.

Instalación ComfyUI Manager

cd ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

Custom Nodes Esenciales

Nodo Para qué sirve
WAS Node Suite Pack popular: procesamiento imagen, prompts, workflow improvements
ComfyUI Impact Pack Image enhancement, face detailing, segmentation
ComfyUI Essentials QoL: resize, crop, flip, console debugging
Efficiency Nodes Optimización graph management
Nested Node Builder Organización workflows complejos

SwarmUI + ComfyUI Backend

SwarmUI usa ComfyUI como backend. Para integrar con Open WebUI:

http://<swarmui_address>:7801/ComfyBackendDirect

Generación de Video

Stable Video Diffusion

VRAM inicial reportada: Hasta 40GB (SCARY ❌)
VRAM real con optimizaciones: 8GB mínimo

Gracias a optimizaciones de ComfyUI, SVD funciona en RTX 3060 12GB.

Configuraciones avanzadas:

    • Mínimo recomendado: 16GB (RTX 4080/3090)
    • SVD-XT (extended): 24GB+ recomendado

AnimateDiff

VRAM por caso de uso:

    • Text-to-video: 8GB suficiente
    • Video-to-video: 10GB requerido
    • Local básico: 12GB para 512×512 @ 16 frames
    • Alta resolución: 21GB para 512×768 @ 24 frames

Batch Size: Representa bloques de animación. Default 16, DiffSynth-Studio usa 32.

Optimizar VRAM: Reduce batch size, inference steps, resolución o aumenta VRAM limit en ComfyUI settings.

Audio y Speech

Whisper large-v3

VRAM mínima: 2.87GB (float16/bfloat16)
VRAM típica: ~10GB
WhisperX: Mínimo 10GB para large-v3

Variantes:

    • Tiny: ~1GB
    • Large-v3 típico: ~4GB
    • Large-v3 batch_size=24 + timestamps=’word’: >20GB

Performance RTX 4090 vs 3090: 297 vs 172 tokens/s (1.7x improvement) en BERT Base fine-tuning FP16.

Bark TTS

Versión completa: ~12GB VRAM
Versión pequeña (8GB): SUNO_USE_SMALL_MODELS=True

Con optimizaciones (Better Transformer + CPU offload): De 5GB → 2GB

GPUs <4GB pueden ejecutar Bark optimizado.

MusicGen

Inference modelos medium (~1.5B params): Mínimo 16GB
Fine-tuning: 10-16GB
GPUs pequeñas: Usa facebook/musicgen-small o secuencias cortas

UIs y Herramientas Prácticas

Open WebUI + AUTOMATIC1111 Integration

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e AUTOMATIC1111_BASE_URL=http://host.docker.internal:7860/ \
  -e ENABLE_IMAGE_GENERATION=True \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Inter-container communication: Usa http://host.docker.internal:7860/ cuando ambos contenedores están en el mismo host.

AUTOMATIC1111

Puerto default: 7860

⚠️ Problema conocido: AUTOMATIC1111 se vuelve MUY lento si SillyTavern corre simultáneamente. Monitor de recursos obligatorio.

SillyTavern

Ventaja única: Interface unificada para:

    • LLM APIs múltiples
    • AUTOMATIC1111 image generation
    • ComfyUI API integration
    • TTS voice models

Best use case: Roleplay, gaming, character management, historias persistentes.

RAG y Vector Databases

Modelos de Embeddings

Opciones populares:

    • OpenAI: text-embedding-ada-002
    • Hugging Face: Sentence-BERT, all-MiniLM-L6-v2
    • Google: Universal Sentence Encoder

VRAM: Modelos de embeddings consumen VRAM mínima vs modelos generativos – caben fácilmente en 24GB junto a otras cargas.

Comparativa Vector Databases

Database Ventaja Principal Mejor Para
Qdrant Performance brutal (Rust), metadata filtering potente Production, self-hosted, filtering complejo ✅
Chroma Simplicidad, RAG rápido (13% faster, 7.9s avg) Prototipado, equipos pequeños
Weaviate Hybrid search, GraphQL API, embeddings in-database Schema/GraphQL, módulos de embedding
Milvus IVF + PQ indexes, compresión extrema Footprint mínimo disco/memoria

Qdrant highlights:

    • Rust = memory safety + velocidad
    • Latency y throughput superiores a escala millones
    • Binary quantization
    • Fast SSD supplementation de RAM

Decisión clave: El embedding model determina calidad/relevancia. La DB afecta performance, scalabilidad y ops.

Fine-tuning en 24GB

LoRA con Unsloth

Capacidades 24GB VRAM:

    • Modelos 9B en LoRA 16-bit:
    • QLoRA 4-bit: Solo 6.5GB VRAM
    • Contexto: 20K tokens (3.5x más largo que HF+FA2)

Velocidad: 2x faster, 70% menos VRAM que alternativas.

Precisión: 2.7x faster con 74% menos memoria vs Transformers + SDPA. 0% degradación de accuracy (sin aproximaciones).

Ejemplo extremo: Alpaca training 3 horas vs 85 horas convencional (30x speedup).

Tecnología: Weight upcasting optimizado, Triton kernels custom, Flash Attention, manual gradient computation para LoRA.

Gradient checkpointing mode: Usa 30% menos VRAM, cabe 2x larger batch sizes.

QLoRA para Modelos Grandes

4-bit precision: Reduce VRAM >75%

Integración Unsloth: Combina speed/memory optimizations de Unsloth + QLoRA sin pérdida de accuracy.

Benchmarks Reales: RTX 3090 vs 4090 vs 5090

RTX 3090 (24GB GDDR6X)

Performance:

    • 8B models: 101 tokens/s
    • Llama2-7B mixed 2/4-bit: 45.2 tokens/s
    • 32B @ Q4KM: ~25 tokens/s

Precio eBay: $950 → $9.34 por token (mejor balance precio/performance)

RTX 4090 (24GB GDDR6X, 1.01 TB/s)

Performance:

    • 8B models: 213 tokens/s
    • Llama-2-7B INT4: 194 tokens/s
    • Llama-2-13B INT4: 110 tokens/s
    • 32B @ Q4KM: 37-40 tokens/s
    • BERT Base FP16 fine-tuning: 297 tokens/s

Tensor Cores FP4: 1,300 TOPS

RTX 5090 (32GB GDDR7, 1.79 TB/s)

Performance:

    • 8B models: 226 tokens/s
    • 32B generación: 61 tokens/s
    • 32B @ 4K context prefill: ~3,000 tokens/s
    • Qwen3 8B prefill: >10,400 tokens/s
    • Contexto activo máximo: 139,247 tokens @ 52 tokens/s

Tensor Cores FP4: >3,300 TOPS (154% improvement vs 4090)

Mejoras Generacionales

5090 vs 4090:

    • Promedio: +35% performance
    • Computer Vision: +44%
    • NLP: +72%
    • Contextos largos (32K): +50%
    • Bandwidth: +78% (1.79 vs 1.01 TB/s)

5090 vs 3090:

    • Ollama LLM inference: +108% (más del doble)

Consumo y Eficiencia

TDP:

    • RTX 3090: 350W
    • RTX 4090: 450W (+100W)
    • RTX 5090: >450W

Throughput por Watt (4090 vs 3090): 0.92x a 1.5x

A pesar de consumir 100W más, la 4090 ofrece eficiencia similar o ligeramente mejor cuando se normaliza por performance.

Throughput absoluto (4090 vs 3090): 1.3x a 1.9x dependiendo de modelo/precisión.

Docker Stack Completo para Homelab

Configuración GPU Base

deploy:
  resources:
    reservations:
      devices:
        - driver: nvidia
          capabilities: ["gpu"]
          count: all

docker-compose.yml Completo

version: '3.8'

services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ollama-data:/root/.ollama
    networks:
      - ai-stack
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: ["gpu"]
              count: all

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
      - AUTOMATIC1111_BASE_URL=http://stable-diffusion:7860/
      - ENABLE_IMAGE_GENERATION=True
    volumes:
      - open-webui:/app/backend/data
    networks:
      - ai-stack
    depends_on:
      - ollama

  stable-diffusion:
    image: goolashe/automatic1111-sd-webui
    ports:
      - "7860:7860"
    volumes:
      - sd-models:/models
      - sd-outputs:/outputs
    networks:
      - ai-stack
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: ["gpu"]
              count: all

  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    environment:
      - VLLM_API_KEY=your-api-key-here
    command: --model meta-llama/Llama-2-7b-hf --tensor-parallel-size 1
    networks:
      - ai-stack
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: ["gpu"]
              count: all

networks:
  ai-stack:
    driver: bridge

volumes:
  ollama-data:
  open-webui:
  sd-models:
  sd-outputs:

Tips de Configuración

Usa Docker volumes (no bind mounts) para Ollama/Open WebUI – mayor confiabilidad
CPU/RAM generosa en Docker Desktop
Verifica GPU en logs: “Nvidia GPU detected via cudart»
Inter-container: host.docker.internal para comunicación mismo host
Monitor recursos cuando corres múltiples servicios AI simultáneos

Estrategia de Asignación de Recursos

Single 24GB Card

Distribución VRAM:

    • 12-14GB: LLM inference primaria (Ollama/vLLM)
    • 8-10GB: Image generation (AUTOMATIC1111/ComfyUI)
    • 2-4GB: System overhead + context caching

⚠️ Evita: Correr ambos a capacidad máxima simultáneamente

Workflow recomendado:

    • Primario: Ollama con 7B-13B para tareas LLM diarias
    • Secundario: AUTOMATIC1111 start/stop según necesidad
    • Terciario: Whisper para transcripción
    • Estrategia: Switch entre workloads vs todo simultáneo

Dual 24GB Cards

Card 1:

    • LLM inference dedicada (vLLM/Ollama)
    • Hasta modelos 32B

Card 2:

    • Image/video generation
    • Fine-tuning workloads

Ventaja: Operación paralela texto + imagen sin competencia.

Single 32GB Card (RTX 5090)

Capacidades simultáneas:

    • ✅ Ollama + AUTOMATIC1111 + Open WebUI stack completo
    • ✅ Modelos 70B con 4-bit quantization
    • ✅ Contextos largos (128K+) con modelos medium
    • ✅ Fine-tune modelos grandes con QLoRA

Headroom:

    • 20-24GB: LLM inference (modelos grandes, contextos largos)
    • 10-12GB: Image/video generation
    • Buffer cómodo para múltiples servicios concurrentes

Casos de Uso Reales

Setup 1: Developer Fullstack (RTX 4090 24GB)

Stack:

    • Ollama: Llama-3.1-8B para code generation diaria (perfecto si usas Cursor como editor con IA)
    • Open WebUI: Interface unificada
    • AUTOMATIC1111: Generación UI mockups/assets
    • Whisper large-v3: Transcripción meetings

Performance:

    • Code generation: 213 tokens/s
    • Mockup generation: 2-3 imágenes 1024×1024 simultáneas
    • Transcripción: Real-time con buffer

Setup 2: Content Creator (RTX 5090 32GB)

Stack:

    • vLLM: Llama-3.1-70B @ 4-bit para scripts largos
    • ComfyUI: FLUX workflows para thumbnails 4K
    • Whisper + Bark: Transcripción + voice-over

Performance:

    • 70B a velocidad completa sin spillover RAM
    • FLUX sin CPU offloading (más rápido)
    • Procesamiento simultáneo audio + video

Setup 3: ML Researcher (Dual RTX 3090)

Card 1:

    • Text Gen WebUI: Experimentación multi-backend
    • LoRA training: Modelos 7B-9B

Card 2:

    • SDXL + Refiners: Generación dataset custom
    • Vector DB (Qdrant): Embeddings research

Performance:

    • Training LoRA: ~3 horas Alpaca con Unsloth
    • SDXL batch generation para datasets
    • Dual-card isolation = sin competencia recursos

Conclusión: Tu Homelab vs La Nube

Con una GPU de 24GB+ en tu homelab tienes capacidades que hace 2 años solo estaban disponibles en cloud a $$/hora:

LLMs 70B locales (privacidad total)
Generación imágenes profesionales (FLUX, SDXL)
Fine-tuning custom (tus datos, tu modelo)
APIs propias (vLLM OpenAI-compatible)
Latencia <100ms (vs 200-500ms cloud)
Sin rate limits (corre 24/7)
Costo fijo (electricidad vs $/token)

RTX 3090: Mejor precio/performance usado ($950)
RTX 4090: Balance óptimo performance/consumo
RTX 5090: Máxima capacidad, modelos 70B cómodos, contextos largos

La pregunta ya no es si montar un homelab con GPU, sino cuándo empezar 🚀

Preguntas Frecuentes

¿Puedo ejecutar modelos 70B en una RTX 4090 24GB?

Sí, con cuantización 4-bit (~20GB VRAM) u Ollama IQ2_XS 2-bit (~12GB) a ~60 tokens/s. Performance aceptable pero la RTX 5090 32GB ofrece experiencia mucho mejor sin spillover a RAM.

¿Qué es mejor para homelab: Ollama o vLLM?

Ollama para uso personal/desarrollo (fácil, múltiples modelos). vLLM para producción/APIs (24x throughput, OpenAI-compatible, multi-usuario). Puedes correr ambos en el mismo stack.

¿Cuánta electricidad consume un homelab con RTX 4090?

RTX 4090 = 450W bajo carga. 24/7 = ~324 kWh/mes. A $0.15/kWh = ~$49/mes. Vs cloud GPUs ($1-3/hora) = ROI en 3-6 meses uso intensivo.

¿ComfyUI o AUTOMATIC1111 para FLUX?

ComfyUI para FLUX – mejor memory management, workflows avanzados, optimizaciones para 24GB. AUTOMATIC1111 mejor para SDXL tradicional y simplicidad.

No obligatorio pero ayuda. Sin NVLink puedes usar dual GPUs asignando workloads separados por card. Con NVLink puedes tensor-parallel multi-GPU para modelos >24GB.

¿Qué cuantización usar para mejor calidad?

Q8_0 prácticamente indistinguible de FP16. Q4_K_M balance óptimo (3.3x compresión, +0.0535 perplexity). Q5_K_M si tienes VRAM de sobra.

¿Puedo fine-tunear Llama-3.1-70B en 24GB?

Sí con QLoRA 4-bit + Unsloth. Consume ~6.5GB VRAM. Entrenamiento lento vs modelos pequeños pero viable. RTX 5090 32GB mucho más cómodo.

¿Docker necesario o puedo instalar nativo?

No obligatorio pero MUY recomendado. Docker facilita: networking entre servicios, GPU sharing, updates, rollbacks, isolation. Stack completo funciona sin conflictos.

¿VRAM de consumer GPU equivale a pro cards?

RTX 4090 24GB GDDR6X vs A6000 48GB: Mismo chip (AD102), consumer tiene boost clocks más altos, pro tiene ECC + doble VRAM. Para inference/fine-tuning homelab, consumer GPUs son óptimas.

¿Whisper large-v3 funciona real-time?

Sí en RTX 4090/5090. Latencia típica 10GB VRAM, procesa más rápido que audio real-time. Tiny/base models (~1-2GB) funcionan real-time incluso en GPUs pequeñas.

¿Qué modelos multimodales (visión) puedo ejecutar?

Llava-1.5-13B (~14GB), Llama-3.2-Vision (11B/90B variants), Qwen2-VL caben en 24GB con cuantización. RTX 5090 puede 90B @ 4-bit.

¿Vector DB en GPU o CPU?

Qdrant/Chroma/Weaviate funcionan en CPU/RAM. Embeddings se generan en GPU luego se almacenan en DB (CPU/disco). GPU solo necesaria para generar/query embeddings, no para storage.

¿Temperaturas seguras 24/7?

<85°C safe, <80°C ideal. Undervolting RTX 4090/5090 puede reducir 10-15°C sin pérdida performance. Cooling adecuado obligatorio para cargas 24/7.

¿Vale la pena RTX 5090 vs 4090 usado?

RTX 5090: +35% avg performance, +78% bandwidth, 32GB vs 24GB. Para modelos 70B y contextos largos, sí. Para 7B-34B, RTX 4090 usado ($1,200-1,500) mejor value.

Guías Complementarias para tu Homelab IA

Por ziru

El Diario IA
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.