🎨 Guía punk definitiva: Stable Diffusion en local para humanos (y robots con cresta)

🎨 Stable Diffusion Local: Genera Arte con IA en Tu PC Sin Censura

¿Quieres crear imágenes alucinantes con inteligencia artificial sin depender de servicios online, sin limitaciones, sin censura y sin pagar cuotas mensuales? Stable Diffusion instalado localmente en tu PC es la respuesta.

Esta guía te enseña desde cero a instalar y usar Stable Diffusion con AUTOMATIC1111 WebUI (la interfaz más popular), optimizar parámetros, escribir prompts efectivos, y aprovechar funciones avanzadas como img2img, inpainting y ControlNet.

⚡ ¿Qué es Stable Diffusion y por qué instalarlo en local?

Stable Diffusion (SD) es un modelo de IA open source que convierte texto en imágenes. A diferencia de DALL-E (OpenAI) o Midjourney (pago), SD puedes instalarlo gratis en tu PC y hacer lo que quieras con él.

Ventajas de la instalación local

Sin censura: Genera cualquier tipo de contenido (artístico, NSFW, político) sin filtros
Privacidad total: Tus prompts e imágenes nunca salen de tu PC
Gratis: No pagas cuotas mensuales ni créditos por imagen
Modelos custom: Instala modelos especializados (realismo, anime, arte, arquitectura)
Control total: Ajusta todos los parámetros sin limitaciones
Offline: Funciona sin internet una vez instalado

💻 Requisitos de hardware

Stable Diffusion es exigente con la GPU. Aquí los requisitos reales:

Componente	Mínimo	Recomendado	Ideal
GPU (NVIDIA)	GTX 1060 6GB	RTX 3060 12GB	RTX 4090 24GB
GPU (AMD)	RX 580 8GB	RX 6700 XT 12GB	RX 7900 XTX 24GB
VRAM	4GB (512×512)	8-12GB (768×768)	16-24GB (1024×1024+)
RAM	8GB	16GB	32GB+
Almacenamiento	20GB	100GB SSD	500GB+ SSD NVMe
CPU	i5/Ryzen 5	i7/Ryzen 7	i9/Ryzen 9

⚠️ Sin GPU dedicada: Puedes usar CPU (muy lento, 5-10 min por imagen) o Google Colab gratis (con limitaciones de tiempo).

Tarjetas NVIDIA funcionan mejor gracias a CUDA. AMD con ROCm funciona, pero requiere más configuración.

🔧 Instalación de AUTOMATIC1111 WebUI (Windows)

AUTOMATIC1111 es la interfaz más usada para Stable Diffusion. Instalación en 5 pasos:

Paso 1: Instalar dependencias

Python 3.10.6 (versión exacta recomendada):
Descarga desde python.org
⚠️ Marca «Add Python to PATH» durante instalación
Git:
Descarga desde git-scm.com

Paso 2: Clonar repositorio

Abre PowerShell o CMD en la carpeta donde quieras instalarlo:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

Paso 3: Descargar un modelo base

Los modelos se guardan en models/Stable-diffusion/. Opciones populares:

Stable Diffusion 1.5 (4GB, rápido): HuggingFace SD 1.5
SDXL 1.0 (7GB, mejor calidad): HuggingFace SDXL
Realistic Vision (realismo fotográfico): CivitAI Realistic Vision

Descarga el archivo .safetensors o .ckpt y guárdalo en models/Stable-diffusion/.

Paso 4: Ejecutar la WebUI

Doble clic en webui-user.bat (Windows). La primera vez descarga dependencias (5-10 min).

Verás en la consola:

Running on local URL:  http://127.0.0.1:7860

Paso 5: Abrir la interfaz

Abre tu navegador en http://127.0.0.1:7860. 🎉 ¡Ya está funcionando!

🐧 Instalación en Linux

Paso 1: Instalar dependencias

sudo apt update
sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0

Paso 2: Clonar repo y ejecutar

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

El script instala todo automáticamente. Primera ejecución: 10-15 min.

GPU NVIDIA con CUDA

Instala drivers NVIDIA y CUDA Toolkit:

sudo apt install nvidia-driver-535 nvidia-cuda-toolkit

Verifica instalación:

nvidia-smi

GPU AMD con ROCm (experimental)

Sigue la guía oficial de ROCm: AMD ROCm Docs

Luego ejecuta WebUI con:

export HSA_OVERRIDE_GFX_VERSION=10.3.0
./webui.sh

🎨 Tu primera imagen: Conceptos básicos

Interfaz de AUTOMATIC1111

La pestaña principal txt2img tiene:

Prompt: Describe lo que quieres generar
Negative prompt: Describe lo que NO quieres (defectos comunes)
Sampling steps: Iteraciones de refinado (20-30 es suficiente)
Sampling method: Algoritmo (Euler a, DPM++ 2M Karras son buenos)
CFG Scale: Adherencia al prompt (7-10 normal, más = literal, menos = creativo)
Width/Height: Resolución (512×512 para SD 1.5, 1024×1024 para SDXL)
Batch size: Imágenes simultáneas (usa tu VRAM)
Seed: Semilla aleatoria (fija para reproducir misma imagen)

Ejemplo de prompt básico

Prompt:

a majestic lion standing on a cliff at sunset, digital art, highly detailed, dramatic lighting, warm colors

Negative prompt:

ugly, blurry, low quality, distorted, watermark, text, signature

Parámetros:

Steps: 25
Sampler: DPM++ 2M Karras
CFG Scale: 7
Size: 512×512

Clic en Generate. En 5-30 segundos (según GPU) tendrás tu imagen.

📝 Escribir prompts efectivos

Estructura recomendada

[Sujeto principal], [acción/pose], [entorno/fondo], [estilo artístico], [calidad/detalles], [iluminación], [colores]

Ejemplos de prompts avanzados

Retrato realista:

portrait of a young woman with red hair, green eyes, freckles, wearing a leather jacket, urban street background, golden hour lighting, photorealistic, 8k, sharp focus, bokeh

Paisaje fantástico:

fantasy castle on floating island, waterfalls cascading into clouds, dragons flying in sky, dramatic sunset, epic scale, concept art, trending on artstation, highly detailed

Arte anime:

anime girl with blue hair, twin tails, school uniform, sitting in classroom, soft lighting, studio ghibli style, detailed eyes, colorful, high quality

Palabras clave útiles

Calidad: masterpiece, best quality, highly detailed, 8k, sharp focus
Estilo: photorealistic, oil painting, digital art, concept art, anime
Iluminación: dramatic lighting, soft light, golden hour, rim lighting, volumetric fog
Composición: rule of thirds, centered, wide angle, close-up, isometric

Negative prompt imprescindible

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, blurry, bad anatomy, blurred, watermark, grainy, signature, cut off, draft, duplicate, distortion of proportions, anatomy, copy, multi, two faces, disfigured, kitsch, oversaturated, grain, low-res, mutation, mutated, extra limb, missing limb, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, disgusting, childish, mutilated, mangled, old, heterochromia, dots, bad quality, weapons, NSFW, draft

⚙️ Parámetros clave explicados

Sampling Steps

Número de iteraciones de refinado. Más steps = más detalle pero más tiempo.

15-20: Bocetos rápidos
25-35: Calidad normal (recomendado)
50+: Raramente mejora resultados (pérdida de tiempo)

CFG Scale (Classifier Free Guidance)

Cuánto caso hace la IA a tu prompt.

1-5: Muy creativo, ignora el prompt
7-10: Balance perfecto (recomendado)
15-20: Literal, puede sobresaturar colores y distorsionar
20+: Resultados raros, evita

Sampler (Sampling Method)

Algoritmo de difusión. Los más usados:

Euler a: Rápido, algo de variación
DPM++ 2M Karras: Calidad excelente, versátil
DPM++ SDE Karras: Alta calidad, más lento
DDIM: Resultados consistentes, bueno para img2img

Experimenta para ver cuál prefieres. DPM++ 2M Karras es un buen punto de partida.

Seed

Número que controla la aleatoriedad. Misma seed + mismo prompt = misma imagen.

-1: Seed aleatoria (por defecto)
Número fijo: Reproducir resultados o hacer variaciones controladas

Truco: Genera una imagen que te guste, copia su seed, y haz variaciones cambiando ligeramente el prompt.

🖼️ img2img: Transforma imágenes existentes

La pestaña img2img permite partir de una imagen (foto, boceto, screenshot) y transformarla según tu prompt.

Proceso básico

Ve a la pestaña img2img
Arrastra tu imagen de referencia
Escribe un prompt describiendo el resultado deseado
Ajusta Denoising strength:
- 0.3-0.5: Cambios sutiles (mantiene composición)
- 0.6-0.8: Cambios moderados
- 0.9-1.0: Cambio radical (casi ignora imagen original)
Generate

Ejemplo práctico

Imagen original: Foto de tu cara

Prompt:

portrait in style of renaissance painting, oil on canvas, detailed brush strokes, museum quality

Denoising: 0.6

Resultado: Tu cara convertida en retrato renacentista manteniendo tus rasgos.

🎨 Inpainting: Edita partes de una imagen

Inpainting permite borrar/cambiar zonas específicas de una imagen.

Cómo usarlo

Pestaña img2img → Inpaint
Carga tu imagen
Pinta con el pincel sobre la zona a cambiar
Escribe prompt describiendo QUÉ quieres en esa zona
Ajusta Inpaint area: «Only masked» (solo zona pintada) o «Whole picture»
Generate

Ejemplo práctico

Caso: Tienes un retrato pero las manos salieron mal (típico de Stable Diffusion).

Pinta sobre las manos raras
Prompt: detailed realistic hands, fingers, natural pose
Denoising: 0.7
Generate

La IA regenera solo esa zona, corrigiendo las manos.

🕹️ ControlNet: Control preciso de composición

ControlNet es una extensión que permite controlar la estructura de la imagen usando referencias (poses, líneas, profundidad).

Instalación de ControlNet

En WebUI, ve a Extensions → Install from URL
URL: https://github.com/Mikubill/sd-webui-controlnet
Clic en Install
Reinicia WebUI
Descarga modelos ControlNet desde HuggingFace ControlNet
Guárdalos en extensions/sd-webui-controlnet/models/

Modos de ControlNet

Canny: Detección de bordes (copiar composición)
Depth: Mapa de profundidad (mantener perspectiva 3D)
OpenPose: Copiar poses humanas
Scribble: Partir de un boceto a mano alzada

Ejemplo: Copiar pose de una foto

Activa ControlNet en txt2img
Carga foto de referencia (persona en pose específica)
Selecciona preprocessor: OpenPose
Prompt: fantasy knight in armor, standing heroically, detailed armor, dramatic lighting
Generate

Resultado: Caballero de fantasía con la MISMA POSE que tu foto de referencia.

📦 Modelos custom: Especializa tu IA

Stable Diffusion puede cargarse con modelos entrenados para estilos específicos.

Dónde descargar modelos

CivitAI: civitai.com (mayor catálogo, incluye NSFW)
HuggingFace: huggingface.co (modelos oficiales y community)

Modelos populares por categoría

Realismo fotográfico:

Realistic Vision V5.1
Deliberate V2
ChilloutMix

Arte y concepto:

Dreamshaper
Anything V5
MeinaMix

Anime:

Anything V3/V4/V5
Counterfeit V2.5
AbyssOrangeMix

Arquitectura:

ArchitectureExterior
ArchitectureInterior

Instalar modelos

Descarga archivo .safetensors o .ckpt
Guárdalo en models/Stable-diffusion/
En WebUI, recarga modelos (esquina superior izquierda, icono de refresh)
Selecciona el modelo del dropdown

🚀 Optimización y troubleshooting

Reducir uso de VRAM

Si tu GPU se queda sin memoria, edita webui-user.bat (Windows) o webui-user.sh (Linux):

set COMMANDLINE_ARGS=--medvram

O para GPUs muy limitadas (<6GB):

set COMMANDLINE_ARGS=--lowvram

Otras opciones útiles:

set COMMANDLINE_ARGS=--xformers --opt-split-attention

xformers: Acelera generación (requiere instalación: pip install xformers)

Problemas comunes

Error: «CUDA out of memory»

Soluciones:

Reduce resolución (512×512 en lugar de 768×768)
Baja batch size a 1
Activa --medvram o --lowvram
Cierra otros programas que usan GPU

Imágenes borrosas o baja calidad

Sube sampling steps a 30-40
Añade «highly detailed, 8k, sharp focus» al prompt
Mejora el negative prompt
Prueba otro sampler (DPM++ 2M Karras)

Manos/caras raras

Usa modelos entrenados con mejor dataset (ej: Realistic Vision)
Añade «poorly drawn hands» al negative prompt
Usa inpainting para corregir manualmente
Prueba con ControlNet OpenPose para poses específicas

❓ FAQs sobre Stable Diffusion

¿Puedo vender las imágenes que genero?

Sí, Stable Diffusion tiene licencia open source (CreativeML Open RAIL-M) que permite uso comercial. Sin embargo, verifica la licencia del modelo específico que uses (algunos modelos custom tienen restricciones). Los modelos oficiales de Stability AI permiten uso comercial.

¿Necesito internet para usar Stable Diffusion?

Solo para la instalación inicial (descargar modelos y dependencias). Una vez instalado, funciona 100% offline. No envía datos a ningún servidor externo, todo se procesa localmente.

¿Puedo usar Stable Diffusion en Mac con chip M1/M2?

Sí, AUTOMATIC1111 soporta Mac Silicon. Instalación:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

El script detecta automáticamente el chip y usa MPS (Metal Performance Shaders). Rendimiento: M1/M2 más lento que GPUs NVIDIA de gama media, pero funcional.

¿Qué diferencia hay entre .safetensors y .ckpt?

.safetensors: Formato nuevo, más seguro (no puede ejecutar código malicioso), carga más rápido. Recomendado.

.ckpt/.pth: Formato antiguo basado en Pickle de Python, puede contener código ejecutable (riesgo de seguridad). Evita descargar de fuentes no confiables.

¿Puedo mezclar modelos?

Sí, en la pestaña Checkpoint Merger de WebUI puedes fusionar dos modelos con diferentes ratios (ej: 70% Realistic Vision + 30% Anime). Útil para crear estilos híbridos personalizados.

¿Qué es un VAE y cuándo necesito uno?

VAE (Variational Autoencoder) es un componente que afecta colores y detalles finales. Algunos modelos incluyen VAE integrado, otros requieren uno externo.

Descarga: SD VAE oficial

Guarda en models/VAE/ y selecciónalo en Settings → SD VAE.

Síntoma de VAE incorrecto: Imágenes con colores apagados/grises. Solución: Cambiar VAE.

¿Cómo hago upscale de imágenes pequeñas?

Pestaña Extras:

Carga tu imagen 512×512
Selecciona upscaler: R-ESRGAN 4x+ (mejor calidad) o Lanczos (rápido)
Scale: 2x o 4x
Clic en Generate

Resultado: Imagen 2048×2048 (si usaste 4x) con detalles mejorados.

¿Qué son los LoRA y Textual Inversions?

LoRA (Low-Rank Adaptation): Pequeños archivos (20-200MB) que añaden conceptos específicos sin reemplazar el modelo completo. Ej: LoRA de un personaje, estilo artístico, o pose.

Instalación: Guarda en models/Lora/, activa en prompt con <lora:nombre:peso>

Textual Inversion/Embeddings: Archivos pequeños (~100KB) que definen nuevos tokens/palabras. Ej: «estilo de Van Gogh».

Instalación: Guarda en embeddings/, usa en prompt con el nombre del archivo.

¿Puedo entrenar mi propio modelo?

Sí, pero requiere:

GPU potente: RTX 3090/4090 con 24GB VRAM (o cloud GPU como RunPod)
Dataset: 50-200 imágenes del concepto a entrenar
Software: Kohya_ss (GUI para entrenar LoRAs) o Dreambooth
Tiempo: 2-12 horas de entrenamiento

Más fácil: Entrena un LoRA en lugar de un modelo completo (menos VRAM, más rápido).

¿Hay versión móvil de Stable Diffusion?

Sí, pero limitadas:

Android: «Diffusion Bee» (requiere smartphone potente)
iOS: «Draw Things» (optimizado para iPhone 12+)

Rendimiento: 1-5 minutos por imagen 512×512. Mejor opción: Usa un PC/servidor y accede remotamente.

¿Cómo comparto mi WebUI con otros en mi red local?

Edita webui-user.bat:

set COMMANDLINE_ARGS=--listen --enable-insecure-extension-access

Reinicia WebUI. Ahora otros dispositivos en tu red pueden acceder vía http://IP_DE_TU_PC:7860

⚠️ No expongas a internet sin autenticación (riesgo de seguridad).

¿Cuánto tarda en generar una imagen?

Depende de tu GPU:

RTX 4090: 2-4 segundos (512×512, 25 steps)
RTX 3060: 8-12 segundos
GTX 1660: 20-30 segundos
CPU (sin GPU): 5-10 minutos

Resoluciones mayores (1024×1024) tardan 4x más.

🎸 Resumen punk

Stable Diffusion instalado localmente te da poder creativo ilimitado: genera arte, prototipos, conceptos, memes, lo que quieras, sin censura, sin cuotas, sin límites.

La curva de aprendizaje inicial puede parecer empinada, pero una vez dominas prompts básicos y parámetros clave, las posibilidades son infinitas. Experimenta, mezcla modelos, prueba extensiones como ControlNet, y sobre todo: diviértete creando.

Recursos esenciales:

AUTOMATIC1111 GitHub
CivitAI (modelos, LoRAs, tutoriales)
Reddit r/StableDiffusion (comunidad activa)
Stable Diffusion Art (guías y recursos)

¡A generar arte con IA! 🎨🤖

🎨 Guía punk definitiva: Stable Diffusion en local para humanos (y robots con cresta)

🎨 Stable Diffusion Local: Genera Arte con IA en Tu PC Sin Censura

⚡ ¿Qué es Stable Diffusion y por qué instalarlo en local?

Ventajas de la instalación local

💻 Requisitos de hardware

🔧 Instalación de AUTOMATIC1111 WebUI (Windows)

Paso 1: Instalar dependencias

Paso 2: Clonar repositorio

Paso 3: Descargar un modelo base

Paso 4: Ejecutar la WebUI

Paso 5: Abrir la interfaz

🐧 Instalación en Linux

Paso 1: Instalar dependencias

Paso 2: Clonar repo y ejecutar

GPU NVIDIA con CUDA

GPU AMD con ROCm (experimental)

🎨 Tu primera imagen: Conceptos básicos

Interfaz de AUTOMATIC1111

Ejemplo de prompt básico

📝 Escribir prompts efectivos

Estructura recomendada

Ejemplos de prompts avanzados

Palabras clave útiles

Negative prompt imprescindible

⚙️ Parámetros clave explicados

Sampling Steps

CFG Scale (Classifier Free Guidance)

Sampler (Sampling Method)

Seed

🖼️ img2img: Transforma imágenes existentes

Proceso básico

Ejemplo práctico

🎨 Inpainting: Edita partes de una imagen

Cómo usarlo

Ejemplo práctico

🕹️ ControlNet: Control preciso de composición

Instalación de ControlNet

Modos de ControlNet

Ejemplo: Copiar pose de una foto

📦 Modelos custom: Especializa tu IA

Dónde descargar modelos

Modelos populares por categoría

Instalar modelos

🚀 Optimización y troubleshooting

Reducir uso de VRAM

Problemas comunes

❓ FAQs sobre Stable Diffusion

¿Puedo vender las imágenes que genero?

¿Necesito internet para usar Stable Diffusion?

¿Puedo usar Stable Diffusion en Mac con chip M1/M2?

¿Qué diferencia hay entre .safetensors y .ckpt?

¿Puedo mezclar modelos?

¿Qué es un VAE y cuándo necesito uno?

¿Cómo hago upscale de imágenes pequeñas?

¿Qué son los LoRA y Textual Inversions?

¿Puedo entrenar mi propio modelo?

¿Hay versión móvil de Stable Diffusion?

¿Cómo comparto mi WebUI con otros en mi red local?

¿Cuánto tarda en generar una imagen?

🎸 Resumen punk

Por ziru

Entradas relacionadas

AutoGen: Multi-Agent en Homelab con Ollama (Guía 2026)

MCP (Model Context Protocol): Guía Completa para Conectar Herramientas con IA (2026)

OpenClaw: Guía Completa del Asistente IA de Código Abierto 2026

Te has perdido

AutoGen: Multi-Agent en Homelab con Ollama (Guía 2026)

MCP (Model Context Protocol): Guía Completa para Conectar Herramientas con IA (2026)

OpenClaw: Guía Completa del Asistente IA de Código Abierto 2026

AutoGPT: Agentes Autónomos con Auto-Loop | Guía Completa 2026