🎨 Stable Diffusion Local: Genera Arte con IA en Tu PC Sin Censura

¿Quieres crear imágenes alucinantes con inteligencia artificial sin depender de servicios online, sin limitaciones, sin censura y sin pagar cuotas mensuales? Stable Diffusion instalado localmente en tu PC es la respuesta.

Esta guía te enseña desde cero a instalar y usar Stable Diffusion con AUTOMATIC1111 WebUI (la interfaz más popular), optimizar parámetros, escribir prompts efectivos, y aprovechar funciones avanzadas como img2img, inpainting y ControlNet.

⚡ ¿Qué es Stable Diffusion y por qué instalarlo en local?

Stable Diffusion (SD) es un modelo de IA open source que convierte texto en imágenes. A diferencia de DALL-E (OpenAI) o Midjourney (pago), SD puedes instalarlo gratis en tu PC y hacer lo que quieras con él.

Ventajas de la instalación local

  • Sin censura: Genera cualquier tipo de contenido (artístico, NSFW, político) sin filtros
  • Privacidad total: Tus prompts e imágenes nunca salen de tu PC
  • Gratis: No pagas cuotas mensuales ni créditos por imagen
  • Modelos custom: Instala modelos especializados (realismo, anime, arte, arquitectura)
  • Control total: Ajusta todos los parámetros sin limitaciones
  • Offline: Funciona sin internet una vez instalado

💻 Requisitos de hardware

Stable Diffusion es exigente con la GPU. Aquí los requisitos reales:

Componente Mínimo Recomendado Ideal
GPU (NVIDIA) GTX 1060 6GB RTX 3060 12GB RTX 4090 24GB
GPU (AMD) RX 580 8GB RX 6700 XT 12GB RX 7900 XTX 24GB
VRAM 4GB (512×512) 8-12GB (768×768) 16-24GB (1024×1024+)
RAM 8GB 16GB 32GB+
Almacenamiento 20GB 100GB SSD 500GB+ SSD NVMe
CPU i5/Ryzen 5 i7/Ryzen 7 i9/Ryzen 9

⚠️ Sin GPU dedicada: Puedes usar CPU (muy lento, 5-10 min por imagen) o Google Colab gratis (con limitaciones de tiempo).

Tarjetas NVIDIA funcionan mejor gracias a CUDA. AMD con ROCm funciona, pero requiere más configuración.

🔧 Instalación de AUTOMATIC1111 WebUI (Windows)

AUTOMATIC1111 es la interfaz más usada para Stable Diffusion. Instalación en 5 pasos:

Paso 1: Instalar dependencias

  1. Python 3.10.6 (versión exacta recomendada):
    Descarga desde python.org
    ⚠️ Marca «Add Python to PATH» durante instalación
  2. Git:
    Descarga desde git-scm.com

Paso 2: Clonar repositorio

Abre PowerShell o CMD en la carpeta donde quieras instalarlo:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

Paso 3: Descargar un modelo base

Los modelos se guardan en models/Stable-diffusion/. Opciones populares:

Descarga el archivo .safetensors o .ckpt y guárdalo en models/Stable-diffusion/.

Paso 4: Ejecutar la WebUI

Doble clic en webui-user.bat (Windows). La primera vez descarga dependencias (5-10 min).

Verás en la consola:

Running on local URL:  http://127.0.0.1:7860

Paso 5: Abrir la interfaz

Abre tu navegador en http://127.0.0.1:7860. 🎉 ¡Ya está funcionando!

🐧 Instalación en Linux

Paso 1: Instalar dependencias

sudo apt update
sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0

Paso 2: Clonar repo y ejecutar

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

El script instala todo automáticamente. Primera ejecución: 10-15 min.

GPU NVIDIA con CUDA

Instala drivers NVIDIA y CUDA Toolkit:

sudo apt install nvidia-driver-535 nvidia-cuda-toolkit

Verifica instalación:

nvidia-smi

GPU AMD con ROCm (experimental)

Sigue la guía oficial de ROCm: AMD ROCm Docs

Luego ejecuta WebUI con:

export HSA_OVERRIDE_GFX_VERSION=10.3.0
./webui.sh

🎨 Tu primera imagen: Conceptos básicos

Interfaz de AUTOMATIC1111

La pestaña principal txt2img tiene:

  • Prompt: Describe lo que quieres generar
  • Negative prompt: Describe lo que NO quieres (defectos comunes)
  • Sampling steps: Iteraciones de refinado (20-30 es suficiente)
  • Sampling method: Algoritmo (Euler a, DPM++ 2M Karras son buenos)
  • CFG Scale: Adherencia al prompt (7-10 normal, más = literal, menos = creativo)
  • Width/Height: Resolución (512×512 para SD 1.5, 1024×1024 para SDXL)
  • Batch size: Imágenes simultáneas (usa tu VRAM)
  • Seed: Semilla aleatoria (fija para reproducir misma imagen)

Ejemplo de prompt básico

Prompt:

a majestic lion standing on a cliff at sunset, digital art, highly detailed, dramatic lighting, warm colors

Negative prompt:

ugly, blurry, low quality, distorted, watermark, text, signature

Parámetros:

  • Steps: 25
  • Sampler: DPM++ 2M Karras
  • CFG Scale: 7
  • Size: 512×512

Clic en Generate. En 5-30 segundos (según GPU) tendrás tu imagen.

📝 Escribir prompts efectivos

Estructura recomendada

[Sujeto principal], [acción/pose], [entorno/fondo], [estilo artístico], [calidad/detalles], [iluminación], [colores]

Ejemplos de prompts avanzados

Retrato realista:

portrait of a young woman with red hair, green eyes, freckles, wearing a leather jacket, urban street background, golden hour lighting, photorealistic, 8k, sharp focus, bokeh

Paisaje fantástico:

fantasy castle on floating island, waterfalls cascading into clouds, dragons flying in sky, dramatic sunset, epic scale, concept art, trending on artstation, highly detailed

Arte anime:

anime girl with blue hair, twin tails, school uniform, sitting in classroom, soft lighting, studio ghibli style, detailed eyes, colorful, high quality

Palabras clave útiles

  • Calidad: masterpiece, best quality, highly detailed, 8k, sharp focus
  • Estilo: photorealistic, oil painting, digital art, concept art, anime
  • Iluminación: dramatic lighting, soft light, golden hour, rim lighting, volumetric fog
  • Composición: rule of thirds, centered, wide angle, close-up, isometric

Negative prompt imprescindible

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, blurry, bad anatomy, blurred, watermark, grainy, signature, cut off, draft, duplicate, distortion of proportions, anatomy, copy, multi, two faces, disfigured, kitsch, oversaturated, grain, low-res, mutation, mutated, extra limb, missing limb, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, disgusting, childish, mutilated, mangled, old, heterochromia, dots, bad quality, weapons, NSFW, draft

⚙️ Parámetros clave explicados

Sampling Steps

Número de iteraciones de refinado. Más steps = más detalle pero más tiempo.

  • 15-20: Bocetos rápidos
  • 25-35: Calidad normal (recomendado)
  • 50+: Raramente mejora resultados (pérdida de tiempo)

CFG Scale (Classifier Free Guidance)

Cuánto caso hace la IA a tu prompt.

  • 1-5: Muy creativo, ignora el prompt
  • 7-10: Balance perfecto (recomendado)
  • 15-20: Literal, puede sobresaturar colores y distorsionar
  • 20+: Resultados raros, evita

Sampler (Sampling Method)

Algoritmo de difusión. Los más usados:

  • Euler a: Rápido, algo de variación
  • DPM++ 2M Karras: Calidad excelente, versátil
  • DPM++ SDE Karras: Alta calidad, más lento
  • DDIM: Resultados consistentes, bueno para img2img

Experimenta para ver cuál prefieres. DPM++ 2M Karras es un buen punto de partida.

Seed

Número que controla la aleatoriedad. Misma seed + mismo prompt = misma imagen.

  • -1: Seed aleatoria (por defecto)
  • Número fijo: Reproducir resultados o hacer variaciones controladas

Truco: Genera una imagen que te guste, copia su seed, y haz variaciones cambiando ligeramente el prompt.

🖼️ img2img: Transforma imágenes existentes

La pestaña img2img permite partir de una imagen (foto, boceto, screenshot) y transformarla según tu prompt.

Proceso básico

  1. Ve a la pestaña img2img
  2. Arrastra tu imagen de referencia
  3. Escribe un prompt describiendo el resultado deseado
  4. Ajusta Denoising strength:
    • 0.3-0.5: Cambios sutiles (mantiene composición)
    • 0.6-0.8: Cambios moderados
    • 0.9-1.0: Cambio radical (casi ignora imagen original)
  5. Generate

Ejemplo práctico

Imagen original: Foto de tu cara

Prompt:

portrait in style of renaissance painting, oil on canvas, detailed brush strokes, museum quality

Denoising: 0.6

Resultado: Tu cara convertida en retrato renacentista manteniendo tus rasgos.

🎨 Inpainting: Edita partes de una imagen

Inpainting permite borrar/cambiar zonas específicas de una imagen.

Cómo usarlo

  1. Pestaña img2img → Inpaint
  2. Carga tu imagen
  3. Pinta con el pincel sobre la zona a cambiar
  4. Escribe prompt describiendo QUÉ quieres en esa zona
  5. Ajusta Inpaint area: «Only masked» (solo zona pintada) o «Whole picture»
  6. Generate

Ejemplo práctico

Caso: Tienes un retrato pero las manos salieron mal (típico de Stable Diffusion).

  1. Pinta sobre las manos raras
  2. Prompt: detailed realistic hands, fingers, natural pose
  3. Denoising: 0.7
  4. Generate

La IA regenera solo esa zona, corrigiendo las manos.

🕹️ ControlNet: Control preciso de composición

ControlNet es una extensión que permite controlar la estructura de la imagen usando referencias (poses, líneas, profundidad).

Instalación de ControlNet

  1. En WebUI, ve a Extensions → Install from URL
  2. URL: https://github.com/Mikubill/sd-webui-controlnet
  3. Clic en Install
  4. Reinicia WebUI
  5. Descarga modelos ControlNet desde HuggingFace ControlNet
  6. Guárdalos en extensions/sd-webui-controlnet/models/

Modos de ControlNet

  • Canny: Detección de bordes (copiar composición)
  • Depth: Mapa de profundidad (mantener perspectiva 3D)
  • OpenPose: Copiar poses humanas
  • Scribble: Partir de un boceto a mano alzada

Ejemplo: Copiar pose de una foto

  1. Activa ControlNet en txt2img
  2. Carga foto de referencia (persona en pose específica)
  3. Selecciona preprocessor: OpenPose
  4. Prompt: fantasy knight in armor, standing heroically, detailed armor, dramatic lighting
  5. Generate

Resultado: Caballero de fantasía con la MISMA POSE que tu foto de referencia.

📦 Modelos custom: Especializa tu IA

Stable Diffusion puede cargarse con modelos entrenados para estilos específicos.

Dónde descargar modelos

Modelos populares por categoría

Realismo fotográfico:

  • Realistic Vision V5.1
  • Deliberate V2
  • ChilloutMix

Arte y concepto:

  • Dreamshaper
  • Anything V5
  • MeinaMix

Anime:

  • Anything V3/V4/V5
  • Counterfeit V2.5
  • AbyssOrangeMix

Arquitectura:

  • ArchitectureExterior
  • ArchitectureInterior

Instalar modelos

  1. Descarga archivo .safetensors o .ckpt
  2. Guárdalo en models/Stable-diffusion/
  3. En WebUI, recarga modelos (esquina superior izquierda, icono de refresh)
  4. Selecciona el modelo del dropdown

🚀 Optimización y troubleshooting

Reducir uso de VRAM

Si tu GPU se queda sin memoria, edita webui-user.bat (Windows) o webui-user.sh (Linux):

set COMMANDLINE_ARGS=--medvram

O para GPUs muy limitadas (<6GB):

set COMMANDLINE_ARGS=--lowvram

Otras opciones útiles:

set COMMANDLINE_ARGS=--xformers --opt-split-attention

xformers: Acelera generación (requiere instalación: pip install xformers)

Problemas comunes

Error: «CUDA out of memory»

Soluciones:

  • Reduce resolución (512×512 en lugar de 768×768)
  • Baja batch size a 1
  • Activa --medvram o --lowvram
  • Cierra otros programas que usan GPU

Imágenes borrosas o baja calidad

  • Sube sampling steps a 30-40
  • Añade «highly detailed, 8k, sharp focus» al prompt
  • Mejora el negative prompt
  • Prueba otro sampler (DPM++ 2M Karras)

Manos/caras raras

  • Usa modelos entrenados con mejor dataset (ej: Realistic Vision)
  • Añade «poorly drawn hands» al negative prompt
  • Usa inpainting para corregir manualmente
  • Prueba con ControlNet OpenPose para poses específicas

❓ FAQs sobre Stable Diffusion

¿Puedo vender las imágenes que genero?

Sí, Stable Diffusion tiene licencia open source (CreativeML Open RAIL-M) que permite uso comercial. Sin embargo, verifica la licencia del modelo específico que uses (algunos modelos custom tienen restricciones). Los modelos oficiales de Stability AI permiten uso comercial.

¿Necesito internet para usar Stable Diffusion?

Solo para la instalación inicial (descargar modelos y dependencias). Una vez instalado, funciona 100% offline. No envía datos a ningún servidor externo, todo se procesa localmente.

¿Puedo usar Stable Diffusion en Mac con chip M1/M2?

Sí, AUTOMATIC1111 soporta Mac Silicon. Instalación:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

El script detecta automáticamente el chip y usa MPS (Metal Performance Shaders). Rendimiento: M1/M2 más lento que GPUs NVIDIA de gama media, pero funcional.

¿Qué diferencia hay entre .safetensors y .ckpt?

.safetensors: Formato nuevo, más seguro (no puede ejecutar código malicioso), carga más rápido. Recomendado.

.ckpt/.pth: Formato antiguo basado en Pickle de Python, puede contener código ejecutable (riesgo de seguridad). Evita descargar de fuentes no confiables.

¿Puedo mezclar modelos?

Sí, en la pestaña Checkpoint Merger de WebUI puedes fusionar dos modelos con diferentes ratios (ej: 70% Realistic Vision + 30% Anime). Útil para crear estilos híbridos personalizados.

¿Qué es un VAE y cuándo necesito uno?

VAE (Variational Autoencoder) es un componente que afecta colores y detalles finales. Algunos modelos incluyen VAE integrado, otros requieren uno externo.

Descarga: SD VAE oficial

Guarda en models/VAE/ y selecciónalo en Settings → SD VAE.

Síntoma de VAE incorrecto: Imágenes con colores apagados/grises. Solución: Cambiar VAE.

¿Cómo hago upscale de imágenes pequeñas?

Pestaña Extras:

  1. Carga tu imagen 512×512
  2. Selecciona upscaler: R-ESRGAN 4x+ (mejor calidad) o Lanczos (rápido)
  3. Scale: 2x o 4x
  4. Clic en Generate

Resultado: Imagen 2048×2048 (si usaste 4x) con detalles mejorados.

¿Qué son los LoRA y Textual Inversions?

LoRA (Low-Rank Adaptation): Pequeños archivos (20-200MB) que añaden conceptos específicos sin reemplazar el modelo completo. Ej: LoRA de un personaje, estilo artístico, o pose.

Instalación: Guarda en models/Lora/, activa en prompt con <lora:nombre:peso>

Textual Inversion/Embeddings: Archivos pequeños (~100KB) que definen nuevos tokens/palabras. Ej: «estilo de Van Gogh».

Instalación: Guarda en embeddings/, usa en prompt con el nombre del archivo.

¿Puedo entrenar mi propio modelo?

Sí, pero requiere:

  • GPU potente: RTX 3090/4090 con 24GB VRAM (o cloud GPU como RunPod)
  • Dataset: 50-200 imágenes del concepto a entrenar
  • Software: Kohya_ss (GUI para entrenar LoRAs) o Dreambooth
  • Tiempo: 2-12 horas de entrenamiento

Más fácil: Entrena un LoRA en lugar de un modelo completo (menos VRAM, más rápido).

¿Hay versión móvil de Stable Diffusion?

Sí, pero limitadas:

  • Android: «Diffusion Bee» (requiere smartphone potente)
  • iOS: «Draw Things» (optimizado para iPhone 12+)

Rendimiento: 1-5 minutos por imagen 512×512. Mejor opción: Usa un PC/servidor y accede remotamente.

¿Cómo comparto mi WebUI con otros en mi red local?

Edita webui-user.bat:

set COMMANDLINE_ARGS=--listen --enable-insecure-extension-access

Reinicia WebUI. Ahora otros dispositivos en tu red pueden acceder vía http://IP_DE_TU_PC:7860

⚠️ No expongas a internet sin autenticación (riesgo de seguridad).

¿Cuánto tarda en generar una imagen?

Depende de tu GPU:

  • RTX 4090: 2-4 segundos (512×512, 25 steps)
  • RTX 3060: 8-12 segundos
  • GTX 1660: 20-30 segundos
  • CPU (sin GPU): 5-10 minutos

Resoluciones mayores (1024×1024) tardan 4x más.

🎸 Resumen punk

Stable Diffusion instalado localmente te da poder creativo ilimitado: genera arte, prototipos, conceptos, memes, lo que quieras, sin censura, sin cuotas, sin límites.

La curva de aprendizaje inicial puede parecer empinada, pero una vez dominas prompts básicos y parámetros clave, las posibilidades son infinitas. Experimenta, mezcla modelos, prueba extensiones como ControlNet, y sobre todo: diviértete creando.

Recursos esenciales:

¡A generar arte con IA! 🎨🤖

Por ziru

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
El Diario IA
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.