Instala Whisper con Docker en tu RTX 5090: Transcripción Local Gratis
¿Tienes una NVIDIA RTX 5090, 5080 o 5070 y quieres aprovecharla al máximo? Hoy te enseño a montar un stack de transcripción de audio/video a texto completamente local y gratuito usando Whisper de OpenAI.
Olvídate de pagar $0.36 por hora a servicios cloud. Con este setup transcribirás 20 veces más rápido que el tiempo real, sin límites y sin enviar tus datos a ningún sitio.
Lo que lograrás:
- Transcribir videos de YouTube a texto en minutos
- Convertir podcasts en artículos de blog
- Generar subtítulos automáticos para tus videos
- Todo 100% gratis, sin límites, en tu GPU
¿Qué es Whisper y por qué montarlo local?
Whisper es el modelo de reconocimiento de voz de OpenAI. Es open source, soporta 99+ idiomas y tiene una precisión del 95-98% en español.
Comparación: Local vs Cloud
Aspecto | Whisper Local (RTX 5000) | OpenAI API | AssemblyAI |
---|---|---|---|
Coste/hora | €0 🎉 | $0.36 | $0.65 |
Velocidad | ~3 min/h (20x) | ~2 min/h | ~3 min/h |
Privacidad | 100% local | Cloud | Cloud |
Límites | Ninguno | Rate limits | Rate limits |
Offline | ✅ Funciona | ❌ No | ❌ No |
ROI: Si transcribes 10 horas de audio al mes, con OpenAI pagarías $43.20/año. Con tu RTX 5090: €0/año.
Este setup de Whisper local es ideal si tienes un servidor IA casero con GPU NVIDIA, ya que aprovechas el hardware que ya tienes para múltiples tareas (LLMs, generación de imágenes, transcripción).
Requisitos: ¿Qué necesitas?
Hardware
- GPU NVIDIA RTX 5000 series (5090, 5080, 5070) o cualquier GPU con 10GB+ VRAM
- 32GB RAM recomendado (mínimo 16GB)
- 50GB espacio libre en disco (para modelos cacheados)
Si estás montando tu setup desde cero, te recomiendo nuestra guía completa para montar tu homelab desde cero, donde cubrimos desde la selección de hardware hasta la configuración básica.
Software
- Linux (Ubuntu 22.04+, Debian 12+) – También funciona en Windows con WSL2
- Docker instalado
- Drivers NVIDIA actualizados (550+)
- CUDA 12.0+
Verificar tu GPU
# Verificar que tu GPU está detectada
nvidia-smi
# Deberías ver algo así:
# +-----------------------------------------------------------------------------------------+
# | NVIDIA-SMI 550.54.15 Driver Version: 550.54.15 CUDA Version: 13.0 |
# +-----------------------------------------------------------------------------------------+
# | 0 NVIDIA GeForce RTX 5090 Off | 00000000:01:00.0 On | N/A |
# | 32GB / 32768MB |
Si ves tu RTX 5090 (o 5080/5070), ¡estás listo!
Paso 1: Instalar Docker (si no lo tienes)
# Actualizar sistema
sudo apt update && sudo apt upgrade -y
# Instalar Docker
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
# Añadir usuario al grupo docker
sudo usermod -aG docker $USER
# Aplicar cambios (o reinicia sesión)
newgrp docker
# Verificar instalación
docker --version
# Docker version 24.0.7, build afdd53b
Nota: Si después de añadirte al grupo docker sigues teniendo el error «permission denied», consulta nuestra guía completa para solucionar Docker permission denied en 3 minutos.
Paso 2: Instalar NVIDIA Container Toolkit
Este es el componente crítico que permite a Docker usar tu GPU NVIDIA.
# Añadir repositorio NVIDIA
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
echo "deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] \
https://nvidia.github.io/libnvidia-container/stable/deb/$(dpkg --print-architecture) /" | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# Instalar
sudo apt update
sudo apt install -y nvidia-container-toolkit
# Configurar Docker para usar GPU
sudo nvidia-ctk runtime configure --runtime=docker
# Reiniciar Docker
sudo systemctl restart docker
Verificar que Docker puede usar la GPU
# Test rápido
docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi
# Si ves el output de nvidia-smi, ¡funciona! ✅
Paso 3: Crear el Stack de Whisper
Estructura del Proyecto
# Crear directorio
mkdir -p ~/whisper-stack
cd ~/whisper-stack
# Crear subdirectorios
mkdir -p whisper-models whisper-uploads whisper-output
Crear docker-compose.yml
Crea un archivo llamado docker-compose.yml
con este contenido:
services:
whisper-api:
image: onerahmet/openai-whisper-asr-webservice:latest-gpu
container_name: whisper-api
ports:
- "9000:9000"
environment:
- ASR_MODEL=large-v3
- ASR_ENGINE=faster_whisper
- ASR_MODEL_PATH=/models
volumes:
- ./whisper-models:/models
- ./whisper-uploads:/uploads
- ./whisper-output:/output
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped
¿Qué hace cada cosa?
ASR_MODEL=large-v3
: Modelo más preciso de OpenAI (95-98% precisión)ASR_ENGINE=faster_whisper
: Motor optimizado con CTranslate2 (2-4x más rápido)count: all
: Usa todas las GPUs disponiblesports: 9000
: API REST accesible en http://localhost:9000
Paso 4: Iniciar el Stack
# Iniciar en modo background
docker compose up -d
# Ver logs (primera vez descarga ~10GB de modelo)
docker logs -f whisper-api
# Espera a ver este mensaje:
# INFO: Application startup complete.
# INFO: Uvicorn running on http://0.0.0.0:9000
Primera vez: Descarga el modelo large-v3 (~10GB). Puede tardar 5-15 minutos dependiendo de tu conexión.
Siguientes veces: Inicia en segundos (modelo ya cacheado).
Verificar que Funciona
# Test API
curl http://localhost:9000/docs
# Si ves la documentación Swagger, ¡funciona! ✅
# Verificar GPU dentro del container
docker exec whisper-api nvidia-smi
# Deberías ver tu RTX 5090 listada
Paso 5: Primera Transcripción
Método 1: Con un Audio Local
# Coloca un audio en whisper-uploads/
cp /ruta/a/tu/audio.mp3 whisper-uploads/
# Transcribir
curl -X POST http://localhost:9000/asr \
-F "audio_file=@whisper-uploads/audio.mp3" \
-F "task=transcribe" \
-F "language=es" \
-F "output=txt" \
> transcripcion.txt
# Ver resultado
cat transcripcion.txt
Método 2: Desde YouTube (más útil)
Primero instala yt-dlp:
# Instalar yt-dlp
pip3 install yt-dlp
# O con apt (Ubuntu/Debian)
sudo apt install yt-dlp
Crea un script llamado youtube_to_text.sh
:
#!/bin/bash
# youtube_to_text.sh - Descarga y transcribe video de YouTube
VIDEO_URL="$1"
LANGUAGE="${2:-es}"
echo "📺 Descargando audio de: $VIDEO_URL"
# Descargar audio
yt-dlp -x --audio-format mp3 \
--audio-quality 0 \
-o "whisper-uploads/%(title)s.%(ext)s" \
"$VIDEO_URL"
# Encontrar archivo descargado
AUDIO_FILE=$(ls -t whisper-uploads/*.mp3 | head -1)
echo "✅ Audio descargado: $AUDIO_FILE"
# Transcribir
echo "📝 Transcribiendo..."
curl -s -X POST http://localhost:9000/asr \
-F "audio_file=@$AUDIO_FILE" \
-F "language=$LANGUAGE" \
-F "output=txt" \
> "${AUDIO_FILE%.mp3}.txt"
echo "✅ Transcripción guardada: ${AUDIO_FILE%.mp3}.txt"
# Mostrar primeras líneas
head -20 "${AUDIO_FILE%.mp3}.txt"
Hazlo ejecutable y úsalo:
# Hacer ejecutable
chmod +x youtube_to_text.sh
# Usar
./youtube_to_text.sh "https://www.youtube.com/watch?v=VIDEO_ID" es
# Ejemplo real (video de 19 min):
./youtube_to_text.sh "https://www.youtube.com/watch?v=aircAruvnKk" en
# Resultado:
# 📺 Descargando audio de: https://www.youtube.com/watch?v=aircAruvnKk
# ✅ Audio descargado: whisper-uploads/But what is a neural network.mp3
# 📝 Transcribiendo...
# ✅ Transcripción guardada en ~58 segundos
# ~3,700 palabras transcritas con 98% precisión
Casos de Uso Prácticos
1. Crear Artículos de Blog desde YouTube
# Transcribir video técnico
./youtube_to_text.sh "https://www.youtube.com/watch?v=abc123" es
# Editar transcripción:
# - Añadir introducción personalizada
# - Insertar ejemplos de código
# - Crear secciones con ## subtítulos
# - Optimizar para SEO
# - Publicar en WordPress
# Tiempo total: 45-75 min (vs 4-6h escribiendo desde cero)
2. Generar Subtítulos Automáticos
# Extraer audio de tu video
ffmpeg -i tutorial.mp4 -vn -acodec mp3 audio.mp3
# Generar subtítulos SRT
curl -X POST http://localhost:9000/asr \
-F "audio_file=@audio.mp3" \
-F "language=es" \
-F "output=srt" \
> subtitulos.srt
# Incrustar en video
ffmpeg -i tutorial.mp4 -i subtitulos.srt \
-c copy -c:s mov_text \
tutorial_con_subs.mp4
3. Transcribir Podcasts
# Descargar podcast
wget https://podcast.com/episode.mp3 -O whisper-uploads/podcast.mp3
# Transcribir
curl -X POST http://localhost:9000/asr \
-F "audio_file=@whisper-uploads/podcast.mp3" \
-F "language=es" \
-F "output=json" \
| python3 -m json.tool > podcast.json
# Ahora tienes transcripción con timestamps para crear artículo
Integración con n8n: Automatización Total
La API de Whisper en localhost:9000 es perfecta para n8n. Puedes crear workflows que automatizan completamente el proceso de generar contenido desde videos.
Si eres nuevo en n8n, te recomiendo empezar por nuestra guía de los 15 nodos clave de n8n para entender los bloques fundamentales. Y si quieres ver ejemplos prácticos, tenemos 20 workflows listos para usar que puedes adaptar a tus necesidades.
Workflow 1: YouTube → Transcripción → WordPress (Automático)
Descripción: Cada vez que se publica un video en un canal de YouTube que sigues, automáticamente descarga el audio, lo transcribe con Whisper y crea un draft en WordPress.
Nodos necesarios:
- RSS Feed Trigger – Monitorea canal YouTube
- Execute Command (yt-dlp) – Descarga audio
- HTTP Request (Whisper) – Transcribe
- Execute Command (limpieza) – Elimina repeticiones
- HTTP Request (WordPress) – Crea draft
- Telegram – Notifica
Configuración Paso a Paso
Node 1: RSS Feed Trigger
{
"url": "https://www.youtube.com/feeds/videos.xml?channel_id=CHANNEL_ID",
"pollTime": 3600
}
Node 2: Execute Command (Descargar Audio)
// Command
const videoUrl = $json["link"];
const outputDir = "/home/z/whisper-stack/whisper-uploads";
return {
json: {
command: `yt-dlp -x --audio-format mp3 --audio-quality 0 -o "${outputDir}/%(title)s.%(ext)s" "${videoUrl}" && ls -t ${outputDir}/*.mp3 | head -1`
}
};
Node 3: HTTP Request (Whisper API)
Este es el nodo clave. Configúralo así:
{
"method": "POST",
"url": "http://localhost:9000/asr",
"authentication": "none",
"sendBody": true,
"contentType": "multipart-form-data",
"bodyParameters": {
"parameters": [
{
"name": "audio_file",
"value": "={{$node[\"Execute Command\"].json[\"stdout\"].trim()}}",
"parameterType": "formBinaryData"
},
{
"name": "task",
"value": "transcribe"
},
{
"name": "language",
"value": "es"
},
{
"name": "output",
"value": "txt"
}
]
},
"options": {
"timeout": 600000,
"response": {
"response": {
"fullResponse": false,
"neverError": false,
"responseFormat": "text"
}
}
}
}
Importante: La API de Whisper devuelve texto plano cuando usas output=txt
. El texto estará en $json["body"]
.
Node 4: Execute Command (Limpiar Repeticiones)
// Guardar transcripción en archivo temporal
const transcription = $json["body"];
const tempFile = `/tmp/transcripcion_${Date.now()}.txt`;
const cleanFile = `/tmp/transcripcion_${Date.now()}_clean.txt`;
// Comando para limpiar
return {
json: {
command: `echo '${transcription}' > ${tempFile} && python3 /home/z/whisper-stack/limpiar_repeticiones.py ${tempFile} ${cleanFile} && cat ${cleanFile}`,
tempFile: tempFile,
cleanFile: cleanFile
}
};
Node 5: HTTP Request (WordPress REST API)
{
"method": "POST",
"url": "https://www.eldiarioia.es/wp-json/wp/v2/posts",
"authentication": "basicAuth",
"basicAuth": {
"user": "{{$credentials.wordpressUser}}",
"password": "{{$credentials.wordpressAppPassword}}"
},
"sendBody": true,
"bodyParameters": {
"parameters": [
{
"name": "title",
"value": "={{$node[\"RSS Feed Trigger\"].json[\"title\"]}}"
},
{
"name": "content",
"value": "={{$node[\"Execute Command1\"].json[\"stdout\"]}}"
},
{
"name": "status",
"value": "draft"
},
{
"name": "excerpt",
"value": "Transcripción automática desde YouTube con Whisper local."
}
]
}
}
Node 6: Telegram Notification
{
"chatId": "YOUR_CHAT_ID",
"text": "✅ Nuevo artículo generado: {{$node[\"RSS Feed Trigger\"].json[\"title\"]}}\n\n🔗 {{$node[\"HTTP Request1\"].json[\"link\"]}}\n\n📝 Listo para editar y publicar."
}
Workflow 2: Webhook Manual para Transcripciones On-Demand
Crea un webhook que puedes llamar manualmente para transcribir cualquier video:
Node 1: Webhook Trigger
{
"path": "whisper-transcribe",
"httpMethod": "POST",
"responseMode": "lastNode"
}
Request body esperado:
{
"video_url": "https://www.youtube.com/watch?v=abc123",
"language": "es",
"title": "Título del artículo (opcional)"
}
Llamar al webhook:
curl -X POST http://localhost:5678/webhook/whisper-transcribe \
-H "Content-Type: application/json" \
-d '{
"video_url": "https://www.youtube.com/watch?v=aircAruvnKk",
"language": "en",
"title": "Neural Networks Explained"
}'
El workflow descarga, transcribe y devuelve el texto en la respuesta HTTP.
Workflow 3: Batch Processing de Playlists
Transcribe una playlist completa de YouTube en una sola ejecución:
- HTTP Request – Obtiene videos de playlist con YouTube API
- Split In Batches – Procesa videos de 3 en 3
- Execute Command – Descarga audio (para cada video)
- HTTP Request (Whisper) – Transcribe (para cada video)
- Merge – Combina resultados
- Telegram – Notifica cuando termina todo
Ventaja: Procesas 10-20 videos overnight sin intervención manual.
Tips para Integración n8n + Whisper
1. Gestión de Timeouts
Videos largos (>1h) tardan ~3-4 min en transcribirse. Ajusta timeouts en n8n:
{
"options": {
"timeout": 600000 // 10 minutos (en milisegundos)
}
}
2. Manejo de Errores
Añade un nodo Error Trigger que capture fallos y notifique:
// En el Error Trigger
const errorMessage = $json["error"]["message"];
const videoUrl = $json["video_url"];
return {
json: {
message: `❌ Error transcribiendo: ${videoUrl}\n\nError: ${errorMessage}`
}
};
3. Caché de Transcripciones
Guarda transcripciones en base de datos para no reprocesar:
// Antes de transcribir, buscar en DB
const videoId = extractVideoId($json["video_url"]);
// SELECT transcription FROM cache WHERE video_id = ?
if (cached) {
return cached;
} else {
// Transcribir y guardar en cache
}
4. Monitoreo de GPU
Añade un nodo que verifique disponibilidad de GPU antes de transcribir:
# Execute Command Node
nvidia-smi --query-gpu=memory.free --format=csv,noheader,nounits | head -1
# Si VRAM libre < 10000 MB, esperar o notificar
Ejemplo Real: Mi Workflow de Producción
Así es como yo uso n8n + Whisper en El Diario IA:
- RSS Trigger monitorea 5 canales técnicos YouTube (Fireship, NetworkChuck, etc.)
- Video nuevo detectado → Whisper transcribe (2-3 min)
- Python script limpia repeticiones y divide en secciones
- OpenRouter API (Claude Sonnet) mejora estructura y añade intro/conclusión
- SwarmUI genera imagen featured desde keywords
- WordPress crea draft con todo listo
- Telegram me notifica: "Artículo listo, revisar en 15 min"
Tiempo total automatizado: 10-15 min. Yo solo edito y publico.
Resultado: 2-3 artículos técnicos por semana sin esfuerzo.
Configurar Credenciales en n8n
Para WordPress y Telegram, añade credenciales en n8n:
WordPress API Credential:
{
"name": "WordPress ElDiarioIA",
"type": "httpBasicAuth",
"data": {
"user": "tu_usuario",
"password": "tu_application_password"
}
}
Telegram Bot Credential:
{
"name": "Telegram Bot",
"type": "telegramApi",
"data": {
"accessToken": "YOUR_BOT_TOKEN_FROM_BOTFATHER"
}
}
Workflow JSON Completo (Importar en n8n)
El workflow completo incluye todos los nodos configurados: HTTP Request al Whisper API, procesamiento del JSON, publicación en WordPress y notificaciones Telegram.
Para recrearlo en tu n8n: Menu → Workflows → Add → Configura los nodos según los ejemplos anteriores
Rendimiento Real: RTX 5090
Estos son mis benchmarks reales con una RTX 5090 32GB VRAM:
Duración Audio | Tiempo Transcripción | Ratio | VRAM Usada |
---|---|---|---|
5 minutos | ~15 segundos | 20x | ~8 GB |
19 minutos | ~58 segundos | 19.6x | ~10 GB |
60 minutos | ~3 minutos | 20x | ~10 GB |
Precisión: 95-98% en español claro, 98% en inglés técnico.
RTX 5080/5070: Rendimiento similar, mismo ratio ~20x tiempo real.
Optimizaciones para RTX 5000 Series
1. Usar Modelo Adecuado según VRAM
GPU | VRAM | Modelo Recomendado | Precisión |
---|---|---|---|
RTX 5090 | 32 GB | large-v3 ✅ | 95-98% |
RTX 5080 | 16 GB | large-v3 ✅ | 95-98% |
RTX 5070 | 12 GB | large-v3 o medium | 95% / 90% |
Para cambiar el modelo, edita docker-compose.yml
:
environment:
- ASR_MODEL=medium # Opciones: tiny, base, small, medium, large-v3
2. GPU Compartida con Otros Servicios
Si también usas tu RTX 5090 para Ollama, ComfyUI o SwarmUI:
# Monitorear VRAM en tiempo real
watch -n 1 nvidia-smi
# Si te quedas sin VRAM, detén servicios temporalmente
docker stop ollama swarmui
# Transcribe tus videos
./youtube_to_text.sh "URL" es
# Reinicia servicios
docker start ollama swarmui
Troubleshooting: Problemas Comunes
❌ Error: "could not select device driver nvidia"
Causa: nvidia-container-toolkit no instalado o Docker no configurado.
Solución:
# Verificar instalación
dpkg -l | grep nvidia-container-toolkit
# Si no está instalado, volver al Paso 2
# Verificar configuración Docker
cat /etc/docker/daemon.json
# Debe contener:
# {
# "runtimes": {
# "nvidia": {
# "path": "nvidia-container-runtime",
# "runtimeArgs": []
# }
# }
# }
# Si no, ejecutar:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
❌ Error: "CUDA out of memory"
Causa: VRAM insuficiente para el modelo.
Solución:
# Opción 1: Liberar VRAM
docker stop ollama swarmui comfyui
docker restart whisper-api
# Opción 2: Usar modelo más pequeño
# Editar docker-compose.yml:
# ASR_MODEL=medium # En lugar de large-v3
docker compose down
docker compose up -d
⚠️ Transcripción con repeticiones (hallucinations)
Problema: En videos largos (>15 min), Whisper a veces repite frases en loop.
Ejemplo:
Right now, when I say neuron... Right now, when I say neuron... Right now, when I say neuron... [repetido 6 veces]
Causa: Segmentos con música o silencios prolongados.
Solución - Script de limpieza:
Crea limpiar_repeticiones.py
:
#!/usr/bin/env python3
"""Elimina repeticiones de transcripciones de Whisper"""
import sys
def remove_consecutive_duplicates(lines):
"""Elimina líneas duplicadas consecutivas"""
cleaned = []
prev = None
for line in lines:
line = line.strip()
if line != prev:
cleaned.append(line)
prev = line
return cleaned
def clean_file(input_file, output_file):
with open(input_file, 'r', encoding='utf-8') as f:
lines = f.readlines()
cleaned = remove_consecutive_duplicates(lines)
with open(output_file, 'w', encoding='utf-8') as f:
f.write('\n'.join(cleaned))
original = len(' '.join(lines).split())
final = len(' '.join(cleaned).split())
removed = original - final
print(f"✅ Limpieza completada")
print(f"📊 Palabras originales: {original}")
print(f"📊 Palabras finales: {final}")
print(f"🗑️ Eliminadas: {removed} ({removed/original*100:.1f}%)")
if __name__ == "__main__":
if len(sys.argv) < 3:
print("Uso: python3 limpiar_repeticiones.py input.txt output.txt")
sys.exit(1)
clean_file(sys.argv[1], sys.argv[2])
Úsalo así:
# Después de transcribir
chmod +x limpiar_repeticiones.py
python3 limpiar_repeticiones.py transcripcion.txt transcripcion_limpia.txt
Comandos Útiles para el Día a Día
# Ver logs del container
docker logs -f whisper-api
# Reiniciar servicio
docker restart whisper-api
# Detener stack
docker compose down
# Iniciar stack
docker compose up -d
# Ver estado
docker ps | grep whisper-api
# Monitorear GPU
watch -n 1 nvidia-smi
# Ver espacio usado por modelos
du -sh whisper-models/
Siguiente Nivel: Fine-Tuning para Jerga Técnica
Si transcribes mucho contenido técnico (Docker, Kubernetes, IA), puedes entrenar el modelo con vocabulario específico:
# Crear glosario de términos
cat > glosario_tech.txt << EOF
Kubernetes
kubectl
containerd
Docker Compose
NVIDIA CUDA
Tensor Cores
EOF
# Usar como prompt en transcripción
curl -X POST http://localhost:9000/asr \
-F "audio_file=@audio.mp3" \
-F "initial_prompt=$(cat glosario_tech.txt)" \
-F "output=txt"
Esto mejora la precisión en términos técnicos específicos.
Caso de uso avanzado: Las transcripciones de Whisper son perfectas para alimentar sistemas RAG (Retrieval Augmented Generation), permitiéndote crear una base de conocimiento donde tu LLM local puede buscar información de todos tus videos/podcasts transcritos.
Conclusión
Con tu RTX 5090, 5080 o 5070 tienes una máquina de transcripción profesional que te ahorra dinero y te da privacidad total.
Recap de lo que montamos:
- ✅ Docker + NVIDIA Container Toolkit
- ✅ Whisper large-v3 en container
- ✅ API REST en localhost:9000
- ✅ Scripts para YouTube y limpieza
- ✅ 20x más rápido que tiempo real
- ✅ Coste: €0 (vs $43/año OpenAI)
Siguiente paso: Transcribe tu primer video ahora:
cd ~/whisper-stack
./youtube_to_text.sh "URL_DE_TU_VIDEO_FAVORITO" es
Y si tienes problemas o quieres optimizaciones avanzadas, déjame un comentario. ¡Happy transcribing! 🎙️
FAQs
¿Funciona con GPUs más antiguas (RTX 4090, 3090)?
Sí, funciona perfectamente. Solo asegúrate de tener 10GB+ VRAM para large-v3, o usa el modelo medium
(5GB VRAM).
¿Puedo transcribir en otros idiomas además de español?
Sí, Whisper soporta 99+ idiomas. Solo cambia el parámetro language
: en
(inglés), fr
(francés), de
(alemán), etc.
¿Funciona sin conexión a internet?
Sí, una vez descargado el modelo (primera ejecución), funciona 100% offline.
¿Cuánto espacio ocupan los modelos?
large-v3: ~10GB. medium: ~5GB. small: ~2GB.
¿Puedo usar múltiples GPUs simultáneamente?
Sí, en el docker-compose.yml ya está configurado con count: all
para usar todas las GPUs disponibles.
¿Es legal transcribir videos de YouTube?
Para uso personal y educativo, generalmente sí. Para uso comercial, verifica los términos del contenido original y considera pedir permiso al creador.