🎤 IA Generativa de Voz Local: Tu Asistente Punk que Habla y Escucha

⚡️ ¿Por qué un asistente de voz local?

Imagina un asistente que no solo entiende tus comandos, sino que responde con voz propia, estilo punk, y todo sin depender de la nube. Con las herramientas adecuadas, puedes montar este sistema en tu servidor casero, integrado con n8n, Home Assistant o cualquier automatización DIY.

1️⃣ Herramientas esenciales

FunciónHerramientaEnlace
Texto a Voz (TTS)Piper TTSGitHub
Voz a Texto (STT)Whisper.cppGitHub
Procesamiento de Comandosn8n + DeepSeek R1Guía

2️⃣ Instalación detallada

Paso 1: Instalar Piper TTS

# Descargar imagen Docker
docker pull rhasspy/piper-tts:es

# Ejecutar contenedor con voz en español
docker run -d -p 5000:5000 rhasspy/piper-tts:es --language es

Paso 2: Configurar Whisper.cpp para STT

# Descargar modelo pequeño (tiny) en español
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

# Iniciar servicio web
docker run -d -p 6000:6000 -v ./models:/models onerahmet/openai-whisper-asr-webservice --model /models/ggml-tiny.bin

3️⃣ Workflow n8n paso a paso

Paso 1: Capturar audio desde un dispositivo

Usa un nodo Webhook en n8n para recibir grabaciones desde:

  • Una app móvil (como Tasker)
  • Un script en Raspberry Pi con micrófono USB
  • Home Assistant mediante integración

Paso 2: Transcripción con Whisper

{
  "url": "http://localhost:6000/asr",
  "method": "POST",
  "headers": {
    "Content-Type": "audio/wav"
  },
  "body": "={{ $input }}"
}

Paso 3: Procesar comando con IA

{
  "model": "deepseek/deepseek-r1:free",
  "messages": [
    {
      "role": "system",
      "content": "Eres un asistente punk. Responde de forma breve, con jerga rebelde y sin censura. Ejemplo: '¡Vamos, enciende esa luz como un verdadero hacker!'"
    },
    {
      "role": "user",
      "content": "{{transcripcion}}"
    }
  ]
}

Paso 4: Generar respuesta de voz

{
  "url": "http://localhost:5000/api/tts",
  "method": "POST",
  "body": {
    "text": "{{respuesta_ia}}",
    "voice": "david_angry",
    "speed": 1.2
  }
}

Paso 5: Reproducir audio

  • Opción 1: Usar un nodo SSH en n8n para ejecutar aplay respuesta.wav en tu servidor.
  • Opción 2: Enviar el audio a un dispositivo IoT (como un Google Nest mediante emulación).

4️⃣ Casos de uso avanzados

Integración con Home Assistant

# automation.yaml
- alias: "Encender luces por voz"
  trigger:
    platform: event
    event_type: n8n_voice_command
  action:
    service: light.turn_on
    target:
      entity_id: light.salon

Notificaciones proactivas

Haz que tu asistente avise cuando:

  • El servidor está al 90% de carga
  • Se detecta movimiento en cámaras de seguridad
  • Hay actualizaciones pendientes en tu servidor

5️⃣ Solución de problemas comunes

  • Error de latencia: Usa modelos ligeros (Tiny para Whisper, voces rápidas en Piper).
  • Audio distorsionado: Ajusta la tasa de muestreo a 16000Hz en las grabaciones.
  • Falta de voces: Descarga más voces para Piper desde HuggingFace.

🎸 Descarga y personalización

Todo el código, Dockerfiles y workflows están disponibles en nuestro repositorio GitHub. ¡Clónalo, modifícalo y hazlo tan rebelde como quieras!

🔗 Recursos adicionales

Por ziru

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
El Diario IA
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.