IntlPull
Tutorial
10 min read

Generar Subtítulos de Audio Gratis (Herramienta IA en Navegador)

Crea subtítulos de archivos de audio o video usando IntlPull AI directamente en tu navegador. Sin subidas, 100% privado, completamente gratis.

IntlPull Team
IntlPull Team
20 Feb 2026, 01:39 PM [PST]
On this page
Summary

Crea subtítulos de archivos de audio o video usando IntlPull AI directamente en tu navegador. Sin subidas, 100% privado, completamente gratis.

Generar Subtítulos de Audio Gratis (Herramienta IA en Navegador)

Crear subtítulos solía requerir software costoso, servicios de transcripción manual o aplicaciones de escritorio torpes que subían tus archivos a servidores remotos. En 2026, IntlPull AI ha revolucionado la generación de subtítulos—y ahora funciona completamente en tu navegador.

Esta guía te muestra cómo generar subtítulos de calidad profesional de cualquier archivo de audio o video usando la herramienta gratuita Whisper basada en navegador de IntlPull. Sin subidas. Sin preocupaciones de privacidad. Sin costos. Solo arrastra, suelta y espera.

La Revolución de Generación de Subtítulos

¿Qué Cambió?

Tres avances tecnológicos convergieron para hacer posible la generación de subtítulos basada en navegador:

  1. OpenAI Whisper (2022-2024): Modelos de reconocimiento de voz de última generación (el motor detrás de IntlPull AI)
  2. WebAssembly (WASM) + WebGPU: Los navegadores ahora pueden ejecutar modelos IA a velocidades casi nativas
  3. Transformer.js (2023-2026): Biblioteca JavaScript que empaqueta modelos IA para inferencia en navegador

El resultado: Ahora puedes generar subtítulos de un video de 2 horas sin subir un solo byte a un servidor.

Por Qué Esto Importa

Privacidad: Entrevistas médicas, capacitación corporativa, contenido confidencial—ningún tercero ve jamás tus archivos.

Costo: Sin precios por minuto. Genera subtítulos para 1,000 horas de contenido gratis.

Velocidad: Sin latencia de subida/descarga. En hardware moderno (Mac M1, GPUs recientes), la generación es más rápida que el tiempo real.

Accesibilidad: Funciona offline después de la descarga inicial del modelo. Perfecto para redes restringidas.


Cómo Funciona IntlPull AI Basado en Navegador

Aquí está la arquitectura de alto nivel:

1. Usuario sube archivo audio/video
   ↓
2. FFmpeg.wasm extrae pista de audio (si es video)
   ↓
3. Audio convertido a WAV mono 16kHz (formato entrada Whisper)
   ↓
4. IntlPull AI procesa audio en fragmentos
   ↓
5. Modelo produce transcripción con marcas de tiempo
   ↓
6. JavaScript formatea salida como SRT o VTT
   ↓
7. Usuario descarga archivo de subtítulos

Todo sucede en la memoria de tu navegador. El archivo de audio nunca abandona tu dispositivo.

Selección de Modelo

La herramienta de IntlPull ofrece dos modelos IntlPull AI:

ModeloTamañoIdiomasVelocidad (Mac M1)Precisión
whisper-tiny.en77 MBSolo inglés10x tiempo real~85% WER
whisper-small490 MB99 idiomas3x tiempo real~90% WER

WER (Tasa de Error de Palabra): Menor es mejor. 90% WER = 9 de 10 palabras correctas.

Recomendación:

  • Contenido en inglés, prioridad velocidad → whisper-tiny.en
  • Contenido multilingüe, prioridad calidad → whisper-small

Paso a Paso: Genera tu Primer Archivo de Subtítulos

Paso 1: Accede a la Herramienta

Navega a intlpull.com/tools/subtitles/generate

Sin cuenta o registro requerido.

Paso 2: Verifica Compatibilidad del Navegador

Navegadores recomendados:

  • Chrome/Edge 113+ (mejor soporte WebGPU)
  • Firefox 121+ (WebGPU habilitado en config)
  • ⚠️ Safari 17+ (WebGPU experimental, más lento)

Aceleración de hardware:

  • WebGPU disponible: Usa tu GPU para procesamiento 5-10x más rápido
  • Fallback a WASM SIMD: Más lento pero aún funcional en cualquier dispositivo moderno

La herramienta detecta automáticamente las capacidades de tu navegador y selecciona el método de ejecución más rápido.

Paso 3: Sube tu Archivo

Arrastra y suelta o haz clic para subir:

  • Formatos de audio: MP3, WAV, FLAC, AAC, OGG, M4A
  • Formatos de video: MP4, MKV, AVI, MOV, WEBM
  • Límite tamaño archivo: 2GB (aproximadamente 10 horas de video)

Archivos de video: La herramienta extrae la pista de audio automáticamente usando FFmpeg.wasm. El video original nunca se carga en memoria (demasiado grande).

Paso 4: Configura Ajustes de Generación

Selección de Idioma

Si conoces el idioma de tu audio, selecciónalo del menú desplegable:

  • Inglés (predeterminado)
  • Español (Español)
  • Francés (Français)
  • Alemán (Deutsch)
  • Chino Mandarín (中文)
  • Japonés (日本語)
  • Coreano (한국어)
  • Y más de 90 idiomas

¿Por qué especificar idioma? Whisper funciona mejor cuando el modelo conoce el idioma esperado. La detección automática funciona pero es ligeramente menos precisa.

Selección de Modelo

  • IntlPull AI Tiny (solo inglés, más rápido)
  • IntlPull AI Small (multilingüe, mejor precisión)

Usuarios primerizos: El modelo se descarga una vez y se almacena en caché en tu navegador. Los usos posteriores son instantáneos.

Formato de Salida

  • SRT (SubRip): Formato más compatible, funciona en YouTube/Vimeo/VLC
  • VTT (WebVTT): Reproductores de video HTML5, mejores características de accesibilidad

Ver nuestra guía comparativa de formatos para detalles.

Paso 5: Genera Subtítulos

Haz clic en "Generar Subtítulos".

Qué sucede a continuación:

  1. Carga de modelo (solo primera vez): Descarga y almacena en caché modelo AI (30-90 segundos)
  2. Extracción de audio (solo archivos video): FFmpeg extrae pista de audio (5-15 segundos)
  3. Preprocesamiento de audio: Convierte a WAV mono 16kHz (1-5 segundos)
  4. Transcripción: IntlPull AI procesa audio en fragmentos de 30 segundos con barra de progreso
  5. Postprocesamiento: Formatea marcas de tiempo, aplica puntuación, valida estructura SRT/VTT

Indicador de progreso: La barra de progreso en tiempo real muestra:

  • Fragmento actual siendo procesado
  • Tiempo estimado restante
  • Velocidad de procesamiento (ratio tiempo real)

Consejo de rendimiento: Cierra otras pestañas del navegador durante el procesamiento para maximizar los recursos de RAM y GPU disponibles.

Paso 6: Revisar y Editar

Una vez completada la generación, la herramienta muestra:

  • Vista previa lado a lado: Forma de onda de audio + subtítulos generados
  • Editor en línea: Haz clic en cualquier subtítulo para editar texto o ajustar temporización
  • Sincronización de reproducción: Haz clic en un subtítulo para saltar a esa marca de tiempo en el audio

Ediciones comunes necesarias:

  1. Nombres propios: La IA puede escribir mal nombres, marcas, términos técnicos
  2. Homófonos: Palabras que suenan igual pero tienen significados diferentes
  3. Puntuación: Ocasionalmente falta o agrega puntuación incorrecta
  4. Saltos de línea: Ajusta para legibilidad (máx. 2 líneas por subtítulo)

Paso 7: Descarga tus Subtítulos

Haz clic en "Descargar SRT" o "Descargar VTT" para guardar el archivo.

Convención de nombre de archivo: Agrega automáticamente código de idioma:

  • Original: video.mp4
  • Generado: video.es.srt

Prueba tus subtítulos:

  1. Abre tu video en VLC Media Player
  2. Arrastra el archivo SRT/VTT a VLC
  3. Los subtítulos deberían sincronizarse automáticamente y mostrarse
  4. Verifica precisión los primeros 2-3 minutos

Si la temporización está desajustada, usa la herramienta de sincronización de subtítulos de IntlPull para ajustar globalmente.


Consejos para Mejores Resultados de Generación de Subtítulos

1. La Calidad de Audio es Todo

Audio óptimo:

  • Voz de hablante clara
  • Ruido de fondo mínimo
  • Niveles de volumen consistentes
  • Sin hablantes superpuestos

Audio problemático:

  • Música/efectos de sonido pesados
  • Eco o reverberación
  • Múltiples hablantes simultáneos
  • Artefactos de compresión de baja tasa de bits

Consejo de preprocesamiento: Si tu audio es ruidoso, ejecútalo primero a través de un filtro de reducción de ruido (la "Reducción de Ruido" de Audacity es gratis).

2. Manejar Música de Fondo

Whisper a veces transcribe letras de música de fondo como habla. Soluciones:

  • Secciones solo música: Elimina manualmente subtítulos durante música intro/outro
  • Edición de audio: Usa un editor de audio para reducir música durante habla
  • Limpieza post-generación: Usa buscar/reemplazar para eliminar errores comunes de transcripción de música

3. Contenido Multi-Hablante

Para entrevistas, paneles o conversaciones:

  • Habilita diarización de hablante si está disponible
  • Etiquetado manual: Después de la generación, agrega manualmente etiquetas de hablante

4. Terminología Técnica y Jerga

Whisper maneja contenido técnico, pero puede tener problemas con:

  • Acrónimos específicos del dominio
  • Nombres de productos
  • Términos técnicos no ingleses

Solución: Después de la generación, usa buscar/reemplazar para corregir reconocimientos erróneos recurrentes.


Requisitos del Navegador y Rendimiento

Requisitos Mínimos

ComponenteMínimoRecomendado
RAM4 GB8 GB+
CPU2017+ Intel/AMDApple Silicon / Ryzen 5000+
GPUGráficos integradosGPU discreta (RTX 3060+)
NavegadorChrome 100+Chrome 120+ con WebGPU
Almacenamiento500 MB libre1 GB libre (para caché modelo)

Benchmarks de Rendimiento

Generando subtítulos para un video de 10 minutos:

DispositivoModeloTiempoRatio Tiempo Real
M1 MacBook Protiny.en60 segundos10x
M1 MacBook Prosmall200 segundos3x
Intel i7-12700 + RTX 3060tiny.en90 segundos6.6x
Intel i7-12700 + RTX 3060small250 segundos2.4x

Ratio tiempo real: Mayor es mejor. 10x = genera subtítulos 10 veces más rápido que duración del video.


Privacidad: Tu Audio Nunca Abandona tu Dispositivo

Cómo Funciona

Los servicios tradicionales de subtítulos (Rev, Otter.ai, YouTube) suben tu audio a sus servidores:

Tu dispositivo → Transcripción servidor → Descargar resultado

La herramienta basada en navegador de IntlPull:

Tu dispositivo → (todo sucede localmente) → Descargar resultado

Qué Significa Esto

  • Sin subida: El archivo de audio permanece en memoria del navegador, nunca se transmite
  • Sin almacenamiento: Los archivos nunca se escriben en disco (excepto caché de modelo)
  • Sin registro: Sin registro de lo que transcribes
  • Capaz offline: Funciona sin internet después de descarga del modelo

Idiomas Compatibles (99 Total)

Whisper admite 99 idiomas con precisión variable:

Nivel 1 (Excelente Precisión)

Inglés, Español, Francés, Alemán, Italiano, Portugués, Holandés, Polaco, Turco, Ruso, Coreano, Japonés, Chino Mandarín, Cantonés, Indonesio, Malayo, Vietnamita, Tailandés, Hindi

Nivel 2 (Buena Precisión)

Árabe, Hebreo, Griego, Checo, Eslovaco, Rumano, Húngaro, Finlandés, Sueco, Noruego, Danés, Ucraniano, Búlgaro, Croata, Serbio, Catalán, Filipino

Nivel 3 (Precisión Moderada)

Persa, Urdu, Bengalí, Tamil, Telugu, Marathi, Gujarati, Suajili, Amhárico, Yoruba, Zulú, Afrikaans, Islandés, Estonio, Letón, Lituano, Esloveno, Albanés, Macedonio, Bosnio, Galés, Vasco


Qué Hacer Después de Generar Subtítulos

1. Traducir a Otros Idiomas

Usa el traductor de subtítulos de IntlPull para crear versiones multilingües.

Ver nuestra guía de traducción de subtítulos.

2. Subir a Plataformas de Video

YouTube:

  1. YouTube Studio → Subtítulos
  2. Selecciona video → Agregar idioma → Español
  3. Subir archivo → Selecciona tu archivo .srt o .vtt

Vimeo:

  1. Configuración de video → Distribución → Subtítulos
  2. Agregar subtítulos → Subir archivo

3. Incrustar en Sitio Web

Para reproductores de video HTML5:

HTML
1<video controls>
2  <source src="video.mp4" type="video/mp4">
3  <track kind="subtitles" src="video.es.vtt" srclang="es" label="Español" default>
4  <track kind="subtitles" src="video.en.vtt" srclang="en" label="English">
5</video>

Nota: Usa formato VTT para elemento <track> (no SRT).


Solución de Problemas Comunes

Problema 1: La Descarga del Modelo Falla

Síntomas: Error "Fallo al cargar modelo"

Soluciones:

  1. Verifica conexión a internet: Los modelos son 77-490 MB
  2. Limpia caché del navegador: Las versiones antiguas del modelo pueden estar corruptas
  3. Prueba navegador diferente: Safari a veces tiene problemas CORS
  4. Desactiva VPN: Algunas VPNs bloquean CDN HuggingFace

Problema 2: La Pestaña del Navegador se Cierra

Síntomas: La pestaña se cierra durante el procesamiento, especialmente en archivos grandes

Soluciones:

  1. Cierra otras pestañas: Libera RAM
  2. Usa modelo más pequeño: Cambia a whisper-tiny.en
  3. Divide video: Procesa en fragmentos si el archivo es > 1 hora

Problema 3: Subtítulos Desincronizados

Síntomas: Los subtítulos aparecen demasiado temprano o tarde

Soluciones:

  1. Video tasa cuadros variable: Convierte a tasa cuadros constante primero
  2. Retraso de audio en fuente: Usa herramienta de sincronización de subtítulos para compensar todas las marcas de tiempo
  3. Regenera: A veces un fallo único, intenta generar nuevamente

API para Desarrolladores

Para flujos de trabajo automatizados, IntlPull ofrece una API en la nube:

Terminal
1curl -X POST https://api.intlpull.com/v1/subtitles/generate \
2  -H "X-API-Key: ip_live_..." \
3  -F "file=@video.mp4" \
4  -F "language=es" \
5  -F "model=whisper-small" \
6  -F "format=srt"

Precios: Nivel gratuito (100 minutos/mes), planes pagos desde $0.006/minuto.

Ver documentación API para detalles.


Conclusión

La generación de subtítulos basada en navegador usando IntlPull AI ha hecho que la transcripción de calidad profesional sea accesible para todos. Sin costos, sin subidas, sin preocupaciones de privacidad—solo arrastra, suelta y descarga.

Pruébalo ahora: Generar Subtítulos de Audio

Una vez que hayas generado tus subtítulos:

  1. Traducir a otros idiomas
  2. Convertir entre formatos
  3. Editar y sincronizar con video

Para equipos que gestionan contenido de video a escala, explora la plataforma TMS de IntlPull con colaboración en equipo, memoria de traducción y flujos de trabajo automatizados de subtítulos.


Herramientas Relacionadas:

Tags
subtitles
whisper
ai
speech-to-text
subtitle-generator
audio
2026
IntlPull Team
IntlPull Team
Engineering

Building tools to help teams ship products globally. Follow us for more insights on localization and i18n.