Transcriptor de audio

Transcripción de audio gratuita con IA: convierte voz o voces de una canción en texto. Obtén la transcripción completa más archivos SRT, VTT y LRC con marcas de tiempo. Detección automática del idioma y traducción opcional al inglés.

Sube un archivo de audio o vídeo y recibe una transcripción de texto limpia, además de archivos de subtítulos con marcas de tiempo (SRT, VTT) y archivos de letras sincronizadas (LRC). Funciona con pódcasts, entrevistas, clases, reuniones, notas de voz y las voces de tu propia música. Para pistas musicales hay un modo dedicado que aísla primero las voces, de modo que las palabras se entienden mucho mejor que pasando una mezcla completa a un transcriptor.

La transcripción se ejecuta en una GPU de pago y se financia con un par de anuncios cortos, y solo ves anuncios por la parte del archivo que eliges transcribir, no por el archivo entero.

Cómo usarlo

Haz clic en el área de subida o arrastra y suelta un archivo de audio o vídeo (MP3, WAV, OGG, FLAC, M4A, WebM, MP4; hasta 50 MB).
Elige el modo. Voz / habla transcribe el archivo tal cual (hasta 10 minutos); Canción / música aísla primero las voces (hasta 6 minutos, lo que cuesta unos cuantos anuncios más por el paso adicional).
Si el archivo supera el límite por ejecución, arrastra los marcadores verde y rojo para elegir la sección que quieras. Los botones «−1 s / −10 s / +1 s / +10 s» y la Vista previa te ayudan a precisarla.
Opcionalmente puedes fijar el idioma hablado/cantado (o dejarlo en Detección automática), marcar «Traducir el resultado al inglés», o abrir las Opciones avanzadas para añadir una pista de contexto (nombres, jerga, ortografía) y activar o desactivar el filtro de líneas poco fiables.
Pulsa Transcribir, mira el anuncio o los anuncios cortos, y aparece tu transcripción.
Activa Mostrar marcas de tiempo para alternar entre texto corrido y una lista de líneas con marca de tiempo, Copia el texto, o descárgalo como .txt, .srt, .vtt o .lrc. En el modo Canción también obtienes las voces aisladas para descargar o enviar a otra herramienta.

Preguntas frecuentes

¿Cuál es la diferencia entre el modo Voz y el modo Canción? El modo Voz envía tu selección directamente al modelo de voz a texto. Es el mejor para habla: pódcasts, entrevistas, clases, notas de voz. El modo Canción separa primero la pista vocal de la música y transcribe solo las voces, lo que da resultados mucho más limpios en canciones completas. El modo Canción realiza un paso de GPU adicional, por lo que está limitado a una duración más corta y usa unos cuantos anuncios cortos más.

¿Qué formatos de salida obtengo? Una transcripción en texto plano (.txt), subtítulos SubRip (.srt), subtítulos WebVTT (.vtt) y un archivo LRC (.lrc) para letras sincronizadas. Todos se construyen a partir del mismo resultado con marcas de tiempo, así que puedes usar el que espere tu editor de vídeo, reproductor o aplicación de karaoke.

¿Qué precisión tiene y qué la afecta? Usa un modelo Whisper de última generación. Las grabaciones claras, un único hablante y los idiomas comunes se transcriben mejor. Mucho ruido de fondo, hablantes que se solapan, acentos marcados o audio de baja tasa de bits reducen la precisión. Para canciones, usa el modo Canción. Añadir una pista de contexto en las Opciones avanzadas (nombres, términos técnicos, ortografía esperada) puede mejorar notablemente los nombres propios.

¿Qué pasa si el audio no tiene habla ni canto? La herramienta lo detecta y te indica «No se detectó voz ni canto» en lugar de devolver texto inventado. La opción «Descartar líneas poco fiables / sin habla» (activada por defecto) también elimina las líneas espurias que los modelos de voz a veces producen sobre silencio o pasajes puramente instrumentales.

¿Puede detectar el idioma? ¿Puede traducir? Sí. Deja el idioma en Detección automática y lo averiguará (el idioma detectado se muestra con el resultado). También puedes elegir el idioma manualmente y marcar «Traducir el resultado al inglés» para obtener una versión en inglés junto al original.

¿Por qué hay anuncios y hay un límite diario? La transcripción (y el aislamiento de voces en canciones) se ejecuta en tiempo de GPU alquilado, que cuesta dinero real. Un anuncio corto por cada pocos minutos de tu selección mantiene la herramienta gratuita. Para evitar abusos hay un tope sobre cuánto puedes transcribir al día; si lo alcanzas, verás un mensaje y podrás volver más tarde.

¿Guardáis mi audio o mi transcripción? No. Tu archivo se procesa solo para esta solicitud y no se almacena a largo plazo, y tu transcripción se te devuelve. No se publica, ni se indexa, ni se añade a ninguna base de datos. Sube solo audio sobre el que tengas derecho a hacer la transcripción.