Transcripteur audio

Transcription audio gratuite par IA : transformez la parole ou les voix d'une chanson en texte. Obtenez la transcription complète plus des fichiers SRT, VTT et LRC horodatés. Détection automatique de la langue et traduction optionnelle vers l'anglais.

Importez un fichier audio ou vidéo et récupérez une transcription texte propre, ainsi que des fichiers de sous-titres horodatés (SRT, VTT) et des fichiers de paroles synchronisées (LRC). Cela fonctionne pour les podcasts, les interviews, les cours, les réunions, les notes vocales et les voix de votre propre musique. Pour les morceaux de musique, un mode dédié isole d'abord les voix, de sorte que les mots ressortent bien plus clairement qu'en passant un mixage complet à un transcripteur.

La transcription s'exécute sur un GPU payant et est financée par quelques courtes publicités, et vous ne regardez des publicités que pour la portion du fichier que vous choisissez de transcrire, pas pour le fichier entier.

Comment l'utiliser

Cliquez sur la zone d'import ou glissez-déposez un fichier audio ou vidéo (MP3, WAV, OGG, FLAC, M4A, WebM, MP4 ; jusqu'à 50 Mo).
Choisissez le mode. Parole / discours transcrit le fichier tel quel (jusqu'à 10 minutes) ; Chanson / musique isole d'abord les voix (jusqu'à 6 minutes, ce qui coûte quelques publicités de plus en raison de l'étape supplémentaire).
Si le fichier dépasse la limite par exécution, glissez les marqueurs vert et rouge pour choisir la section voulue. Les boutons « −1 s / −10 s / +1 s / +10 s » et l'Aperçu vous aident à la cibler.
Vous pouvez définir la langue parlée/chantée (ou la laisser sur Détection automatique), cocher « Traduire le résultat en anglais », ou ouvrir les Options avancées pour ajouter un indice de contexte (noms, jargon, orthographe) et activer ou désactiver le filtre des lignes peu fiables.
Appuyez sur Transcrire, regardez la ou les courtes publicités, et votre transcription apparaît.
Activez Afficher les horodatages pour basculer entre texte continu et liste de lignes horodatées, Copiez le texte, ou téléchargez-le en .txt, .srt, .vtt ou .lrc. En mode Chanson, vous obtenez aussi les voix isolées à télécharger ou à envoyer vers un autre outil.

FAQ

Quelle est la différence entre le mode Parole et le mode Chanson ? Le mode Parole envoie votre sélection directement au modèle de reconnaissance vocale. Il convient le mieux à la parole : podcasts, interviews, cours, notes vocales. Le mode Chanson sépare d'abord la piste vocale de la musique et ne transcrit que les voix, ce qui donne des résultats bien plus propres sur des chansons complètes. Le mode Chanson effectue une étape GPU supplémentaire, il est donc limité à une durée plus courte et utilise quelques courtes publicités de plus.

Quels formats de sortie vais-je obtenir ? Une transcription en texte brut (.txt), des sous-titres SubRip (.srt), des sous-titres WebVTT (.vtt) et un fichier LRC (.lrc) pour les paroles synchronisées. Ils sont tous construits à partir du même résultat horodaté, vous pouvez donc utiliser celui que votre éditeur vidéo, votre lecteur ou votre application de karaoké attend.

Quelle est sa précision, et qu'est-ce qui l'influence ? Il utilise un modèle Whisper de pointe. Les enregistrements clairs, un seul locuteur et les langues courantes se transcrivent le mieux. Un fort bruit de fond, des locuteurs qui se chevauchent, des accents marqués ou un audio à faible débit réduisent la précision. Pour les chansons, utilisez le mode Chanson. Ajouter un indice de contexte dans les Options avancées (noms, termes techniques, orthographe attendue) peut nettement améliorer les noms propres.

Que se passe-t-il si l'audio ne contient ni parole ni chant ? L'outil le détecte et affiche « Aucune parole ni voix détectée » au lieu de renvoyer du texte inventé. L'option « Supprimer les lignes peu fiables / sans parole » (activée par défaut) supprime aussi les lignes parasites que les modèles de reconnaissance vocale produisent parfois sur du silence ou des passages purement instrumentaux.

Peut-il détecter la langue ? Peut-il traduire ? Oui. Laissez la langue sur Détection automatique et il la déterminera (la langue détectée est affichée avec le résultat). Vous pouvez aussi choisir la langue manuellement, et cocher « Traduire le résultat en anglais » pour obtenir une version anglaise à côté de l'original.

Pourquoi y a-t-il des publicités, et y a-t-il une limite quotidienne ? La transcription (et l'isolation des voix pour les chansons) s'exécute sur du temps GPU loué, ce qui coûte de l'argent réel. Une courte publicité par tranche de quelques minutes de votre sélection permet de garder l'outil gratuit. Pour éviter les abus, il existe un plafond sur ce que vous pouvez transcrire par jour ; si vous l'atteignez, un message s'affiche et vous pourrez revenir plus tard.

Conservez-vous mon audio ou ma transcription ? Non. Votre fichier est traité uniquement pour cette requête et n'est pas conservé à long terme, et votre transcription vous est renvoyée. Elle n'est pas publiée, indexée ni ajoutée à une base de données. N'importez que de l'audio dont vous avez le droit d'effectuer la transcription.