Audio-Transkriber

Kostenlose KI-Audiotranskription: Wandeln Sie Sprache oder Songgesang in Text um. Erhalten Sie die vollständige Transkription plus zeitgestempelte SRT-, VTT- und LRC-Dateien. Automatische Spracherkennung und optionale Übersetzung ins Englische.

Laden Sie eine Audio- oder Videodatei hoch und erhalten Sie eine saubere Texttranskription zurück, dazu zeitgestempelte Untertiteldateien (SRT, VTT) und Dateien mit synchronisiertem Liedtext (LRC). Es funktioniert für Podcasts, Interviews, Vorlesungen, Meetings, Sprachnotizen und den Gesang Ihrer eigenen Musik. Für Musiktitel gibt es einen eigenen Modus, der zuerst den Gesang isoliert, sodass die Wörter weit klarer durchkommen, als wenn man einen kompletten Mix an einen Transkriber gibt.

Die Transkription läuft auf einer bezahlten GPU und wird durch einige kurze Anzeigen finanziert, und Sie sehen Anzeigen nur für den Teil der Datei, den Sie transkribieren möchten, nicht für die ganze Datei.

So verwenden Sie es

Klicken Sie auf den Upload-Bereich oder ziehen Sie eine Audio- oder Videodatei per Drag-and-Drop hinein (MP3, WAV, OGG, FLAC, M4A, WebM, MP4; bis zu 50 MB).
Wählen Sie den Modus. Sprache / Reden transkribiert die Datei unverändert (bis zu 10 Minuten); Song / Musik isoliert zuerst den Gesang (bis zu 6 Minuten, was wegen des zusätzlichen Schritts ein paar Anzeigen mehr kostet).
Ist die Datei länger als das Limit pro Durchlauf, ziehen Sie die grünen und roten Marker, um den gewünschten Abschnitt zu wählen. Die Schaltflächen „−1 s / −10 s / +1 s / +10 s" und die Vorschau helfen Ihnen, ihn genau einzustellen.
Optional können Sie die gesprochene/gesungene Sprache festlegen (oder auf Automatische Erkennung lassen), „Ergebnis ins Englische übersetzen" ankreuzen oder die Erweiterten Optionen öffnen, um einen Kontexthinweis hinzuzufügen (Namen, Fachbegriffe, Schreibweise) und den Filter für Zeilen mit niedriger Konfidenz ein- oder auszuschalten.
Drücken Sie auf Transkribieren, sehen Sie sich die kurze(n) Anzeige(n) an, und Ihre Transkription erscheint.
Schalten Sie Zeitstempel anzeigen um, um zwischen fließendem Text und einer Liste zeitgestempelter Zeilen zu wechseln, Kopieren Sie den Text oder laden Sie ihn als .txt, .srt, .vtt oder .lrc herunter. Im Song-Modus erhalten Sie außerdem den isolierten Gesang zum Herunterladen oder zum Senden an ein anderes Tool.

FAQ

Was ist der Unterschied zwischen dem Sprach-Modus und dem Song-Modus? Der Sprach-Modus gibt Ihre Auswahl direkt an das Sprache-zu-Text-Modell. Er eignet sich am besten für Gesprochenes: Podcasts, Interviews, Vorlesungen, Sprachnotizen. Der Song-Modus trennt zuerst die Gesangsspur von der Musik und transkribiert nur den Gesang, was bei kompletten Songs viel sauberere Ergebnisse liefert. Der Song-Modus führt einen zusätzlichen GPU-Schritt aus, ist daher auf eine kürzere Länge begrenzt und nutzt ein paar kurze Anzeigen mehr.

Welche Ausgabeformate erhalte ich? Eine Transkription als reinen Text (.txt), SubRip-Untertitel (.srt), WebVTT-Untertitel (.vtt) und eine LRC-Datei (.lrc) für synchronisierten Liedtext. Sie werden alle aus demselben zeitgestempelten Ergebnis erstellt, sodass Sie das verwenden können, was Ihr Videoeditor, Player oder Ihre Karaoke-App erwartet.

Wie genau ist es, und was beeinflusst die Genauigkeit? Es verwendet ein hochmodernes Whisper-Modell. Klare Aufnahmen, ein einzelner Sprecher und gängige Sprachen werden am besten transkribiert. Starkes Hintergrundrauschen, sich überlappende Sprecher, ausgeprägte Akzente oder Audio mit niedriger Bitrate verringern die Genauigkeit. Verwenden Sie für Songs den Song-Modus. Das Hinzufügen eines Kontexthinweises in den Erweiterten Optionen (Namen, Fachbegriffe, erwartete Schreibweise) kann Eigennamen deutlich verbessern.

Was passiert, wenn das Audio kein Sprechen oder Singen enthält? Das Tool erkennt das und meldet „Keine Sprache oder kein Gesang erkannt", statt erfundenen Text zurückzugeben. Die Option „Zeilen mit niedriger Konfidenz / ohne Sprache verwerfen" (standardmäßig an) entfernt außerdem die unsinnigen Zeilen, die Spracherkennungsmodelle manchmal über Stille oder rein instrumentale Passagen erzeugen.

Kann es die Sprache erkennen? Kann es übersetzen? Ja. Lassen Sie die Sprache auf Automatische Erkennung, dann wird sie ermittelt (die erkannte Sprache wird mit dem Ergebnis angezeigt). Sie können die Sprache auch manuell wählen und „Ergebnis ins Englische übersetzen" ankreuzen, um neben dem Original eine englische Version zu erhalten.

Warum gibt es Anzeigen, und gibt es ein Tageslimit? Die Transkription (und die Gesangsisolierung bei Songs) läuft auf gemieteter GPU-Zeit, die echtes Geld kostet. Eine kurze Anzeige pro einigen Minuten Ihrer Auswahl hält das Tool kostenlos. Um Missbrauch zu verhindern, gibt es eine Obergrenze dafür, wie viel Sie pro Tag transkribieren können; wenn Sie sie erreichen, sehen Sie eine Meldung und können später wiederkommen.

Bewahren Sie mein Audio oder meine Transkription auf? Nein. Ihre Datei wird nur für diese Anfrage verarbeitet und nicht langfristig gespeichert, und Ihre Transkription wird an Sie zurückgegeben. Sie wird nicht veröffentlicht, indexiert oder einer Datenbank hinzugefügt. Laden Sie nur Audio hoch, für das Sie das Recht zur Transkription haben.