Interviews transkribieren: Transkription per KI

Wer schon einmal versucht hat, ein Interview von Hand abzutippen, kennt das Problem: Die Rechnung geht nicht auf. Ein einziges 60-Minuten-Interview enthält ungefähr 8.000 bis 10.000 gesprochene Wörter, und es manuell zu verschriften frisst rund 4 bis 6 Stunden deines Tages. Mach das für eine Studie mit 20 Teilnehmenden, und schon ist ein guter Teil deiner Arbeitswoche fürs Tippen draufgegangen. Genau diese Lücke schließt die Transkription per KI: Sie verwandelt dieselbe Audiostunde in einen sauberen, nach Sprechern sortierten Entwurf, und zwar in Minuten. Deine Zeit fließt dann in die Analyse statt in Tastenanschläge.

Dieser Leitfaden richtet sich an die Leute, die tatsächlich in Interview-Audio leben: an Journalistinnen, die einem Zitat hinterherjagen, an qualitative und UX-Forscher beim Codieren von Themen, an Podcaster, die Aussagen herausziehen, und an Recruiter, die Kandidatennotizen aufschreiben. Der Ablauf ist bei allen vieren weitgehend derselbe. Spannend wird es bei den Ermessensfragen: wortwörtlich oder bereinigt, wie man mit Namen umgeht, wie streng man prüft. Gehen wir das durch.

Warum KI-Transkription den Interview-Ablauf verändert hat

Noch vor Kurzem war Transkription eine Plackerei, die man entweder selbst durchlitt oder teuer abgab. Menschliche Transkriptionsdienste gibt es weiterhin, und sie leisten gute Arbeit, aber sie berechnen typischerweise 1,00 bis 1,50 Euro pro Audiominute und liefern in 12 bis 48 Stunden. Ein 45-Minuten-Interview kostet so 45 bis 67 Euro und kommt am nächsten Morgen. Für einen Einzelfall okay. Bei einer Studie mit 15 bis 30 Interviews steigt die Rechnung jedoch rasant.

Was sich wirklich verschoben hat: der Engpass. Mit einem guten KI-Transkriptionstool ist der langsame Teil nicht länger das Erzeugen von Text, sondern das Prüfen. Du hörst auf, Tipperin zu sein, und wirst Lektorin. Das ist ein kleinerer, klügerer Job, und genau deshalb ist der folgende Ablauf um eine Schleife aus Entwerfen und Prüfen herum gebaut, nicht ums Verschriften bei null.

Dazu kommt die Qualität. Bei sauberem Audio treffen die besseren Engines inzwischen 98,7 Prozent Genauigkeit. Heißt: Ein einstündiges Interview kommt mit vielleicht ein paar Dutzend zu korrigierenden Wörtern zurück, nicht mit ein paar Hundert. Für alles, was du zitierst, liest du es trotzdem gegen das Audio gegen. Aber du korrigierst, du baust nicht neu.

Der Interview-Workflow in vier Schritten

Wofür auch immer du transkribierst, dieselben vier Schritte tragen. Die Details verschieben sich. Ein Journalist prüft Zitate strenger, eine Forscherin anonymisiert strenger. Das Grundgerüst bleibt identisch.

Sauber aufnehmen, dann hochladenRuhiger Raum, ein ordentliches Mikrofon, Mikro nah an jeder sprechenden Person. Dann die Audiodatei ins Transkriptionstool ziehen. Atter AI nimmt MP3, M4A, WAV, AAC und mehr, bis zu einer Einzeldatei von 5 Stunden oder 2 GB, ohne Monatskontingent. So läuft auch eine lange Oral-History-Sitzung in einem Durchgang durch.
Sprechererkennung einschaltenLass die Engine markieren, wer spricht, bevor du irgendetwas anderes tust. Du bekommst Sprecher 1, Sprecher 2 und so weiter, fertig zum Umbenennen.
Wortwörtlich oder geglättet wählenEntscheide das vorab. Es ändert, wie du jede folgende Zeile bearbeitest. Mehr zum Unterschied weiter unten.
Prüfen, beschriften, anonymisierenDen Entwurf für jedes verwendete Zitat gegen das Audio abgleichen, Sprecher in echte Namen oder Teilnehmercodes umbenennen und identifizierende Details entfernen, falls dein Protokoll das verlangt.

Fällt dir auf, was auf der Liste fehlt? Tippen. Genau das ist der Punkt.

Wortwörtlich vs. geglättet: vor dem Bearbeiten festlegen

Diese Entscheidung fällt am häufigsten falsch aus, meist weil sie gar nicht bewusst getroffen wird. Zwei Stile, zwei sehr unterschiedliche Transkripte.

Wortwörtlich erfasst alles. Jedes „äh”, jeden Fehlstart, jedes „weißt du, was ich meine”, jedes [lacht] und [lange Pause]. Es ist das chaotische, exakte Abbild davon, wie Menschen wirklich reden. Konversationsanalystinnen brauchen es. Manche Ethikvorgaben schreiben es vor. Juristische und Compliance-Kontexte verlangen es oft. Wer je ein wortwörtliches Transkript laut vorgelesen hat, weiß: Es ist kaum lesbar. Und das ist Absicht.

Geglättete Transkription, manchmal bereinigte Form genannt, streicht die Füllwörter und korrigiert offensichtliche Patzer, behält aber jede Nuance der Bedeutung. Aus „Ich, ähm, ich glaube, das, das Wichtigste war Vertrauen” wird „Ich glaube, das Wichtigste war Vertrauen”. Das nutzt der Journalismus. Das nutzt die UX-Forschung. Es liest sich, als hätte ein Mensch es geschrieben, und genau deshalb ist es der Standard für alles, was du zitierst oder teilst.

Die Falle: Ein wortwörtliches Transkript auf eine geglättete Fassung herunterzukürzen ist leicht. Der umgekehrte Weg ist unmöglich. Sind die Füllwörter erst weg, holst du sie ohne erneutes Anhören nicht zurück. Falls also die kleinste Chance besteht, dass du die wortwörtliche Version brauchst, erzeuge sie zuerst und bereinige eine Kopie. Alter Rat, immer noch richtig.

Eine moderne KI-Engine liefert standardmäßig einen Entwurf nah am Wortlaut, der näher an der wortwörtlichen als an der geglätteten Form sitzt. Von dort aus kürzt du. Wie du diesen ersten Entwurf aus jedem Dateiformat herausbekommst, deckt der Leitfaden Audio zu Text von Anfang bis Ende ab, samt aller unterstützten Formate und dem Upload-Ablauf.

Sprecherzuordnung und Namen anonymisieren

Interviews zu zweit sind der einfache Fall. Die Engine trennt die fragende Person meist sauber von der teilnehmenden. Schwierig wird es bei Podiumsrunden, Fokusgruppen und jedem Gespräch, in dem Leute einander ins Wort fallen. Die Sprechererkennung kommt mit überlappender Rede recht gut zurecht, faltet aber gelegentlich zwei Stimmen in ein Label oder splittet eine Person auf zwei. Rechne bei starkem Durcheinanderreden mit etwa 30 Sekunden Nacharbeit pro Minute. Kein Nichts, aber besser, als das Ganze neu anzuhören.

Stimmen die Label, ist das Umbenennen ein Ein-Durchgang-Job: Sprecher 1 wird zur fragenden Person, Sprecher 2 zur teilnehmenden, auf das gesamte Dokument auf einmal angewendet. Wer regelmäßig Sitzungen mit mehreren Personen fährt, sollte die Mechanik dahinter verstehen, also wie die Engine entscheidet, wo eine Stimme endet und die nächste beginnt. Der Leitfaden zur automatischen Sprechererkennung geht darauf ein.

Jetzt der Teil, den Forschende nicht überspringen dürfen: das Anonymisieren. In UX- und akademischer Arbeit ist es nicht optional, echte Namen gegen Pseudonyme oder Codes wie P07 zu tauschen. Meist ist es eine Vorgabe der Ethikkommission, die in deinen Einwilligungserklärungen verankert ist. Der saubere Weg:

Erst transkribieren, dann anonymisieren. Niemals Namen bearbeiten, während die Engine noch beschriftet.
Per Suchen-und-Ersetzen jeden echten Namen konsistent durch einen Code oder ein Pseudonym ersetzen, im gesamten Transkript.
Den Schlüssel von Code zu Identität in einer separaten, gesicherten Datei halten. Niemals im Transkript selbst.
Auch die indirekten Hinweise abfangen. Arbeitgeber, Heimatort oder ein seltener Jobtitel einer teilnehmenden Person enttarnen sie genauso schnell wie ein Name.

Ehrlich, dieser letzte Punkt bringt sogar erfahrene Forschende ins Stolpern. Ein Name ist offensichtlich. „Die einzige Pilotin bei der Regionalfluggesellschaft” ist es nicht, und sie identifiziert genauso eindeutig.

Wer transkribiert, und was sich dabei ändert

Der Ablauf trägt über alle Rollen hinweg, die Prioritäten tun das nicht. Hier sollte jede Gruppe ihre Aufmerksamkeit hinlenken.

Wer du bist	Üblicher Stil	Worauf du achten musst
Journalist	Geglättet	Wortgenaue Zitate, Zeitstempel für den Faktencheck
UX- / qualitative Forschung	Geglättet (manchmal wortwörtlich)	Anonymisierung, konsistente Sprechercodes, sauberer Export in Codiertools
Podcaster	Geglättet	Zeitstempel zum Auffinden von Clips, sendefertige Formatierung
Recruiter	Knappe Zusammenfassung statt Volltranskript	Konsistenz über Kandidaten hinweg, fairer Vergleich, Schutz der Notizen

Eine Anmerkung speziell für Forschende: Es gibt die bekannte Faustregel, dass thematische Sättigung, also der Punkt, an dem neue Interviews keine neuen Themen mehr zutage fördern, bei einer einigermaßen homogenen Stichprobe oft um die 12 Interviews herum eintritt. Das heißt nicht, dass du nur 12 transkribierst. Es heißt: Sobald deine Entwürfe schnell zurückkommen, kannst du früh quer lesen und entscheiden, ob Interview 13 seinen Aufwand noch rechtfertigt. Schnelle Transkription verändert, wann du analysierst, nicht nur, wie lange es dauert.

Und wenn du das als Studentin machst statt als geförderte Forscherin, sehen die Abwägungen bei Budget und Einwilligung etwas anders aus. Den Blickwinkel deckt der Transkriptions-Leitfaden für Studierende ab.

Ein paar Dinge, die leise schiefgehen

Ein paar interview-spezifische Stolperfallen, die erst auftauchen, wenn sie dich schon Zeit gekostet haben.

Telefon- und Remote-Audio. Eine über die Telefonleitung gezogene Aufnahme ist komprimiert und im Frequenzband beschnitten, was die Genauigkeit gegenüber einem Raummikrofon drückt. Wer oft am Telefon interviewt, sollte sich gezielt mit der Transkription von Telefongesprächen befassen, denn hier zählt die Aufnahmemethode mehr als die Engine.

Dialekte und Sprachmischung. Ein starker regionaler Akzent ist kein Problem. Wer mitten im Satz zwischen zwei Sprachen wechselt, ist für jede Engine hart. Automatische Erkennung über mehr als 90 Sprachen meistert einsprachige Interviews gut. Bei ständigem Code-Switching rechne mit manueller Nacharbeit an den Sprachgrenzen.

Die Abkürzung beim Prüfen. Sieht ein Entwurf sauber aus, lockt die Versuchung, das Gegenhören zu überspringen. Tu es nicht, zumindest nicht bei Zitaten. KI-Transkription ist exzellent bei häufigen Wörtern und am schwächsten genau dort, wo es zählt: Eigennamen, Fachjargon, Zahlen. „Zweitausendfünfzehn” gegen „2050” ist der Patzer, der einen schnellen Blick überlebt und im Druck hochgeht.

Lange Sitzungen. Oral History und Lebensgeschichten können sich über Stunden ziehen. Eine Einzeldatei bis 5 Stunden oder 2 GB schafft das ohne Splitten, und es gibt kein Monatskontingent, gegen das du rationieren müsstest. Aber sichere das Original-Audio, bevor du irgendetwas tust. Immer.

Preise, kurz gefasst

Die Kosten entscheiden meist darüber, ob du selbst transkribierst oder einen Dienst bezahlst. Menschliche Transkription liegt, wie gesagt, bei rund 1,00 bis 1,50 Euro pro Minute. KI-Tools berechnen stattdessen ein Abo. Atter AI bietet eine 3-Tage-Testphase, danach Pläne zu 6,99 $/Woche, 49,99 $/Jahr oder 129,99 $ für lebenslangen Zugang. Wer regelmäßig Interviews führt, eine Forscherin mitten in der Studie, ein Journalist auf seinem Themenfeld, für den läuft die Lifetime-Option pro Interview auf einen Rundungsfehler hinaus, verglichen mit Minutenpreisen menschlicher Dienste.

Und das ist der einzige Ort, an den die Preisfrage in dieser Entscheidung gehört. Alles andere ist Workflow.

Häufig gestellte Fragen

Wie transkribiere ich ein aufgenommenes Interview kostenlos?

Die meisten Werkzeuge geben dir ein kostenloses Zeitfenster statt unbegrenzter Gratis-Transkription. YouTube-Untertitel und das Diktat deines Handys sind wirklich kostenlos, landen bei zwei Sprechern und Gesprächston aber nur bei rund 70 bis 85 Prozent Genauigkeit. Für einen saubereren Entwurf bieten spezialisierte Tools meist eine kurze Testphase. Atter AI läuft mit einer 3-Tage-Testphase, das reicht für eine Handvoll Interviews. Ehrlich gesagt: Gratis-Optionen gibt es, doch das gesparte Geld investierst du anschließend in Nacharbeit.

Wie transkribiert man ein Forschungsinterview am besten?

Nimm in einem ruhigen Raum mit einem ordentlichen Mikrofon auf, jage die Datei durch ein KI-Transkriptionstool mit aktivierter Sprechererkennung und gleiche danach jedes Zitat, das du zitieren willst, gegen das Audio ab. Für die qualitative Codierung exportierst du nach DOCX oder TXT, damit du direkt in NVivo, MAXQDA oder Atlas.ti einfügen kannst. Den Abgleich überspringen viele, und genau er schützt dich, wenn ein Befund angezweifelt wird.

Was ist der Unterschied zwischen wortwörtlicher und intelligenter Transkription?

Wortwörtliche Transkription erfasst jedes Äh, jeden Versprecher, jeden Fehlstart und jedes [lacht] genau so, wie es gesprochen wurde. Das brauchen Konversationsanalyse, juristische Protokolle und manche Ethikvorgaben. Die intelligente Variante, oft geglättete Transkription genannt, entfernt Füllwörter und korrigiert offensichtliche Patzer, ohne den Sinn anzutasten. Journalismus und UX-Forschung nutzen meist die geglättete Form, weil sie deutlich lesbarer ist. Entscheide vor dem Bearbeiten, welche du brauchst, nicht danach.

Ordnet ein KI-Transkript zu, wer was gesagt hat?

Ja, sofern das Tool Sprechererkennung beherrscht. Es markiert die Wortmeldungen als Sprecher 1, Sprecher 2 und so weiter, danach benennst du sie in einem Durchgang in die echten Teilnehmenden um. Die Genauigkeit der Zuordnung sinkt, wenn Leute durcheinanderreden, also rechne bei viel Überlappung mit etwas Nacharbeit. Wie das technisch funktioniert, zeigt der Leitfaden zur automatischen Sprechererkennung.

Wie anonymisiere ich Namen in einem Interview-Transkript?

Erst transkribieren, dann per Suchen-und-Ersetzen die echten Namen gegen Pseudonyme oder Codes wie P07 (Teilnehmer 7) tauschen. Halte eine separate, gesicherte Schlüsseldatei vor, die Codes wieder echten Identitäten zuordnet, niemals im Transkript selbst. In UX- und Forschungsarbeit ist das meist eine Vorgabe der Ethikkommission, also erledige es, bevor das Transkript deinen Rechner verlässt oder geteilt wird.

Wie lange dauert es, ein einstündiges Interview zu transkribieren?

Von Hand plane 4 bis 6 Stunden pro Audiostunde ein, länger bei wortwörtlicher Erfassung oder starkem Dialekt. Ein KI-Tool macht aus derselben 60-Minuten-Datei in etwa 4 bis 7 Minuten einen Entwurf, und dein verbleibender Job ist Abgleichen statt Tippen. Das ist die größte Zeitersparnis im ganzen Ablauf: Du wirst vom Schreibknecht zum Lektor.

Kann KI Interviews in anderen Sprachen transkribieren?

Ja. Atter AI bewältigt über 90 Sprachen mit automatischer Erkennung, was für mehrsprachige Feldarbeit und grenzüberschreitenden Journalismus zählt. Gemischtsprachige Interviews, etwa Deutsch und Englisch in derselben Antwort, sind für jede Engine schwieriger. Wechselt jemand ständig die Sprache, musst du die Übergänge von Hand glätten.

Ist es sicher, ein vertrauliches Interview hochzuladen?

Prüfe die Datenschutzregeln des Anbieters, bevor du etwas Sensibles hochlädst. Achte darauf, ob das Audio nach der Verarbeitung gelöscht wird, ob Aufnahmen zum Modelltraining genutzt werden und wo die Daten liegen. Atter AI verarbeitet das Audio nur zum Erstellen des Transkripts und verwirft die Quelle danach, behält also Transkript plus Referenzlink statt einer Kopie der Aufnahme. Bei Interviews unter Verschwiegenheits- oder Ethikauflagen halte das mit den Einwilligungen deiner Teilnehmenden schriftlich fest.

Interviews transkribieren: Ein Praxisleitfaden für Journalisten und Forschende

Warum KI-Transkription den Interview-Ablauf verändert hat

Der Interview-Workflow in vier Schritten

Wortwörtlich vs. geglättet: vor dem Bearbeiten festlegen

Sprecherzuordnung und Namen anonymisieren

Wer transkribiert, und was sich dabei ändert

Ein paar Dinge, die leise schiefgehen

Preise, kurz gefasst

Häufig gestellte Fragen

Weiterlesen

Wer hat was gesagt? Automatische Sprechererkennung in der Transkription

Entscheidungen aus Meetings per Transkription nachverfolgen: ein Protokoll, das hält

Transkription durchsuchen: Stell deinem Meeting-Archiv eine Frage