KI-Transkription

Telefonate transkribieren: Erst die Rechtsfrage klären, dann die Technik

iOS 18.1 brachte im Oktober 2024 die native Anrufaufzeichnung. Mit Pixel oder VoIP-Exports und Atter AI entstehen Transkripte mit 98,7% Genauigkeit.

Die meisten Anleitungen zur Telefon-Transkription beginnen sofort mit „Schritt 1: öffne diese App”. Diese Reihenfolge ist falsch. Telefonate aufzuzeichnen ist zuerst eine rechtliche Einwilligungsfrage und erst danach ein technischer Ablauf — und welcher Schritt tatsächlich entscheidend ist, hängt davon ab, wo Sie sitzen und wo Ihr Gesprächspartner sitzt. In Deutschland stellt § 201 StGB („Verletzung der Vertraulichkeit des Wortes”) die heimliche Aufzeichnung des nicht-öffentlich gesprochenen Wortes unter Strafe — bis zu drei Jahre Freiheitsstrafe oder Geldstrafe. Die DSGVO und das BDSG verlangen zusätzlich eine Rechtsgrundlage für jede Verarbeitung personenbezogener Daten, und Sprachaufzeichnungen sind personenbezogene Daten. Deutschland ist also faktisch ein Land mit Zustimmung aller Beteiligten, im Gegensatz zur US-Bundesregelung (18 U.S.C. § 2511), die Einseitigeinwilligung erlaubt — wobei 12 US-Bundesstaaten ebenfalls die Zustimmung aller Beteiligten verlangen. Bei grenzüberschreitenden Anrufen gilt in der Regel das strengere Recht der beiden Jurisdiktionen.

Sobald die Einwilligungsfrage geklärt ist, ist der technische Ablauf in den letzten 18 Monaten dramatisch einfacher geworden. iOS 18.1, veröffentlicht am 28. Oktober 2024, brachte erstmals native Anrufaufzeichnung auf jedes unterstützte iPhone — zum ersten Mal seit der Plattformeinführung 2007 erlaubt Apple das ohne Drittanbieter-App. Googles Pixel Recorder bietet Anrufaufzeichnung schon seit 2019. Die meisten VoIP-Plattformen haben sie schon immer angeboten. Der schwierige Teil ist nicht mehr die Audio-Erfassung; es ist, aus der resultierenden niedrigbitratigen, oft schmalbandigen Aufnahme ein wirklich brauchbares Transkript zu machen. Genau darum geht es in dieser Anleitung — mit Atter AI als Spracherkennungsschicht bei 98,7 % Genauigkeit in über 90 Sprachen.

Die Audioqualitätsbasis: 8 kHz oder 16 kHz

Telefonaudio lebt historisch bei 8 kHz / 64 kbps mit dem G.711-Codec — einem Standard, der in den 1970er Jahren in PSTN-Vermittlungsstellen eingefroren wurde und auf den meisten Festnetz- und herkömmlichen Mobilfunknetzen weiterhin in Betrieb ist. Moderne HD Voice (VoLTE bei der Telekom Deutschland seit 2015, Vodafone und Telefónica O2 in den Folgejahren) hebt das auf 16 kHz mit AMR-WB oder Opus. Der Unterschied ist hörbar: 8 kHz schneidet alles über 4 kHz ab, was den Großteil der Brillanz einer menschlichen Stimme entfernt und der Grund ist, warum traditionelle Telefongespräche im Vergleich zu einer Zoom-Konferenz bei gleicher Lautstärke „dumpf” klingen.

Das ist für die Transkription relevant, weil Spracherkennungssysteme typischerweise auf Breitbandaudio (16 kHz+) trainiert werden. Ein Modell, das zur Inferenz nur 8 kHz sieht, verliert mehrere Prozentpunkte an Genauigkeit gegenüber seiner Breitband-Leistung, besonders bei Eigennamen, Fachvokabular und Sprechern mit Akzent. Atter AI betreibt getrennte akustische Modelle für Schmal- und Breitband und leitet das Audio automatisch nach Abtastrate weiter — ein altes 8-kHz-Gespräch hochzuladen liefert weiterhin starke Ergebnisse, weil das Modell auf dieses Signal abgestimmt ist, aber bei modernen VoLTE- oder VoIP-Anrufen ist die Ausgabe deutlich besser.

Wenn Sie auf einem iPhone oder Pixel aufnehmen, ist die gespeicherte Datei typischerweise bereits 16 kHz, weil das Betriebssystem die Down- und Uplink-Mischung vor jeder PSTN-seitigen Abwärtsabtastung erfasst. Beim Abruf einer Aufzeichnung aus dem Archiv einer VoIP-Plattform (Sipgate — ein deutscher Anbieter —, 3CX, Pascom, Mitel, RingCentral, Dialpad, Zoom Phone) sollten Sie die Export-Einstellungen prüfen — die meisten verwenden standardmäßig 16-kHz-.mp3 oder .wav, aber einige Legacy-Tenants sind noch auf 8 kHz.

Methode 1: native iPhone-Anrufaufzeichnung (iOS 18.1+)

Die native iPhone-Funktion kam am 28. Oktober 2024 mit iOS 18.1 und ist auf jedem iPhone aktiviert, das 18.1 oder höher läuft, einschließlich iPhone XS und neuerer Hardware. Die Mechanik:

  1. Tippen Sie während eines aktiven Anrufs auf die Aufnahme-Schaltfläche oben links im Anrufbildschirm.
  2. Die andere Partei hört eine verbale Ansage: „Dieser Anruf wird aufgezeichnet.” In US-Bundesstaaten, die die Zustimmung aller Beteiligten verlangen, erfüllt diese Ansage die Benachrichtigungspflicht, aber der Angerufene muss freiwillig in der Leitung bleiben, was in der Rechtsprechung als stillschweigende Einwilligung gewertet wird. In Deutschland reicht diese Ansage allein nicht aus — der Gesprächspartner muss aktiv zustimmen, sonst greift § 201 StGB.
  3. Wenn der Anruf endet, wird die Aufnahme in der Notizen-App (nicht Sprachmemos) als Anhang mit automatisch generiertem Transkript und KI-Zusammenfassung gespeichert.
  4. Die Audiodatei selbst kann durch langes Drücken des Anhangs in Notizen → Teilen → in Dateien speichern, per AirDrop an einen Mac senden oder an eine beliebige App weitergeben exportiert werden.

Für bessere Transkriptionsqualität als Apples eingebautem Durchlauf exportieren Sie das Audio zu Atter AI. Apples On-Device-Transkription ist englischzentriert und nutzt ein kleineres Modell als Cloud-Dienste; bei deutschen Gesprächen mit regionalen Akzenten (Berlinerisch, Bayerisch, Schwäbisch, Wienerisch, Schweizerdeutsch), Fachterminologie oder Deutsch-Englisch-Codeswitching ist der Genauigkeitsunterschied erheblich. Den breiteren iPhone-Audio-Workflow haben wir in unserer Anleitung zu iPhone-Sprachmemos behandelt.

Methode 2: Pixel und andere Android-Geräte

Googles Recorder-App unterstützt Anrufaufzeichnung auf Pixel-Telefonen seit dem Start des Pixel 4 im Jahr 2019, was es zur ersten nativen Anrufaufzeichnungs-Funktion einer großen Plattform macht — fünf Jahre vor iPhone. Die Mechanik:

  • Während eines aktiven Anrufs erscheint die Recorder-Verknüpfung in der Schnellzugriffsleiste oder direkt in der Anruf-UI.
  • Eine Audio-Ansage wird der anderen Partei abgespielt: „Hallo, dieser Anruf wird aufgezeichnet.”
  • Gespeicherte Aufzeichnungen erscheinen in der Recorder-App mit einem durchsuchbaren On-Device-Transkript.
  • Tippen Sie auf eine beliebige Aufzeichnung → Teilen → wählen Sie eine App oder speichern Sie in Drive.

Pixels On-Device-Transkription ist nur Englisch und nutzt Googles On-Device-Sprachmodell aus der Soli-Ära, gut genug für Memorysuche, aber nicht für Produktionstranskripte. Für mehrsprachige Anrufe, Kundeninterviews oder Aufnahmen, die Sie als Dokument teilen möchten, exportieren Sie die .m4a-Datei und lassen sie durch Atter AI laufen.

Andere Android-Hersteller haben Anrufaufzeichnung zu verschiedenen Zeitpunkten ausgeliefert: Samsung fügte sie in One UI 5 in ausgewählten Märkten hinzu (Deutschland: ja), Xiaomi hat sie regional gesperrt, und OnePlus entfernte sie nach OxygenOS 12. Außerhalb der Pixel-Linie sind Drittanbieter-Apps auf Android weiterhin die Regel.

Methode 3: VoIP-Plattform-Exporte

Wenn der Anruf über Sipgate, 3CX, Pascom, Mitel, RingCentral, Dialpad, Zoom Phone, Microsoft Teams Phone, Google Voice (Workspace-Bezahlstufe) oder eine andere moderne Business-VoIP-Lösung lief, hat die Plattform den Anruf fast sicher gemäß der Tenant-Richtlinie automatisch aufgezeichnet. Die Aufzeichnungen leben in der Anrufhistorie der Plattform und können als .mp3 oder .wav exportiert werden.

Standard-Export-Workflow (variiert leicht je Plattform):

  1. Öffnen Sie das Admin-Portal der Plattform oder Ihre persönliche Anrufhistorie.
  2. Filtern Sie nach Datum, Nebenstelle oder Teilnehmer.
  3. Wählen Sie den Anruf → Aufzeichnung herunterladen (oder Exportieren für Bulk-Operationen).
  4. Öffnen Sie Atter AI → Hochladen → ziehen Sie die heruntergeladene Datei hinein.

Für Hochvolumen-Callcenter und Vertriebsteams stellen mehrere VoIP-Plattformen Webhooks oder API-Endpoints bereit, die abgeschlossene Anrufaufzeichnungen an eine Ziel-URL pushen. Diese Webhooks auf den Inbound-Endpoint eines Atter-AI-Workspace zu zeigen ist der sauberste Weg, jedes Gespräch ohne manuellen Export transkribiert zu halten. Ein typischer Sipgate-Enterprise-Tenant erzeugt 500-2.000 Aufzeichnungen pro Agent pro Monat — manuell skaliert das nicht.

Methode 4: Drittanbieter-Aufnahme-Apps

Wenn keine Seite des Anrufs ein nativ aufzeichnungsfähiges Telefon nutzt, füllen dedizierte Apps die Lücke. Die wichtigsten Spieler in 2026:

  • TapeACall (iOS, Android) — über 5 Mio. Downloads, 9,99 $/Monat oder 59,99 $/Jahr. Dreiergespräch-Mechanik: routet den Anruf durch eine Aufnahmebrücke, die beide Beine erfasst. Gespeicherte Dateien sind .mp3 mit 16 kHz.
  • Rev Call Recorder (iOS) — kostenlose Aufnahme, 0,25 $/Minute Gebühr für Transkription. Gleiche Dreiergespräch-Mechanik wie TapeACall.
  • Cube ACR (Android) — funktioniert auf einer Teilmenge von Android-Geräten via VoIP-Integration; native Mobilfunk-Anrufaufzeichnung ist auf Android 11+ wegen Googles Accessibility-API-Beschränkungen weitgehend kaputt.
  • WhatsApp und Telegram — beide Plattformen nutzen Ende-zu-Ende-Verschlüsselung, Anrufe der anderen Partei lassen sich ohne Geräte-Hack nicht aufzeichnen. Nur Erfassung über das lokale Mikrofon möglich, wenn der Anruf auf Lautsprecher läuft.

Der Trick „Anruf auf Lautsprecher legen und mit einem Sprachmemo auf einem zweiten Gerät aufzeichnen” funktioniert auch 2026 noch und liefert für einmalige Bedürfnisse überraschend brauchbares Audio. Die ferne Lautsprecher-Audio verliert etwa 6 dB Pegel gegenüber direkter Linienerfassung, aber Atter AIs Diarisierung trennt die beiden Stimmen trotzdem, weil ihre akustischen Signaturen (nah am lokalen Sprecher vs. lautsprecher-wiedergegebener Fernsprecher) sehr unterschiedlich sind.

Methode 5: Telefonkonferenz-Brücken und alte Aufzeichnungen

Für Telefonkonferenz-Brücken zum Einwählen (Free Conference Call, GoToMeeting Audio, Zoom Phone Audio, traditionelle Telekonferenz-Dienste) werden Aufzeichnungen typischerweise als einzelne Mono-.mp3 oder .wav mit allen Teilnehmern auf einer Spur geliefert. Die Diarisierung ist hier die größere Herausforderung als die Transkription: ein unkonfigurierter Anruf mit 6 Teilnehmern auf einem einzigen Brückenkanal erzeugt 6 Stimmen, die Atter AI allein aus dem Audiosignal trennen muss, da keine Metadaten anzeigen, wer wann gesprochen hat.

Atter AIs Diarisierung verarbeitet zuverlässig bis zu 10 unterschiedliche Sprecher auf einem Mono-Kanal, mit nachlassender Genauigkeit darüber hinaus. Für Brücken mit 12+ Teilnehmern (Vorstandssitzungen, große Bürgerversammlungen) ist die nützlichere Ausgabe das wortwörtliche Transkript mit Platzhaltern Speaker 1Speaker N, die Sie anhand der Teilnehmerliste nachträglich in Bulk umbenennen.

Alte Archive von Anrufaufzeichnungen — typisch für Callcenter-Compliance-Archive, die seit Jahren laufen — kommen oft als .au-, .gsm- oder 8-Bit-.wav-Dateien an. Atter AI akzeptiert alle drei und transkodiert sie vor der Spracherkennung in ein transkriptionsfreundliches Zwischenformat. Die Genauigkeitsbasis auf 8-kHz-.gsm (verwendet von älteren Mobile-Brücken-Callcentern) ist deutlich niedriger als bei Breitband, aber für saubere Aufnahmen immer noch im Bereich 92–95 %.

Einwilligung: die deutsche Realität

Der rechtliche Teil ist das, was die meisten Anleitungen überspringen. In Deutschland:

  • § 201 StGB („Verletzung der Vertraulichkeit des Wortes”): bestraft die heimliche Aufzeichnung des nicht-öffentlich gesprochenen Wortes mit bis zu drei Jahren Freiheitsstrafe oder Geldstrafe. Auch der bloße Besitz oder die Weitergabe einer solchen Aufnahme ist strafbar.
  • DSGVO Art. 6 + BDSG: jede Aufzeichnung zu kommerziellen Zwecken (Callcenter, Telemarketing, Qualitätssicherung) braucht eine Rechtsgrundlage — meist berechtigtes Interesse mit eindeutigem Hinweis am Anrufanfang, oder ausdrückliche Einwilligung. Die Landesdatenschutzbehörden kontrollieren.
  • MiFID II / WpHG: regulierte Wertpapierdienstleister müssen seit Januar 2018 Telefongespräche zu Wertpapierorders aufzeichnen — das ist gesetzliche Pflicht, keine Option.
  • Grenzüberschreitende Anrufe: wenn der Gesprächspartner in einem US-Bundesstaat mit Zwei-Parteien-Zustimmung ist, gilt jenes Staatsrecht; innerhalb der EU greift die DSGVO mit geringen nationalen Variationen.
  • WhatsApp, Telegram, Signal: AGB verbieten Drittanbieter-Aufzeichnung, Ende-zu-Ende-Verschlüsselung blockiert sie technisch.
  • Heimliche Aufzeichnung von Geschäftspartnern: auch wenn Sie Gesprächsteilnehmer sind, ist die Aufzeichnung ohne Zustimmung des anderen in Deutschland strafbar — anders als in den USA, wo Einseitigeinwilligung Bundesrecht ist.

All das ist keine Rechtsberatung — vor groß angelegten Aufzeichnungen, besonders für kommerzielle oder gerichtliche Nutzung, lassen Sie sich anwaltlich beraten.

Native Transkription vs Atter AI

FähigkeitiPhone integriert (iOS 18.1)Pixel RecorderAtter AI
Native AnrufaufzeichnungJa (iOS 18.1+)Ja (Pixel 4+)N/A (Transkriptionsschicht)
TranskriptionssprachenEnglischzentriertNur Englisch90+ Sprachen
Genauigkeit auf sauberem Audio~92-94%~92-94%98,7%
Sprecher-DiarisierungZwei Sprecher, einfachZwei Sprecher, einfachBis zu 10 Sprecher
Cross-Recording-SucheKeinePro AufzeichnungVolltextsuche über das gesamte Archiv
ExportformateNur TXTNur TXTPDF, DOCX, TXT, SRT, VTT, JSON
LängenbegrenzungKeine feste GrenzeKeine feste GrenzeKeine Grenze
KostenIm iPhone enthaltenIm Pixel enthalten129,99 $ Einmalkauf / 49,99 $/Jahr / 6,99 $/Woche + 3 Tage kostenlos testen

Zum Vergleich mit anderen Audioquellen sehen Sie, wie der gleiche Workflow Online-Audiodateien und die leicht unterschiedlichen Signalcharakteristika auf Zoom-Anrufen behandelt.

FAQ zur Telefon-Transkription

Ist es für mich legal, meine eigenen Anrufe aufzuzeichnen und zu transkribieren?

Das hängt von Ihrer Rechtsordnung ab. In Deutschland macht § 201 StGB die Aufzeichnung des nicht-öffentlich gesprochenen Wortes ohne Zustimmung aller Beteiligten strafbar — also auch wenn Sie selbst Gesprächsteilnehmer sind. Für kommerzielle Aufzeichnungen verlangt die DSGVO eine Rechtsgrundlage und einen Anruf-Eingangshinweis. Im US-Bundesrecht reicht Einseitigeinwilligung, aber 12 Staaten verlangen alle Parteien. Die verbale Ansage, die iPhone (iOS 18.1+) und Pixel automatisch abspielen, ist für Benachrichtigungsanforderungen konzipiert. Für sensible Anwendungen anwaltlichen Rat einholen.

Wie genau ist Atter AI auf traditionellem 8-kHz-Telefon-Audio?

Atter AIs schmalbandig abgestimmtes akustisches Modell erreicht 92-95 % Genauigkeit auf sauberem 8-kHz-Audio, abhängig von Sprecherakzent und Thema. Auf modernem 16-kHz-Breitbandaudio (VoLTE, VoIP, aufgenommen auf iPhone oder Pixel) erreicht die Genauigkeit 98,7 % — die gleiche Zahl wie bei Zoom oder Präsenzbesprechungen.

Kann ich eine Aufzeichnung einer Telefonkonferenz-Brücke mit 8 Teilnehmern transkribieren?

Ja. Atter AIs Diarisierung verarbeitet bis zu 10 unterschiedliche Sprecher auf einem Mono-Kanal. Für größere Anrufe verschlechtert sich die Diarisierung und Sie verlassen sich möglicherweise auf das wortwörtliche Transkript mit Platzhalter-Sprecherlabels, die Sie anhand der Teilnehmerliste umbenennen.

Funktioniert Atter AI mit TapeACall, Rev Call Recorder und ähnlichen Aufnahme-Apps?

Ja. Alle großen Anruf-Aufnahme-Apps exportieren in Standardformate (.mp3, .m4a, .wav). Direkt zu Atter AI hochladen — keine manuelle Konvertierung erforderlich. Atter AI akzeptiert alle gängigen Audioformate und kodiert intern bei Bedarf neu.

Funktioniert Apples eingebaute Transkription für deutschsprachige Anrufe?

Apples On-Device-Transkription auf iOS 18.1+ ist englischzentriert mit begrenzter Unterstützung für eine Handvoll Hauptsprachen. Für wirklich deutschsprachige Anrufe — mit regionalen Akzenten (Berlinerisch, Bayerisch, Schwäbisch, Wienerisch, Schweizerdeutsch), Fachterminologie oder Deutsch-Englisch-Codeswitching — die Audiodatei zu Atter AI exportieren, das über 90 Sprachen mit vollständiger Diarisierung unterstützt.

Kann ich einen Anruf transkribieren, den ich vor Jahren im 8-Bit-.wav-Format aufgenommen habe?

Ja. Atter AI akzeptiert .au, .gsm, 8-Bit-.wav und andere Legacy-Formate, die in älteren Callcenter-Archiven üblich sind. Das System transkodiert vor der Spracherkennung in ein transkriptionsfreundliches Zwischenformat. Die Genauigkeit ist niedriger als bei Breitbandaufnahmen, aber bei sauberem Audio immer noch in den hohen 90er Prozenten.

Ist es legal, ein Telefonat per Lautsprecher mit einem Sprachmemo auf einem zweiten Gerät aufzuzeichnen?

Der Aufnahmemechanismus ändert die rechtliche Anforderung nicht — wenn das Recht die Zustimmung aller Beteiligten verlangt, müssen Sie diese vor Aufnahmebeginn einholen, unabhängig davon, ob Sie eine eingebaute Funktion, eine Drittanbieter-App oder das Sprachmemo eines zweiten Geräts nutzen. In Deutschland gilt das absolut: § 201 StGB greift bei allen heimlichen Aufzeichnungen.

Wie transkribiere ich ein Jahr Callcenter-Aufzeichnungen im Bulk?

Atter AIs Bulk-Upload per Ordner oder API verwenden. Die meisten Anrufplattformen (Sipgate, 3CX, RingCentral, Dialpad) bieten entweder Bulk-Export oder Webhook-Lieferung, beides funktioniert mit der Atter-AI-Workspace-Ingestion. Ein typisches Enterprise-Callcenter, das pro Agent über 1.000 Stunden Aufzeichnungen pro Monat verarbeitet, profitiert von der API-Integration gegenüber manuellem Upload.