La plupart des guides sur la transcription d’appels téléphoniques sautent directement à « étape 1 : ouvrez cette application ». Cet ordre est faux. L’enregistrement d’appels est avant tout une question de consentement juridique, et seulement ensuite une question de flux technique, et c’est l’étape qui compte vraiment qui change selon où vous êtes et où se trouve votre interlocuteur. En France, l’article 226-15 du Code pénal punit jusqu’à un an d’emprisonnement et 45 000 euros d’amende le fait d’écouter, d’enregistrer ou de transmettre les communications privées sans le consentement de leurs auteurs — mais la jurisprudence reconnaît que l’enregistrement par un participant lui-même, pour son usage personnel, ne tombe pas sous cette interdiction tant qu’il n’est pas diffusé. Le RGPD impose en plus une base légale pour tout traitement de données personnelles, et la CNIL a publié plusieurs avis sur l’enregistrement des appels commerciaux. Les États-Unis fonctionnent par défaut avec un consentement à une seule partie (18 U.S.C. § 2511), mais 12 États — Californie, Floride, Illinois, Maryland, Massachusetts, Montana, Nevada, New Hampshire, Pennsylvanie, Washington, plus Connecticut et Delaware dans des contextes spécifiques — exigent le consentement de toutes les parties. Pour les appels internationaux, c’est généralement la loi la plus stricte qui s’applique.
Une fois la question du consentement réglée, le flux technique est devenu radicalement plus simple ces 18 derniers mois. iOS 18.1, sorti le 28 octobre 2024, a ajouté l’enregistrement natif d’appels à tout iPhone compatible — la première fois qu’Apple le permet sans application tierce depuis le lancement de la plateforme en 2007. L’application Recorder de Google Pixel propose l’enregistrement d’appels depuis 2019. La plupart des plateformes VoIP l’ont toujours offert. La partie difficile n’est plus de capturer l’audio ; c’est de transformer l’enregistrement obtenu — souvent à faible débit binaire et en bande étroite — en une transcription réellement utile. C’est l’objet de ce guide, avec Atter AI qui gère la couche de reconnaissance vocale à 98,7 % de précision dans plus de 90 langues.
Le plancher de qualité audio : 8 kHz contre 16 kHz
L’audio téléphonique vit historiquement à 8 kHz / 64 kbps avec le codec G.711 — un standard figé dans les centraux PSTN des années 1970 et toujours opérationnel sur la plupart des lignes fixes et des réseaux cellulaires traditionnels. La HD Voice moderne (VoLTE chez Orange France depuis fin 2014, SFR et Bouygues en 2015, Free Mobile en 2016) monte à 16 kHz avec AMR-WB ou Opus. La différence est audible : 8 kHz coupe tout ce qui est au-dessus de 4 kHz, ce qui retire la majeure partie de la luminosité d’une voix humaine et explique pourquoi les appels téléphoniques traditionnels sonnent « étouffés » par rapport à une réunion Zoom au même volume.
Cela compte pour la transcription car les systèmes de reconnaissance vocale sont généralement entraînés sur de l’audio à large bande (16 kHz et plus). Un modèle qui ne voit que du 8 kHz à l’inférence perd plusieurs points de pourcentage de précision par rapport à sa performance large bande, particulièrement sur les noms propres, le jargon technique et tout locuteur avec un accent. Atter AI exécute des modèles acoustiques séparés pour la bande étroite et la large bande et oriente l’audio automatiquement selon sa fréquence d’échantillonnage — téléverser un vieil appel 8 kHz donne quand même de bons résultats car le modèle a été affiné pour ce signal, mais vous obtiendrez une sortie nettement meilleure sur un appel VoLTE ou VoIP moderne.
Quand vous enregistrez sur un iPhone ou un Pixel, le fichier sauvegardé est typiquement déjà à 16 kHz car le système d’exploitation capture le mixage descente/montée avant tout sous-échantillonnage côté PSTN. Quand vous récupérez un enregistrement depuis les archives d’une plateforme VoIP (Aircall — entreprise française —, 3CX, RingCentral, Dialpad, Sewan, Zoom Phone), vérifiez les paramètres d’export — la plupart utilisent par défaut .mp3 ou .wav à 16 kHz, mais certains tenants hérités sont encore en 8 kHz.
Méthode 1 : enregistrement natif d’appels iPhone (iOS 18.1+)
La capacité native iPhone est livrée avec iOS 18.1 le 28 octobre 2024 et est activée sur tout iPhone exécutant 18.1 ou ultérieur, y compris iPhone XS et matériel plus récent. Le fonctionnement :
- Pendant un appel actif, tapez le bouton enregistrer dans le coin supérieur gauche de l’écran d’appel.
- L’autre partie entend une annonce vocale : « Cet appel va être enregistré. » Dans les États américains qui exigent le consentement de toutes les parties, cette annonce satisfait l’exigence de notification, mais l’appelé doit toujours rester volontairement en ligne, ce qui est traité comme un consentement implicite dans la jurisprudence.
- Quand l’appel se termine, l’enregistrement est sauvegardé dans l’application Notes (pas Mémo vocal) en tant que pièce jointe avec une transcription auto-générée et un résumé par IA.
- Le fichier audio lui-même peut être exporté en appuyant longuement sur la pièce jointe dans Notes → Partager → enregistrer dans Fichiers, AirDrop vers un Mac, ou envoyer à n’importe quelle application.
Pour une meilleure qualité de transcription que le passage intégré d’Apple, exportez l’audio vers Atter AI. La transcription sur appareil d’Apple est centrée sur l’anglais et utilise un modèle plus petit que les services cloud ; si l’appel implique du contenu francophone avec accents régionaux (parisien, marseillais, ch’ti, québécois, belge, suisse romand), de la terminologie technique ou du code-switching français-anglais, l’écart de précision est significatif. Nous avons couvert le flux audio iPhone plus large dans notre guide des Mémos vocaux iPhone.
Méthode 2 : Pixel et autres Android
L’application Recorder de Google prend en charge l’enregistrement d’appels sur les téléphones Pixel depuis le lancement du Pixel 4 en 2019, ce qui en fait la première capacité d’enregistrement d’appels native d’une grande plateforme — cinq ans avant qu’iPhone ne rattrape. Le fonctionnement :
- Pendant un appel actif, le raccourci Recorder apparaît dans la superposition des Paramètres rapides ou directement dans l’interface d’appel.
- Une annonce audio est jouée à l’autre partie : « Bonjour, cet appel est en cours d’enregistrement. »
- Les enregistrements sauvegardés apparaissent dans l’application Recorder avec une transcription sur appareil en direct que vous pouvez rechercher.
- Tapez n’importe quel enregistrement → Partager → choisissez une application ou enregistrez sur Drive.
La transcription sur appareil du Pixel est uniquement en anglais et utilise le modèle vocal sur appareil de Google de l’ère Soli, suffisamment bon pour la recherche de mémoire mais pas pour des transcriptions de production. Pour les appels multilingues, les entretiens clients ou tout enregistrement que vous comptez partager comme document, exportez le fichier .m4a et passez-le par Atter AI.
D’autres fabricants Android ont livré l’enregistrement d’appels à divers moments : Samsung l’a ajouté dans One UI 5 sur des marchés sélectionnés, Xiaomi l’a verrouillé par région, et OnePlus l’a retiré après OxygenOS 12. Hors de la gamme Pixel, les applications tierces restent la norme sur Android.
Méthode 3 : exports de plateformes VoIP
Si l’appel s’est déroulé sur Aircall, 3CX, RingCentral, Dialpad, 8x8, Sewan, Zoom Phone, Microsoft Teams Phone, Google Voice (palier Workspace payant), ou toute VoIP professionnelle moderne, la plateforme a quasi-certainement enregistré l’appel automatiquement selon la politique du tenant. Les enregistrements vivent dans l’historique d’appels de la plateforme et peuvent être exportés en .mp3 ou .wav.
Flux d’export standard (varie légèrement par plateforme) :
- Ouvrez le portail d’administration de la plateforme ou votre vue d’historique d’appels personnelle.
- Filtrez par date, poste ou participant.
- Sélectionnez l’appel → Télécharger l’enregistrement (ou Exporter pour les opérations en lot).
- Ouvrez Atter AI → Téléverser → déposez le fichier téléchargé.
Pour les centres d’appels à fort volume et les équipes commerciales, plusieurs plateformes VoIP exposent des webhooks ou des points de terminaison API qui poussent les enregistrements d’appels terminés vers une URL de destination. Pointer ces webhooks sur le point d’entrée d’un workspace Atter AI est la façon la plus propre de garder chaque appel transcrit sans export manuel. Un tenant Aircall entreprise typique génère entre 500 et 2 000 enregistrements par agent par mois ; le faire manuellement ne passe pas à l’échelle.
Méthode 4 : applications d’enregistrement tierces
Quand aucun des côtés de l’appel n’utilise un téléphone à capacité d’enregistrement natif, les applications dédiées comblent l’écart. Les acteurs majeurs en 2026 :
- TapeACall (iOS, Android) — plus de 5 millions de téléchargements, 9,99 $/mois ou 59,99 $/an. Mécanique d’appel à trois : route l’appel à travers un pont d’enregistrement qui capture les deux jambes. Fichiers sauvegardés en
.mp3à 16 kHz. - Rev Call Recorder (iOS) — enregistrement gratuit, facture 0,25 $/minute pour la transcription. Même mécanisme d’appel à trois que TapeACall.
- Cube ACR (Android) — fonctionne sur un sous-ensemble d’appareils Android via intégration VoIP ; l’enregistrement d’appels cellulaires natif est principalement cassé sur Android 11+ en raison des restrictions Google sur l’API d’accessibilité.
- WhatsApp et Telegram — les deux plateformes utilisent un chiffrement de bout en bout, on ne peut pas enregistrer les appels de l’autre partie sans un hack au niveau de l’appareil. Seule capture via le microphone local quand l’appel est en haut-parleur.
L’astuce « mettre l’appel en haut-parleur et enregistrer avec Mémo vocal sur un deuxième appareil » fonctionne encore en 2026 et produit un audio étonnamment utilisable pour des besoins ponctuels. L’audio du locuteur distant perd environ 6 dB de niveau par rapport à la capture directe de ligne, mais la diarisation d’Atter AI sépare quand même les deux voix car leurs signatures acoustiques (microphone proche du locuteur local vs. haut-parleur diffusant le locuteur distant) sont assez différentes.
Méthode 5 : ponts de conférence et anciens enregistrements
Pour les ponts de conférence par appel entrant (Free Conference Call, audio GoToMeeting, audio Zoom Phone, services traditionnels de téléconférence), les enregistrements sont typiquement livrés comme un .mp3 ou .wav mono unique avec tous les participants sur une piste. La diarisation est le plus grand défi ici plus que la transcription : un appel non configuré avec 6 participants sur un seul canal de pont produit 6 voix qu’Atter AI doit séparer à partir du seul signal audio, puisqu’aucune métadonnée n’indique qui a parlé quand.
La diarisation d’Atter AI gère jusqu’à 10 locuteurs distincts sur un canal mono de manière fiable, avec une précision qui se dégrade au-delà. Pour les ponts avec plus de 12 participants (conseils d’administration, grandes mairies), la sortie la plus utile est la transcription verbatim avec des espaces réservés Speaker 1…Speaker N que vous renommez en lot selon la liste des participants après coup.
Les anciennes archives d’enregistrements d’appels — typiques des archives de conformité de centres d’appels qui tournent depuis des années — arrivent souvent comme fichiers .au, .gsm ou .wav 8-bit. Atter AI accepte les trois, en les transcodant vers un intermédiaire compatible avec la transcription avant d’exécuter la reconnaissance vocale. Le plancher de précision sur .gsm 8 kHz (utilisé par les anciens centres d’appels à pont mobile) est sensiblement plus bas qu’en large bande, mais reste dans la plage 92-95 % pour des enregistrements propres.
Consentement et la réalité française
La partie juridique est ce que la plupart des guides sautent. En France :
- Article 226-15 du Code pénal : enregistrer ou détourner des communications privées sans le consentement de leur auteur est puni d’un an de prison et 45 000 € d’amende. Mais la jurisprudence (Cass. ch. mixte, 2009) reconnaît qu’un participant peut enregistrer pour son propre usage sans tomber sous l’interdiction, à condition de ne pas diffuser.
- RGPD + Loi Informatique et Libertés : pour tout enregistrement à finalité commerciale (centre d’appels, télémarketing, qualité), une base légale est obligatoire — intérêt légitime ou consentement, avec mention vocale au début de l’appel. La CNIL contrôle.
- Enregistrement obligatoire : les entreprises d’investissement réglementées par l’AMF (MiFID II, applicable depuis janvier 2018) doivent enregistrer les conversations téléphoniques liées aux ordres de bourse — c’est une obligation légale, pas un choix.
- Appels internationaux : si l’autre partie est dans un État américain à consentement bilatéral, c’est cette loi qui s’applique ; pour les appels intra-UE, le RGPD s’applique partout avec des variations nationales mineures.
- WhatsApp, Telegram, Signal : conditions d’utilisation interdisent l’enregistrement tiers, et le chiffrement de bout en bout l’empêche techniquement.
Rien de ce qui précède n’est un conseil juridique — confirmez avec un avocat dans votre juridiction avant d’enregistrer à grande échelle, particulièrement pour un usage commercial ou contentieux.
Transcription native vs Atter AI
| Capacité | iPhone intégré (iOS 18.1) | Pixel Recorder | Atter AI |
|---|---|---|---|
| Enregistrement natif d’appel | Oui (iOS 18.1+) | Oui (Pixel 4+) | N/A (couche transcription) |
| Langues de transcription | Centré anglais | Anglais uniquement | 90+ langues |
| Précision audio propre | ~92-94% | ~92-94% | 98,7% |
| Diarisation | Deux locuteurs, basique | Deux locuteurs, basique | Jusqu’à 10 locuteurs |
| Recherche inter-appels | Aucune | Par enregistrement seulement | Recherche plein texte sur toute l’archive |
| Formats d’export | TXT uniquement | TXT uniquement | PDF, DOCX, TXT, SRT, VTT, JSON |
| Limite de durée | Pas de limite fixe | Pas de limite fixe | Pas de limite |
| Coût | Inclus avec iPhone | Inclus avec Pixel | 129,99 $ à vie / 49,99 $/an / 6,99 $/semaine + 3 jours d’essai gratuit |
Pour comparer avec d’autres sources audio, voyez comment le même flux gère les fichiers audio en ligne et les caractéristiques de signal légèrement différentes sur les appels Zoom.
FAQ transcription d’appels
Est-il légal pour moi d’enregistrer et transcrire mes propres appels ?
Cela dépend de votre juridiction. En France, l’article 226-15 du Code pénal interdit l’enregistrement de communications privées sans consentement, mais la jurisprudence permet à un participant d’enregistrer pour son usage personnel, à condition de ne pas diffuser. Pour un usage commercial, le RGPD impose une base légale et un avis sonore en début d’appel. Aux États-Unis fédéral, le consentement d’une seule partie suffit, mais 12 États exigent toutes les parties. L’annonce vocale qu’iPhone (iOS 18.1+) et Pixel jouent automatiquement est conçue pour satisfaire les exigences de notification. Confirmez avec un avocat pour les usages sensibles.
Quelle précision Atter AI atteint-il sur l’audio téléphonique traditionnel 8 kHz ?
Le modèle acoustique bande étroite d’Atter AI atteint 92-95 % de précision sur de l’audio 8 kHz propre, selon l’accent du locuteur et le sujet. Sur de l’audio large bande 16 kHz moderne (VoLTE, VoIP, enregistré sur iPhone ou Pixel), la précision atteint 98,7 % — le même chiffre que sur Zoom ou les réunions en présentiel.
Puis-je transcrire un enregistrement d’un pont de conférence avec 8 participants ?
Oui. La diarisation d’Atter AI gère jusqu’à 10 locuteurs distincts sur un canal mono. Pour les appels plus grands, la diarisation se dégrade et vous pouvez préférer compter sur la transcription verbatim avec des étiquettes de locuteur de remplacement que vous renommez selon la liste des participants.
Atter AI fonctionne-t-il avec TapeACall, Rev Call Recorder et des enregistreurs similaires ?
Oui. Toutes les applications d’enregistrement d’appels majeures exportent vers des formats standard (.mp3, .m4a, .wav). Téléversez directement vers Atter AI — pas de conversion manuelle nécessaire. Atter AI accepte tous les formats audio courants et ré-encode en interne au besoin.
La transcription intégrée d’Apple fonctionnera-t-elle pour des appels en français ?
La transcription sur appareil d’Apple sur iOS 18.1+ est centrée sur l’anglais avec un support limité pour quelques langues majeures. Pour des appels réellement francophones — avec accents régionaux (parisien, marseillais, québécois, belge, suisse romand), terminologie technique ou code-switching français-anglais — exportez le fichier audio vers Atter AI, qui prend en charge plus de 90 langues avec diarisation complète.
Puis-je transcrire un appel que j’ai enregistré il y a des années en format .wav 8-bit ?
Oui. Atter AI accepte .au, .gsm, .wav 8-bit et d’autres formats hérités courants dans les anciennes archives de centres d’appels. Le système transcode vers un intermédiaire compatible transcription avant d’exécuter la reconnaissance vocale. La précision est plus basse que sur les enregistrements large bande mais reste dans les 90 % supérieurs sur audio propre.
Est-il légal d’enregistrer un appel via haut-parleur avec Mémo vocal dans les États à consentement bilatéral ?
Le mécanisme d’enregistrement ne change pas l’exigence légale — si l’État exige le consentement de toutes les parties, vous devez l’obtenir avant de commencer l’enregistrement, peu importe si vous utilisez une fonction intégrée, une application tierce ou le Mémo vocal d’un deuxième appareil. L’UX de consentement par annonce vocale qu’iPhone et Pixel jouent fait un travail qu’une capture Mémo vocal ne fait pas automatiquement.
Comment transcrire en masse un an d’enregistrements de centre d’appels ?
Utilisez le téléversement en masse par dossier ou l’API d’Atter AI. La plupart des plateformes (Aircall, 3CX, RingCentral, Dialpad, 8x8) exposent soit un export en masse soit une livraison par webhook, les deux fonctionnent avec l’ingestion de workspace Atter AI. Un centre d’appels entreprise typique traitant plus de 1 000 heures d’enregistrements par mois par agent bénéficie de l’intégration API plutôt que du téléversement manuel.