Si vous avez déjà tenté de taper un entretien à la main, vous connaissez le calcul qui ne tient pas debout. Un seul entretien de 60 minutes contient environ 8 000 à 10 000 mots prononcés, et le transcrire manuellement avale à peu près 4 à 6 heures de votre journée. Multipliez ça par une étude de 20 participants et vous avez perdu la majeure partie d’une semaine de travail à pianoter. C’est exactement le vide que la transcription par IA est venue combler : la même heure d’audio devient un brouillon propre, avec les locuteurs étiquetés, en quelques minutes — pour que votre temps aille à l’analyse plutôt qu’aux touches du clavier.
Ce guide s’adresse aux gens qui vivent vraiment dans l’audio d’entretien : le journaliste qui court après une citation, le chercheur qualitatif ou UX qui code des thèmes, le podcasteur qui pioche ses extraits, le recruteur qui rédige ses notes de candidat. Le flux de travail est à peu près le même pour les quatre. Ce sont les arbitrages — verbatim ou nettoyé, comment traiter les noms, jusqu’où vérifier — qui rendent l’affaire intéressante. On y va.
Pourquoi la transcription IA a changé le flux de travail des entretiens
Il n’y a pas si longtemps, la transcription était une corvée qu’on subissait soi-même ou qu’on payait à quelqu’un d’autre. Les services de transcription humaine existent toujours et font toujours du bon travail, mais ils facturent en général 1,00 à 1,50 € par minute d’audio et rendent le résultat sous 12 à 48 heures. Un entretien de 45 minutes vous coûte 45 à 67 €, livré le lendemain matin. Pour une fois, d’accord. Pour une étude de 15 à 30 entretiens, la facture grimpe vite.
Voici ce qui a vraiment basculé. Le goulot d’étranglement s’est déplacé. Avec un bon outil de transcription IA, la partie lente n’est plus de produire le texte — c’est de le vérifier. Vous cessez d’être dactylo pour devenir relecteur. C’est un travail plus petit et plus malin, et c’est toute la raison pour laquelle le flux décrit plus bas tourne autour d’une boucle « brouillon puis vérification » au lieu d’une transcription partie de zéro.
Il y a aussi un volet qualité. Sur un audio propre, les meilleurs moteurs atteignent désormais 98,7 % de précision, ce qui veut dire qu’un entretien d’une heure revient avec peut-être quelques dizaines de mots à corriger, pas quelques centaines. Vous le relirez quand même contre l’audio pour tout ce que vous citez. Mais vous corrigez, vous ne reconstruisez pas.
Le flux de transcription d’entretien en quatre étapes
Quel que soit l’objet de votre transcription, les mêmes quatre étapes tiennent. Les détails varient — un journaliste vérifie plus dur ses citations, un chercheur anonymise plus dur — mais la charpente est identique.
- Enregistrez proprement, puis téléversezPièce calme, un micro correct, micros proches de chaque interlocuteur. Ensuite glissez le fichier audio dans votre outil de transcription. Atter AI accepte MP3, M4A, WAV, AAC et d'autres formats, jusqu'à 5 heures ou 2 Go par fichier, sans quota mensuel — une longue session d'histoire orale passe ainsi en une seule fois.
- Activez la diarisationLaissez le moteur étiqueter qui parle avant de faire quoi que ce soit. Vous obtiendrez Locuteur 1, Locuteur 2, etc., prêts à renommer.
- Choisissez verbatim ou verbatim intelligentDécidez-le d'emblée. Ce choix change votre façon d'éditer chaque ligne qui suit. Plus de détails plus bas.
- Vérifiez, étiquetez, anonymisezRelisez le brouillon contre l'audio pour chaque citation que vous utiliserez, renommez les locuteurs en vrais noms ou codes de participant, et retirez les détails identifiants si votre protocole l'exige.
Vous remarquez ce qui manque dans cette liste ? La frappe. C’est tout l’intérêt.
Verbatim ou verbatim intelligent : tranchez avant d’éditer
C’est la décision que les gens ratent le plus souvent, généralement parce qu’ils ne la prennent pas consciemment. Deux styles, deux transcriptions très différentes.
Le verbatim intégral capture tout. Chaque « euh », chaque faux départ, chaque « tu vois ce que je veux dire », chaque [rires] et [longue pause]. C’est le compte rendu brouillon mais exact de la façon dont les gens parlent vraiment. Les analystes de la conversation en ont besoin. Certains protocoles d’éthique l’imposent. Les contextes juridiques et de conformité l’exigent souvent. Si vous avez déjà lu un verbatim intégral à voix haute, vous savez qu’il est presque illisible — et c’est voulu.
Le verbatim intelligent, parfois appelé relecture nettoyée, retire les remplissages et corrige les bafouillages évidents tout en gardant chaque parcelle de sens. « Je, euh, je crois que le, le truc principal c’était la confiance » devient « Je crois que le truc principal, c’était la confiance ». La plupart du journalisme utilise ça. La plupart de la recherche UX utilise ça. Ça se lit comme si un humain l’avait écrit, et c’est précisément pour ça que c’est le réglage par défaut de tout ce que vous citerez ou partagerez.
Le piège : réduire un verbatim intégral en version nettoyée est facile. L’inverse est impossible — une fois les remplissages partis, vous ne les récupérez pas sans réécouter. Donc s’il y a la moindre chance que vous ayez besoin du verbatim intégral, générez-le d’abord et nettoyez une copie. Vieux conseil, toujours valable.
Un moteur IA moderne vous donne par défaut un brouillon quasi verbatim, plus proche du verbatim intégral que du nettoyé. À partir de là, vous élaguez. Pour la mécanique d’obtention de ce premier brouillon depuis n’importe quel format de fichier, le guide audio vers texte couvre tous les formats pris en charge et le flux de téléversement de bout en bout.
Étiquettes de locuteurs et anonymisation des noms
Les entretiens à deux sont le cas facile — le moteur sépare l’intervieweur du participant proprement la plupart du temps. Les ennuis commencent avec les tables rondes, les groupes de discussion et toute conversation où les gens se coupent la parole. La diarisation gère raisonnablement bien le chevauchement, mais il lui arrive de fondre deux voix sous une seule étiquette, ou d’éclater une personne sur deux. Prévoyez environ 30 secondes de nettoyage par minute de forte parole croisée. Ce n’est pas rien, mais ça bat de tout réécouter.
Une fois les étiquettes justes, le renommage tient en une passe : Locuteur 1 devient l’intervieweur, Locuteur 2 devient votre participant, appliqué d’un coup sur tout le document. Si vous menez régulièrement des sessions à plusieurs, la mécanique fine — comment le moteur décide où un locuteur finit et où le suivant commence — vaut le détour, et le guide sur l’identification automatique des locuteurs y entre.
Maintenant la partie que les chercheurs ne peuvent pas sauter : l’anonymisation. Pour l’UX et le travail académique, échanger les vrais noms contre des pseudonymes ou des codes comme P07 n’est pas optionnel — c’est généralement une exigence du comité d’éthique inscrite dans vos formulaires de consentement. La méthode propre :
- Transcrivez d’abord, anonymisez ensuite. Ne touchez jamais aux noms pendant que le moteur étiquette encore.
- Faites une passe de rechercher-remplacer pour échanger chaque vrai nom contre un code ou un pseudonyme, de façon cohérente, sur toute la transcription.
- Gardez la clé code-vers-identité dans un fichier séparé et sécurisé. Jamais à l’intérieur de la transcription elle-même.
- Attrapez aussi les identifiants indirects — l’employeur d’un participant, sa ville natale ou un intitulé de poste rare peuvent le désanonymiser aussi vite qu’un nom.
Honnêtement, ce dernier point est celui qui piège même les chercheurs aguerris. Un nom, c’est évident. « La seule femme pilote de la compagnie régionale », non — et c’est tout aussi identifiant.
Qui transcrit, et ce qui change
Le flux tient pour tous les rôles, mais pas les priorités. Voici où chaque groupe devrait concentrer son attention.
| Qui vous êtes | Style habituel | Sur quoi s'obséder |
|---|---|---|
| Journaliste | Verbatim intelligent | Citations au mot près, horodatages pour le fact-checking |
| Chercheur UX / qualitatif | Verbatim intelligent (parfois intégral) | Anonymisation, codes de locuteur cohérents, export propre vers les outils de codage |
| Podcasteur | Verbatim intelligent | Horodatages pour repérer les extraits, mise en forme prête pour les notes d'épisode |
| Recruteur | Résumé propre plutôt que transcription complète | Cohérence entre candidats, comparaison équitable, confidentialité des notes |
Une note pour les chercheurs en particulier : il existe une règle empirique bien connue selon laquelle la saturation thématique — le point où les nouveaux entretiens cessent de faire émerger de nouveaux thèmes — survient souvent autour de 12 entretiens pour un échantillon raisonnablement homogène. Ça ne veut pas dire que vous n’en transcrivez que 12. Ça veut dire qu’une fois vos brouillons revenus vite, vous pouvez les lire de façon transversale tôt et décider si l’entretien 13 mérite encore sa place. Une transcription rapide change le moment où vous analysez, pas seulement la durée.
Et si vous faites ça en tant qu’étudiant plutôt que chercheur financé, les arbitrages de budget et de consentement se présentent un peu différemment — le guide de transcription pour les étudiants traite cet angle.
Quelques pièges qui coûtent cher en silence
Quelques écueils propres aux entretiens, qui ne se montrent qu’une fois qu’ils vous ont déjà fait perdre du temps.
L’audio de téléphone et d’appels à distance. Un enregistrement tiré d’une ligne téléphonique est compressé et limité en bande passante, ce qui fait chuter la précision face à un micro de pièce. Si vous menez souvent des entretiens par téléphone, ça vaut le coup de lire spécifiquement transcrire des appels téléphoniques, parce qu’ici la méthode de capture pèse plus que le moteur de transcription.
Les accents et les langues mêlées. Un fort accent régional, ça passe. Un participant qui bascule entre deux langues en milieu de phrase, c’est dur pour n’importe quel moteur. La détection auto sur plus de 90 langues gère bien les entretiens monolingues ; pour l’alternance codique constante, attendez-vous à nettoyer manuellement les frontières de langue.
Le raccourci de vérification. La tentation, quand un brouillon a l’air propre, c’est de sauter la réécoute. Ne le faites pas — pas pour les citations en tout cas. La transcription IA excelle sur les mots courants et flanche exactement là où ça compte : noms propres, jargon technique, chiffres. « Deux mille quinze » contre « 2050 », c’est le genre de glissement qui survit à une relecture rapide et explose à l’impression.
Les longues sessions. Les histoires orales et les récits de vie peuvent durer des heures. Un seul fichier jusqu’à 5 heures ou 2 Go encaisse ça sans découpage, et il n’y a pas de quota mensuel à rationner — mais sauvegardez l’audio original avant de faire quoi que ce soit. Toujours.
Le prix, brièvement
Le coût décide souvent si vous transcrivez en interne ou payez un service. La transcription humaine, encore une fois, tourne autour de 1,00 à 1,50 € par minute. Les outils IA facturent par abonnement, et Atter AI propose un essai gratuit de 3 jours, puis des formules à 6,99 €/semaine, 49,99 €/an ou 129,99 € pour un accès à vie. Pour qui mène des entretiens régulièrement — un chercheur en pleine étude, un journaliste sur sa rubrique — l’option à vie revient à une erreur d’arrondi par entretien face aux tarifs humains à la minute.
C’est le seul endroit où le prix a sa place dans cette décision. Tout le reste, c’est du flux de travail.
Foire aux questions
Comment transcrire gratuitement un entretien enregistré ?
La plupart des outils offrent une fenêtre gratuite plutôt qu’une transcription illimitée. Les sous-titres automatiques de YouTube et la dictée intégrée à votre téléphone sont vraiment gratuits, mais ils plafonnent autour de 70 à 85 % de précision sur un audio conversationnel à deux voix. Pour un brouillon plus propre, les outils dédiés proposent en général un court essai gratuit — Atter AI offre un essai de 3 jours — assez pour transcrire quelques entretiens avant de vous décider. La vérité, c’est que le gratuit existe, mais vous rembourserez l’économie en temps de relecture.
Quelle est la meilleure façon de transcrire un entretien de recherche ?
Enregistrez dans une pièce calme avec un micro correct, passez le fichier dans un outil de transcription IA avec la diarisation activée, puis faites une passe de vérification contre l’audio pour chaque citation que vous comptez utiliser. Pour le codage qualitatif, exportez en DOCX ou TXT afin de coller directement dans NVivo, Atlas.ti ou Dedoose. La passe de vérification, c’est justement ce que les gens sautent — et c’est ce qui vous protège le jour où un résultat est contesté.
Quelle différence entre transcription verbatim et verbatim intelligent ?
Le verbatim (ou « verbatim intégral ») capture chaque hésitation, chaque faux départ, chaque [rires] tel quel — requis pour l’analyse conversationnelle, les dossiers juridiques et certains protocoles d’éthique. Le verbatim intelligent, aussi appelé relecture nettoyée, supprime les mots de remplissage et corrige les bafouillages évidents sans toucher au sens. Le journalisme et la recherche UX utilisent presque toujours le verbatim intelligent parce qu’il se lit bien mieux. Choisissez avant de commencer à éditer, pas après.
Une transcription IA indique-t-elle qui a parlé ?
Oui, si l’outil prend en charge la diarisation. Il étiquette les tours de parole en Locuteur 1, Locuteur 2, etc., puis vous les renommez en une seule passe avec les vrais participants. La précision des étiquettes baisse quand les gens se coupent la parole, donc prévoyez un peu de nettoyage sur les entretiens où ça parle par-dessus. Pour comprendre le mécanisme en détail, voyez le guide sur l’identification automatique des locuteurs.
Comment anonymiser les noms dans une transcription d’entretien ?
Transcrivez d’abord, puis faites une passe de rechercher-remplacer pour échanger les vrais noms contre des pseudonymes ou des codes comme P07 (Participant 7). Conservez un fichier de correspondance séparé et sécurisé qui relie les codes aux identités — jamais à l’intérieur de la transcription. En UX et en milieu académique, c’est généralement une exigence du comité d’éthique, alors faites-le avant que la transcription quitte votre machine ou soit partagée avec des collègues.
Combien de temps pour transcrire un entretien d’une heure ?
À la main, comptez 4 à 6 heures par heure d’audio — davantage si c’est du verbatim ou s’il y a des accents marqués. Un outil IA transforme le même fichier de 60 minutes en brouillon en 4 à 7 minutes environ, et votre travail restant relève de la vérification, pas de la frappe. C’est le plus gros gain de temps de tout le flux : vous passez de transcripteur à éditeur.
L’IA peut-elle transcrire des entretiens dans d’autres langues ?
Oui. Atter AI gère plus de 90 langues avec détection automatique, ce qui compte pour le terrain multilingue et le journalisme transfrontalier. Les entretiens mêlant deux langues — disons français et anglais dans une même réponse — restent plus durs pour n’importe quel moteur ; si un participant change de langue sans arrêt, attendez-vous à nettoyer les transitions à la main.
Est-il sûr de téléverser un entretien confidentiel vers un service de transcription ?
Vérifiez la politique de données du fournisseur avant de téléverser quoi que ce soit de sensible. Regardez si l’audio est supprimé après traitement, si les enregistrements servent à entraîner des modèles, et où les données sont stockées. Atter AI traite l’audio pour produire la transcription puis écarte la source, en gardant la transcription et un lien de référence plutôt qu’une copie de l’enregistrement. Pour les entretiens sous accord de confidentialité ou protocole d’éthique, confirmez-le par écrit dans les conditions de consentement de vos participants.