Transcripción

Notas de Voz del iPhone: qué hace iOS 18 (y qué no)

iOS 18 añadió transcripción nativa a Notas de Voz, pero solo cubre 12 idiomas y no etiqueta hablantes. Aquí cómo superar esos límites.

Notas de Voz es la grabadora de audio más usada del planeta —preinstalada en los aproximadamente 2.200 millones de iPhones activos en 2026— y durante la mayor parte de su historia produjo un archivo .m4a y absolutamente nada más. El lanzamiento de iOS 18 en septiembre de 2024 incluyó por fin la vista Transcripción dentro de la app, pero llegó con techos duros que la mayoría de la gente descubre solo cuando ya importa la grabación: una lista blanca de 13 idiomas, procesamiento exclusivamente en el dispositivo ligado a un hardware específico de iPhone, y ninguna forma de exportar el propio texto de la transcripción. Dos años después, en iOS 26, esos techos son algo más altos, pero siguen ahí.

Esta guía cubre lo que la transcripción integrada de Apple realmente hace en 2026, dónde guarda Notas de Voz los archivos en cada una de las cuatro plataformas en las que corre (iPhone, iPad, Mac y Apple Watch) y cómo conseguir una transcripción completa y editable con 98,7% de precisión en 90+ idiomas usando un pipeline de transcripción IA que funciona sobre cualquier archivo de Notas de Voz, sin importar la versión de iOS.

Qué produce realmente Notas de Voz del iPhone

Cada grabación es un archivo .m4a con compresión AAC, mono y uno de dos presets de calidad configurados en Ajustes → Notas de Voz → Calidad de audio:

AjusteFrecuencia de muestreoBitrateTamaño de 60 minutos
Comprimido (por defecto)32 kHz~32 kbps~14 MB
Sin pérdidas48 kHz~256 kbps~110 MB

El ajuste Comprimido por defecto es la trampa en la que cae la mayoría. A 32 kbps el audio se escucha bien, pero pierde las señales de alta frecuencia en las que se apoya el reconocimiento automático del habla. Pasar a Sin pérdidas antes de una entrevista importante cuesta unos 100 MB por hora y eleva la precisión de la transcripción entre 3 y 5 puntos porcentuales en cualquier motor, incluido el propio de Apple.

El nombre de archivo sigue tres reglas por orden: (1) si los Servicios de Localización están activados para Notas de Voz, la nueva grabación se nombra con el lugar resuelto por GPS (Madrid, Casa, Oficina); (2) si no, hereda el nombre de la grabación anterior con un sufijo incrementado; (3) y como último recurso vuelve a Nueva grabación. El resultado es que las bibliotecas antiguas terminan llenas de archivos llamados Nueva grabación 47 que nadie es capaz de identificar sin reproducirlos.

Lo que la transcripción nativa de iOS 18+ puede y no puede hacer

La vista de transcripción que apareció en iOS 18 se amplió ligeramente en iOS 26, pero los límites siguen siendo claros.

Idiomas. El modelo en el dispositivo soporta unos 13 idiomas en iOS 26: inglés (EE. UU., RU, AU, CA, IN, Singapur, Sudáfrica), español (EE. UU., México, España), mandarín (China continental, Taiwán), cantonés, francés (Francia, Canadá), alemán (Alemania, Suiza, Austria), italiano, japonés, coreano, portugués (Brasil, Portugal), árabe (Arabia Saudita), ruso y turco. Las grabaciones en cualquier otro idioma —vietnamita, tailandés, hindi, hebreo, polaco, neerlandés, lenguas nórdicas, todos los idiomas africanos, todos los del sudeste asiático salvo el vietnamita— no producen ninguna transcripción. La pestaña Transcripción simplemente no aparece.

Hardware. Hace falta un dispositivo con Neural Engine A15 o más nuevo: iPhone 13 en adelante, iPad mini 6 / iPad Air 5 / iPad Pro 2021 en adelante y todos los Mac con Apple Silicon (de M1 en adelante). Los dispositivos más antiguos muestran la grabación pero nunca la vista Transcripción, aunque el idioma sí esté soportado.

Exportación. El texto se puede seleccionar y copiar párrafo a párrafo, pero no existe ninguna acción Exportar transcripción. No se puede guardar como .txt, .docx, .srt ni .vtt. No se puede compartir la transcripción separada del audio. La única vía para sacar el texto completo en el iPhone es mantener pulsado, Seleccionar todo, copiar y pegar — y hacerlo por cada bloque al desplazarse.

Precisión. El modelo en el dispositivo de Apple es más rápido que cualquier servicio en la nube (la transcripción ocurre casi en tiempo real mientras grabas), pero se queda por detrás de los mejores motores en la nube con una diferencia notable. En audio de estudio limpio en inglés estadounidense, el modelo on-device ronda el 88–92% de precisión por palabra; en audio del micrófono del iPhone en una cafetería ruidosa, baja a 70 y pico. Atter AI alcanza el 98,7% en audio limpio en cualquiera de sus 90+ idiomas soportados — la diferencia importa especialmente en archivos buscables y en transcripciones de uso legal.

Puntuación y etiquetas de hablante. La transcripción on-device añade puntuación básica pero no realiza ninguna diarización de hablantes. Cada línea queda atribuida al dispositivo. Una entrevista de dos personas se lee como un monólogo continuo.

Método 1: obtener una transcripción nativa en el iPhone (iOS 18+)

En un dispositivo soportado con un idioma soportado:

  1. Abre Notas de Voz y toca una grabación.
  2. Toca el icono (tres líneas) en la parte superior derecha de la tarjeta de grabación para abrir la vista Transcripción. Si el icono no aparece, el idioma o el hardware no están soportados.
  3. La transcripción se muestra como texto desplazable sincronizado con la reproducción. Toca cualquier palabra para saltar a esa marca de tiempo.
  4. Para copiar: mantén pulsado → Seleccionar todoCopiar. Pega en Notas, Mail o cualquier app de texto.

La vista Transcripción también aloja la función Resumir con Apple Intelligence desde iOS 24, cuando está activada. Los resúmenes son cortos (3 a 6 viñetas), se generan totalmente en el dispositivo y soportan un subconjunto de los idiomas de transcripción — inglés estadounidense, mandarín y algún otro en iOS 26.

Método 2: transcripción completa con Atter AI

Para todo lo que la transcripción nativa de Apple no puede hacer —idiomas no soportados, hardware antiguo, exportación de archivo, etiquetas de hablante, resúmenes con más de seis viñetas— el flujo es el mismo, sin importar el modelo de iPhone:

  1. En Notas de Voz, toca la grabación → toca el botón Más (...) → Compartir → elige Atter AI si la app está instalada, o Guardar en Archivos para subir manualmente.
  2. Si subes desde la app de Atter AI en el iPhone, toca Importar → Notas de Voz y la app lee directamente la grabación de la biblioteca de Notas de Voz, sin archivo intermedio.
  3. La transcripción suele completarse en 60–90 segundos para una grabación de 30 minutos. La salida soporta PDF, DOCX, TXT, SRT, VTT y JSON.
  4. Atter AI ofrece una prueba gratuita de 3 días que cubre exactamente este flujo. Los planes de pago empiezan en 6,99 USD por semana, 49,99 USD por año o 129,99 USD de por vida, sin tope por minuto ni por archivo.

Para entrevistas largas en las que necesitas transcripción y resumen, la longitud del resumen de Atter AI es configurable (de un párrafo a un acta formal completa) en lugar de las seis viñetas fijas de Apple Intelligence. El mismo pipeline mueve también la guía de transcripción de audio a texto y la guía de transcripción de pódcast — el motor es el mismo; solo cambia el origen del audio.

Método 3: sacar el .m4a del dispositivo

Cuando prefieres no instalar otra app en el teléfono, pasa primero el archivo en bruto al ordenador:

  • AirDrop a un Mac cercano. Notas de Voz → grabación → Compartir → AirDrop. El .m4a aterriza en ~/Descargas. Ruta más rápida; funciona sin conexión.
  • Sincronización con iCloud. Activa Ajustes → [Tu nombre] → iCloud → Notas de Voz. Las grabaciones aparecen en la app Notas de Voz de cada Mac e iPad con sesión iniciada. Desde la app del Mac, arrastra la grabación desde la barra lateral a una ventana del Finder para extraer el .m4a.
  • App Archivos. En el iPhone: Notas de Voz → Compartir → Guardar en Archivos → elige En mi iPhone o cualquier carpeta de iCloud. La grabación queda visible para otras apps y para el Mac vía iCloud Drive.
  • Correo o Mensajes. El límite de 25 MB de adjuntos de Mail cubre grabaciones en calidad Comprimida de hasta unos 100 minutos; en Sin pérdidas, el tope ronda los 12 minutos. iMessage tolera archivos de hasta 100 MB.

Una vez el .m4a está en un ordenador, arrástralo al uploader web de Atter AI o usa la app de macOS. Cualquiera de las dos vías produce la misma transcripción a nivel cloud.

Método 4: grabación con Apple Watch

La complicación de Notas de Voz en el Apple Watch graba directamente desde el micrófono del reloj con la pantalla apagada — útil para conversaciones de pasillo o recordatorios rápidos sin sacar el teléfono. El reloj graba a 16 kHz mono (por debajo de los 32 o 48 kHz del iPhone) y las grabaciones se sincronizan al iPhone emparejado en 1–2 minutos desde que abres Notas de Voz en el teléfono con ambos dispositivos en Wi-Fi o vía Bluetooth handoff.

La grabación de 16 kHz del reloj es suficiente para el habla pero reduce notablemente la precisión de transcripción frente al micrófono del iPhone. Para grabaciones críticas, prioriza el iPhone o un micrófono con cable/Bluetooth conectado al iPhone. El tope de batería del Apple Watch de unos 100 minutos en grabación continua es otra razón para usar el teléfono como opción por defecto en duraciones superiores a una hora.

Trampas frecuentes con la transcripción de Notas de Voz

La sincronización de iCloud puede retrasarse. Las grabaciones creadas en modo avión no se sincronizan hasta que el teléfono se reconecta. Si haces AirDrop o las compartes antes de la sincronización, recibes el archivo, pero la vista local de Transcripción en el Mac puede quedarse en «Generando transcripción…» indefinidamente porque el modelo on-device del Mac procesa una copia distinta de la del iPhone.

Las llamadas durante la grabación la truncan. Si entra una llamada en mitad de la grabación, Notas de Voz pausa y reanuda al colgar — pero la grabación solo se divide en dos archivos a partir de iOS 26. En iOS 18 y anteriores la pausa es silenciosa y el archivo resultante omite la duración de la llamada sin ninguna marca.

La reducción de ruido es destructiva. El interruptor Mejorar grabación del editor usa un modelo on-device para eliminar el ruido de fondo. El archivo procesado sobrescribe el original a menos que toques antes Duplicar. Para transcribir, la versión mejorada suele ser mejor; para archivo o uso legal, conserva ambas.

Techo de 2 GB. Una sola Nota de Voz no puede superar los 2 GB. En calidad Sin pérdidas son unas 18 horas; en Comprimida, unas 138. Las grabaciones que alcanzan el techo paran en silencio y el archivo se cierra en la marca temporal que disparó el límite.

El resumen de Apple Intelligence respeta la lista blanca de idiomas. Si la grabación está en un idioma no soportado por Apple Intelligence (vietnamita, hindi, tailandés, etc.), el botón Resumir queda oculto, incluso en un dispositivo que ejecuta Apple Intelligence en otros idiomas. El resumen de Atter AI funciona en 90+ idiomas sin lista blanca.

Apple nativo vs Atter AI

CapacidadNotas de Voz nativo (iOS)Atter AI
Precisión con audio limpio del iPhone~88–92%98,7%
Idiomas soportados13 (iOS 26)90+
Hardware requeridoNeural Engine A15+Cualquier dispositivo con navegador
Etiquetas de hablante / diarizaciónNingunaCompleta, con renombrado
Formatos de exportaciónNinguno (solo copiar y pegar)PDF, DOCX, TXT, SRT, VTT, JSON
Resumen3–6 viñetas, fijoLongitud configurable, actas estructuradas
Búsqueda entre grabacionesDe una en unaBiblioteca indexada a texto completo
CosteGratis, requiere iPhone reciente6,99 USD/sem · 49,99 USD/año · 129,99 USD vitalicio · prueba gratuita de 3 días

Para grabaciones de reuniones — donde Notas de Voz es a veces la única red de seguridad porque el organizador olvidó grabar en Zoom o Teams — combina esta guía con la guía de cómo transcribir reuniones con IA para ver las buenas prácticas de diarización y resumen, igual de aplicables a un archivo de Notas de Voz.

Preguntas frecuentes sobre la transcripción de Notas de Voz del iPhone

¿Por qué mi grabación de Notas de Voz no muestra la pestaña Transcripción?

Tres posibles razones. (1) Tu iPhone es más antiguo que el iPhone 13: el modelo de voz on-device requiere Neural Engine A15 o superior. (2) El idioma de la grabación está fuera de la lista blanca de 13 idiomas de Apple. (3) Estás en iOS 17 o anterior, antes del lanzamiento de la vista Transcripción. Cualquiera de las tres oculta el icono por completo.

¿Puedo exportar la transcripción de Notas de Voz como archivo de texto?

De forma nativa, no. Apple no ofrece ninguna acción Exportar transcripción en iOS 26. Puedes seleccionar todo y copiar para pegar en Notas o Mail, pero para obtener un .txt, .docx, .srt o .vtt debes pasar el audio por un servicio de transcripción como Atter AI.

¿iCloud sincroniza la transcripción o solo el audio?

Solo el audio. La transcripción se regenera bajo demanda en cada dispositivo la primera vez que abres allí la vista Transcripción. En Macs o iPads antiguos sin soporte para el modelo on-device, la transcripción nunca aparece aunque el audio se sincronice con normalidad.

¿Qué idiomas transcribe Notas de Voz en 2026?

En torno a 13 en iOS 26: inglés (varias regiones), español (EE. UU., México, España), mandarín (China continental, Taiwán), cantonés, francés (Francia, Canadá), alemán, italiano, japonés, coreano, portugués (Brasil, Portugal), árabe (Arabia Saudita), ruso y turco. Atter AI cubre 90+ incluyendo vietnamita, tailandés, hindi, hebreo, polaco, neerlandés, sueco, noruego, finés y la mayoría de lenguas africanas y del sudeste asiático.

¿La precisión de la transcripción de Notas de Voz del iPhone es suficiente para periodismo o uso legal?

Para notas en formato titular, sí — en audio limpio el modelo on-device de Apple ronda el 88–92%. Para transcripciones verbatim, taquigrafía judicial o cualquier contexto donde cada palabra debe ser exacta, no. La brecha del 5–10% respecto a la transcripción en la nube al 98,7% se acumula rápido en una entrevista de una hora: son 60–120 palabras mal escuchadas que hay que encontrar y corregir.

¿Atter AI necesita conexión a internet para transcribir una nota de voz?

Sí. El motor de Atter AI corre en la nube, y eso es lo que le permite sostener un techo de precisión más alto en 90+ idiomas sin depender del hardware del iPhone. Los archivos se cifran en tránsito, se transcriben y se eliminan del almacenamiento temporal tras el procesado.

¿Cómo grabo directamente en un formato transcribible sin usar Notas de Voz?

La app de Atter AI para iPhone graba y transcribe a la vez, produciendo una transcripción mientras grabas. El .m4a original se conserva como archivo hermano de la transcripción. Esto evita por completo el paso de exportación y funciona en los 90+ idiomas soportados.

¿La app de Atter AI puede leer de mi biblioteca existente de Notas de Voz?

Sí. La primera vez que concedes acceso a Notas de Voz en los Ajustes de iOS, la app de Atter AI lista cada grabación de tu biblioteca ordenada por fecha. Al seleccionar una, se importa el .m4a subyacente directamente, sin necesidad de pasar por la hoja de Compartir ni de guardar en Archivos primero.