“Lee los labios” mediante sonidos
Crean un radar inteligente que convierte las vibraciones del móvil en palabras legibles
La IA puede espiar llamadas telefónicas desde 3 metros de distancia, sin alterarse por el ruido ambiental

Un radar milimétrico detecta las vibraciones de un teléfono para reconstruir fragmentos de una llamada, incluso en entornos ruidosos. / ChatGPT/T21
Redacción T21
Un equipo de la universidad estatal de Pensilvania ha logrado transcribir fragmentos de llamadas sin escuchar el aire, sino leyendo a distancia el temblor del teléfono. Un avance brillante, pero también una advertencia de seguridad.
Lo que parecía imposible se ha hecho realidad: alguien habla por teléfono en un pasillo concurrido y, a tres metros de distancia, un dispositivo silencioso apunta hacia el móvil. Minutos después, fragmentos de esa conversación aparecen transcritos en una pantalla, pese al ruido ambiente y sin que ningún micrófono haya estado cerca.
Eso—con matices—es lo que ha conseguido WirelessTap, un sistema de investigación de la Universidad Estatal de Pensilvania que usa radar milimétrico y modelos avanzados de reconocimiento de voz (ASR, por sus siglas en inglés) para extraer y transcribir, parcialmente, lo que se dice en una llamada mediante las diminutas vibraciones del auricular del teléfono. Los resultados de esta investigación se han publicado en las Actas de WiSec 2025, la 18.ª Conferencia ACM sobre Seguridad y Privacidad en Redes Inalámbricas y Móviles, celebrada el a finales de junio en Arlington, Virginia, EE. UU.
La idea técnica es simple: cuando alguien habla al otro lado de la llamada, el altavoz de oído vibra, y esas vibraciones se propagan por el chasis con desplazamientos de micras, imperceptibles para nosotros, pero detectables por un radar mmWave comercial.
WirelessTap dirige un radar FMCW de 77–81GHz a la parte trasera del teléfono y mide, con precisión de fase, cómo “respira” su superficie. Al encadenar esas variaciones en el tiempo, obtiene una señal parecida a un audio: banda útil muy limitada y baja reducción de ruido promedio (SNR o Single Number Rating), pero con suficiente huella del habla para intentar reconocer palabras.
Papel de la IA
El radar en realidad no “escucha” voces: registra micromovimientos en la carcasa que se convierten en un “radar-audio” ininteligible para un humano o un micrófono. Ahí entra la IA: los investigadores adaptaron Whisper, un sistema abierto de reconocimiento automático del habla, creando primero datos sintéticos que imitan el espectro y ruido del radar-audio y afinándolo después con un pequeño conjunto real.
Con una eficiente tecnología de comunicación inalámbrica de largo alcance (LoRA), ajustaron alrededor del 1% de los parámetros del modelo, evitando reentrenarlo por completo y enseñándolo a “leer” patrones débiles y parciales hasta producir texto con precisión limitada, pero operativa. El comunicado de Penn State resume el resultado: transcripciones desde hasta 3m obtienen alrededor del 60% de acierto en vocabularios de hasta 10.000 palabras, suficiente para captar palabras clave o números con implicaciones de privacidad.
Luces y sombras
Los resultados son, no obstante, limitados. En laboratorio, WirelessTap transcribe oraciones completas con una precisión de palabras que alcanza el 59.25% de éxito a 50cm, pero que cae hasta el 2–4% a 300cm, con degradación acorde a la pérdida de SNR por distancia. Las tasas por carácter son más altas, como es habitual en ASR.
En pruebas con una persona sosteniendo el móvil contra la oreja, la señal útil queda casi sepultada por respiración, latidos y micromovimientos musculares, pero filtros y umbrales ad hoc permiten recuperar fragmentos que desvelan la oportunidad. Además, el equipo afronta y mitiga “alucinaciones” del modelo—repeticiones espurias—con detección y recortes basados en subsecuencias comunes, y muestra que la tasa de alucinación aumenta a medida que baja la SNR.
Referencia
Wireless-Tap: Automatic Transcription of Phone Calls Using Millimeter-Wave Radar Sensing. Suryoday Basak, Mahanth Gowda. WiSec 2025: 18th ACM Conference on Security and Privacy in Wireless and Mobile Networks, Pages 4 – 15. DOI:https://doi.org/10.1145/3734477.3734708
Conviene subrayarlo: no es una transcripción limpia ni comparable a asistentes de voz; se parece más bien a “leer los labios” con radar. Con un 30–60% de acierto en palabras, el sistema captura términos, cifras o partes del contexto y ese poco puede bastar para inferir información sensible si el atacante tiene pistas previas. Frente a un micrófono, el radar tiene una ventaja estratégica: no sufre el ruido ambiente del mismo modo, porque no oye el aire, sino que mide la vibración mecánica de la carcasa: donde la algarabía ciega a un micrófono, el radar sigue viendo el “latido” físico del teléfono.
Medidas preventivas
La precisión, de momento, es limitada y la configuración, aún de investigación, pero el trabajo anticipa escenarios plausibles conforme se miniaturicen sensores y mejoren antenas, potencias y anchos de banda, algo previsible a medio plazo. Aunque todavía no es un arma lista para desplegar, Wireless-Tap representa un nuevo vector de ataque que se beneficia de tres tendencias a la vez: mmWave baratos y ubicuos, modelos de IA cada vez más robustos y adaptables, y una sociedad que habla por teléfono en espacios compartidos.
Los autores proponen para la industria medidas defensivas ante esta nueva realidad: inyectar “ruido” mecánico con el motor de vibración, contravibraciones en el auricular, materiales y diseños que amortigüen la transmisión, o lógicas de firmware que alteren el patrón vibratorio ante señales sospechosas.
A nivel de usuarios, recomiendan evitar espacios con línea de vista cercana al teléfono en conversaciones sensibles; en entornos de alta seguridad, dejar móviles fuera o en bolsas de bloqueo, y tratar salas y dispositivos para amortiguar vibraciones.
Contexto: escuchas a distancia
WirelessTap se suma a una genealogía de escuchas remotas—micrófonos láser sobre ventanas, recuperación de vibraciones con cámaras, o el uso de sensores inerciales del propio teléfono—que explotan una misma verdad física: cuando suena una voz, algo vibra.
Y llega en un ecosistema donde el smartphone ya funciona como sensor cotidiano para perfilar hábitos y tendencias, con un mercado de datos que alimenta segmentación publicitaria y analítica de audiencias.
El nuevo riesgo es que, además, las propias vibraciones del dispositivo puedan delatar fragmentos de conversaciones en entornos ruidosos, sin nuestro consentimiento.
- Un telesilla averiado, problemas con la telecabina y cañones de nieve que no funcionan: 'Cabreo y desesperación' ante el accidentado inicio de temporada en Pajares
- El gran supermercado que abrirá sus puertas en Asturias después del puente de la Constitución: una promoción especial, un vale de cinco euros por cada diez euros de compra del 9 al 13 de diciembre
- Vuelve a Asturias la gran tienda outlet de marcas Cortefiel, Pedro del Hierro, Women’secret, Levi’s o Jack and Jones, entre otras
- La nueva gran plaza de 2.000 metros cuadrados que está a punto de inaugurarse en el centro de Oviedo
- Colas en Lidl para conseguir ya el soplador de aire inalámbrico que deja los plumíferos y anoraks de invierno como nuevos después de meterlos en la lavadora: adiós a la secadora
- El éxito de un mercadillo navideño en una localidad muy alejada del centro de Asturias que tiene lista de espera: 'Empezamos con 50 puestos y este año tuvimos que cerrar en 100
- Colas en Decathlon para hacerse con la nueva bicicleta de montaña eléctrica que tiene una rebaja de 400 euros por tiempo limitado
- Los restaurantes asturianos, a rebosar de reservas hasta enero, detectan un cambio en las costumbres: 'Ahora arrasan las comidas en vez de las cenas