banner
Hogar / Blog / Un nuevo implante cerebral ayuda a una mujer paralizada a hablar usando un avatar digital
Blog

Un nuevo implante cerebral ayuda a una mujer paralizada a hablar usando un avatar digital

Jun 12, 2023Jun 12, 2023

Las neuroprótesis del habla emergentes pueden ofrecer una forma de comunicarse para las personas que no pueden hablar debido a una parálisis o una enfermedad, pero aún no se ha demostrado una decodificación rápida y de alto rendimiento. Ahora, un nuevo trabajo transformador realizado por investigadores de la UCSF y la UC Berkeley muestra que es posible una decodificación del habla más natural utilizando los últimos avances en inteligencia artificial.

Dirigidos por el neurocirujano de la UCSF Edward Chang, los investigadores han desarrollado un dispositivo implantable impulsado por IA que, por primera vez, traduce señales cerebrales en habla modulada y expresiones faciales. Como resultado, una mujer que perdió la capacidad de hablar debido a un derrame cerebral pudo hablar y transmitir emociones utilizando un avatar digital parlante. Los investigadores describen su trabajo en un estudio publicado hoy (miércoles 23 de agosto) en la revista Nature.

El coautor del estudio, Gopala Anumanchipalli, profesor asistente y Ph.D. La estudiante y coautora principal Kaylo Littlejohn, ambas del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de UC Berkeley, discutieron este innovador estudio con Berkeley Engineering. Las siguientes preguntas y respuestas han sido editadas para mayor extensión y claridad.

Esteestudiar es innovador en muchos sentidos. ¿Cuál fue tu papel y qué te propusiste hacer?

Gopala Anumanchipalli, profesor asistente de ingeniería eléctrica e informática. (Foto cortesía de Gopala Anumanchipalli)

Gopala: Hay una historia de una década detrás de este proyecto. Cuando era postdoctorado en el laboratorio de Edward Chang, teníamos la misión de comprender la función cerebral que subyace a la producción fluida del habla y también traducir algunos de estos hallazgos de la neurociencia en soluciones de ingeniería para aquellos que están completamente paralizados y tienen problemas de comunicación. Investigamos formas de realizar síntesis del habla a partir de grabaciones de actividad cerebral mientras trabajábamos con pacientes con epilepsia. Pero estos son oradores capacitados. Este trabajo de prueba de principio se publicó en Nature en 2019. Entonces teníamos algún tipo de indicio de que podíamos leer el cerebro. Luego pensamos que deberíamos intentar utilizar esto para ayudar a las personas paralizadas, que fue el objetivo del ensayo clínico BRAVO [BCI Restoration of Arm and Voice].

Esa prueba, que utilizó un nuevo dispositivo llamado neuroprótesis del habla, tuvo éxito y demostró que podíamos decodificar palabras completas a partir de la actividad cerebral. Le siguió otro estudio en el que logramos decodificar más de 1.000 palabras para crear una interfaz ortográfica. El participante podría decir cualquier palabra en clave de la OTAN, como Alfa, Bravo, Charlie, y hacer que se transcriba. Mejoramos los modelos de aprendizaje automático utilizados para decodificar el habla, específicamente mediante el uso de decodificadores que tenían modelos fonéticos y de lenguaje explícitos que pasaban de estas palabras clave a oraciones fluidas, como la forma en que Siri reconocería su voz.

En este proyecto, nos propusimos aumentar el vocabulario y la precisión, pero lo más importante es que buscábamos ir más allá de decodificar la ortografía. Queríamos pasar directamente al lenguaje hablado porque ese es nuestro modo de comunicación y es la forma más natural de aprender.

La motivación detrás del avatar era ayudar al participante a sentirse encarnado, a ver una semejanza y luego controlar esa semejanza. Entonces, para ese propósito, queríamos brindar una experiencia de comunicación multimodal.

¿Cómo tradujiste las señales cerebrales en habla y expresión? ¿Cuáles fueron algunos de los desafíos de ingeniería que encontró en el camino?

Kaylo LIttlejohn, EECS Ph.D. estudiante y coautor principal del innovador estudio sobre neuroprótesis del habla realizado por UCSF y Berkeley Engineering. (Imagen del vídeo de Pete Bell, UCSF)

Kaylo: Debido a que las personas con parálisis no pueden hablar, no tenemos lo que están tratando de decir como una verdad fundamental para mapear. Por eso incorporamos una técnica de optimización del aprendizaje automático llamada pérdida de CTC, que nos permitió mapear señales cerebrales en unidades discretas, sin la necesidad de audio "verdadero". Luego sintetizamos las unidades discretas predichas en voz. Las unidades discretas del habla codifican aspectos como el tono y el tono, que luego se sintetizan para crear un audio que se acerca más al habla natural. Son esas inflexiones y cambios de cadencia las que transmiten mucho significado en el habla más allá de las palabras reales.

En el caso del texto, Sean Metzger [coautor principal y Ph.D. estudiante del Programa conjunto de Bioingeniería de UC Berkeley y UCSF] dividió palabras en fonemas.

También ampliamos esto a modos de comunicación más naturales, como el habla y las expresiones faciales, en los que las unidades discretas son gestos articulatorios, como movimientos específicos de la boca. Podemos predecir los gestos a partir de la actividad cerebral y luego transformarlos en cómo se mueve la boca.

Para la animación facial, trabajamos con Speech Graphics para animar los gestos y el habla en un avatar digital.

Gopala: Para subrayar el punto de Kaylo, utilizamos toda la tecnología de inteligencia artificial existente para simular esencialmente cuál sería un resultado válido para una oración determinada. Y lo hacemos utilizando los datos de voz que están disponibles en los grandes modelos de voz utilizados por Siri, Google Assistant y Alexa. Así tenemos una idea de lo que es una secuencia válida de unidades representativas para una lengua hablada. A eso podría corresponder la señal cerebral. Por ejemplo, la participante estaba leyendo oraciones y luego utilizamos pares simulados de estos datos: la entrada proviene de señales cerebrales y la salida es la secuencia de códigos discretos predichos a partir de estos grandes modelos de lenguaje hablado.

También pudimos personalizar la voz de la participante utilizando una grabación de video de ella pronunciando un discurso en su boda hace unos 20 años. En cierto modo ajustamos los códigos discretos a su voz. Una vez que tuvimos este alineamiento emparejado que habíamos simulado, utilizamos el método de alineamiento de secuencia que Kaylo había mencionado, la pérdida de CTC.

Una parte importante de esta prótesis del habla multimodal es el avatar. ¿Hubo consideraciones o desafíos especiales con el uso de ese tipo de componente visual?

Kaylo: La principal motivación para utilizar este avatar es proporcionar una salida complementaria a la decodificación de voz y texto. El avatar se puede utilizar para transmitir muchas expresiones no verbales. Por ejemplo, en el artículo demostramos que podíamos decodificar la capacidad del participante para sonreír, fruncir el ceño o hacer una mueca de sorpresa, y en diferentes intensidades, de menor a mayor. Además, demostramos que podíamos decodificar gestos articulatorios ajenos al habla, como abrir la boca, fruncir los labios, etc.

La participante quiere algún día trabajar como consejera y expresó que para ella sería valioso poder transmitir emociones a través de expresiones faciales.

Dicho esto, el desafío de usar un avatar es que debe ser de alta fidelidad, para que no parezca demasiado irreal. Cuando comenzamos este proyecto, trabajamos con un avatar muy tosco, que no era muy realista y no tenía un modelo de lengua. Como neuroingenieros, necesitábamos un avatar de alta calidad que nos permitiera acceder a su sistema muscular y del tracto vocal. Por lo tanto, era fundamental encontrar una buena plataforma para hacerlo.

Mencionaste decodificar las señales que controlan la expresión facial. ¿Podrías hablar un poco más sobre cómo hiciste eso?

El coordinador de investigación clínica, Max Dougherty, conecta un puerto de datos neuronales en la cabeza de Ann al sistema de neuroprótesis del habla como parte de un estudio dirigido por el Dr. Ed Chang de la UCSF. (Foto de Noé Berger)

Gopala: Aquí hay una analogía: una pieza musical se puede dividir en notas discretas, y cada nota captura un tipo de tono muy diferente. Piense en los códigos discretos que Kaylo menciona en estas notas. Y hay un correlato para la nota en términos de cómo suena, pero también hay un correlato para lo que debe suceder para que se produzca ese sonido. Entonces, si la nota es para el sonido “pa”, suena como “pa”, pero también encarna la acción de los labios frunciéndose y soltándose.

El mecanismo está codificado por estas unidades que maneja el avatar, y el sonido es donde ocurre la síntesis. Básicamente, estamos descomponiendo la secuencia del neurohabla en una secuencia discreta de notas.

Kaylo: Imagínese la frase: "Oye, ¿cómo te va?" Hay una secuencia de movimientos del tracto vocal asociados con ese sonido. Y podemos entrenar un modelo que tome esos movimientos musculares y los convierta en ese código discreto, similar a las notas musicales. Y luego podemos predecir ese código discreto del cerebro, y desde allí, volver al movimiento continuo del tracto muscular, y eso es lo que impulsa al avatar.

¿Cómo ha jugado un papel la IA en el desarrollo de esta nueva interfaz cerebro-computadora y de la comunicación multimodal?

Gopala: Todos los algoritmos y elementos desarrollados para que Alexa funcione son realmente clave para que esto se haga realidad. Así que, en términos generales, no podríamos hacerlo sin la IA. Y por IA me refiero no solo a la IA actual como ChatGPT, sino a la ingeniería central que ha permitido décadas de IA y aprendizaje automático.

Más importante aún, todavía estamos limitados en términos de a qué parte del cerebro podemos acceder con implantes neuronales, por lo que nuestra visión es muy escasa. Básicamente, estamos espiando por el ojo de una cerradura, por lo que siempre tendremos que usar IA para completar los detalles que faltan. Es como si pudieras darle a la IA un boceto en bruto y ella pudiera completar los detalles para hacerlo más realista.

Finalmente, cuando llegamos al punto de una solución de forma completamente cerrada para una prótesis, el objetivo es encontrar un interlocutor. Podría ser una IA que funcione con cualquier señal que detecte de la persona, pero, al igual que ChatGPT, también utiliza una gran cantidad de estadísticas sobre la mejor manera de responder para que sea una respuesta más apropiada al contexto.

¿Hubo algún hallazgo sorprendente relacionado con su trabajo?

Kaylo: Una cosa muy importante es que mostramos que las representaciones del tracto vocal se conservan en el cerebro del participante. Sabemos por estudios de participantes sanos que cuando alguien intenta hablar, esos movimientos de la boca están codificados en su corteza. Pero no estaba claro si ese sería el caso de alguien que padece una parálisis grave. Por ejemplo, ¿esas regiones se atrofian con el tiempo o siguen ahí esas representaciones que podemos utilizar para decodificar el habla?

Confirmamos que sí, las representaciones articulatorias o del tracto vocal se conservan en la corteza del participante, y eso es lo que permite que estas tres modalidades funcionen.

Gopala: ¡Exactamente! Así, la parte del cerebro aún conserva estos códigos en el lugar correcto. En cierto modo ganamos un premio gordo allí. Porque si hubiera pérdida, la cirugía habría sido en vano. Y la IA está ayudando allí, completando los detalles también. Pero también ayuda a que el participante se sienta encarnado y aprenda nuevas formas de hablar, y eso es clave para pasar a la siguiente etapa.

Dicho esto, la IA actual se centra en las computadoras, no en los humanos. Necesitamos repensar lo que debería ser la IA cuando hay un ser humano en el circuito y hacer que esté más centrada en el ser humano, en lugar de hacer sus propias cosas. Necesita compartir su autonomía con el humano, para que éste pueda seguir en el asiento del conductor, mientras que la IA es el agente cooperativo.

¿Cuáles cree que serán sus próximos pasos?

Kaylo: Para uso en el mundo real, será realmente importante tener un decodificador estable que funcione a largo plazo. Sería ideal si pudiéramos desarrollar algo que la participante pudiera llevarse a casa y usar en el día a día durante varios años, sin necesidad de otra neurocirugía.

Gopala: Creo que el siguiente paso lógico inmediato es reducir la latencia involucrada en el proceso. Entonces, en lugar de tener unos segundos de retraso entre que el participante piensa lo que quiere decir y las palabras que salen de la boca del avatar, minimizaríamos la latencia hasta el punto de que el proceso se sienta como tiempo real para ella.

También deberíamos considerar la posibilidad de miniaturizar la prótesis y convertirla en un dispositivo independiente, muy parecido a un marcapasos. Debe actuar por sí solo, funcionar solo y estar siempre con el participante, sin que los investigadores manejen el aparato.

¿Cómo influyó la asociación entre UCSF y Berkeley Engineering en el éxito de este proyecto?

Gopala: Este estudio utiliza en gran medida herramientas que desarrollamos aquí en Berkeley, que a su vez están inspiradas en los conocimientos neurocientíficos de la UCSF. Es por eso que Kaylo es un enlace tan clave entre la ingeniería, la ciencia y la medicina: participa en el desarrollo de estas herramientas y también en su implementación en un entorno clínico. No podía ver que esto sucediera en ningún otro lugar que no fuera lo mejor en ingeniería y lo mejor en medicina, a la vanguardia de la investigación.

Kaylo: No creo que este proyecto hubiera sucedido si no hubiéramos tenido todos los recursos proporcionados tanto por Berkeley como por la UCSF. Aprovechamos muchos avances recientes en ingeniería, inteligencia artificial y nuestra comprensión del procesamiento neuronal del habla para que este proyecto funcione bien. Este es un gran ejemplo de dos instituciones que se unen y crean una buena investigación.

Esteestudiar es innovador en muchos sentidos. ¿Cuál fue tu papel y qué te propusiste hacer?Gopala: ¿Cómo tradujiste las señales cerebrales en habla y expresión? ¿Cuáles fueron algunos de los desafíos de ingeniería que encontró en el camino?Kaylo:Gopala: Una parte importante de esta prótesis del habla multimodal es el avatar. ¿Hubo consideraciones o desafíos especiales con el uso de ese tipo de componente visual?Kaylo: Mencionaste decodificar las señales que controlan la expresión facial. ¿Podrías hablar un poco más sobre cómo hiciste eso?Gopala:Kaylo:¿Cómo ha jugado un papel la IA en el desarrollo de esta nueva interfaz cerebro-computadora y de la comunicación multimodal?Gopala:¿Hubo algún hallazgo sorprendente relacionado con su trabajo?Kaylo:Gopala:¿Cuáles cree que serán sus próximos pasos?Kaylo:Gopala:¿Cómo influyó la asociación entre UCSF y Berkeley Engineering en el éxito de este proyecto?Gopala:Kaylo:Temas: