Las grabaciones de la vida de un beb de un ao entrenan a una IA para aprender palabras



Desde su nacimiento, los bebs comienzan a recibir estmulos visuales y auditivos, esenciales para aprender algo imprescindible en sus vidas: el lenguaje. Entre los seis y nueve meses, comienzan a hablar, asocian sonidos con objetos y conceptos del mundo real. Al llegar a los dos aos, ya suelen contar con un vocabulario de aproximadamente 300 palabras. Pero, cmo se desarrolla este proceso de aprendizaje? Un equipo de investigadores de la Universidad de Nueva York estudi grabaciones de la vida cotidiana de un nio durante su primer ao de vida para encontrar la respuesta. El experimento no solo confirm la conexin entre la representacin visual y lingstica es decir, lo que se ve y la palabra que le corresponde, sino que tambin contribuy al desarrollo de un modelo de inteligencia artificial (IA), que ha logrado reconocer distintos objetos de manera similar a como lo hacen los nios.Los grandes sistemas de IA se entrenan y funcionan gracias a una cantidad de datos astronmica. Hablamos de miles de millones de palabras para poder desarrollar un sistema de lenguaje, explica Wai Keen Vong, doctor en psicologa y ciencia computacional, que ha coordinado del estudio que se ha publicado este jueves en la revista Science. Sin embargo, los humanos necesitan solo unos pocos miles de palabras para alcanzar un sistema de comunicacin eficiente, aade. De este contraste, naci el inters en investigar si una IA sera capaz de aprender a hablar de la misma forma que los nios: observando su entorno, escuchando a las personas que los rodean y conectando puntos entre lo que ven y oyen.Ms informacinLa adquisicin temprana del lenguaje es un tema ampliamente debatido y por el cual se han propuesto varias hiptesis. Tradicionalmente, este tipo de estudios se ha llevado a cabo en entornos controlados de laboratorio, lo que ha dado como resultado descubrimientos que a menudo no se extrapolan eficazmente a contextos ms dinmicos y variados del mundo real. La novedad de este anlisis reside en el hecho de que pudimos trabajar con datos de primera mano, derivados de una situacin real de aprendizaje, recalca Vong.Con este objetivo, el equipo de Vong analiz 61 horas de la vida de Sam, un nio australiano que durante un ao y medio desde los seis a los 25 meses de edad llev un casco con una cmara que grababa las interacciones que tena con sus padres y abuelos en el da a da. En realidad, grab solamente el 1% del tiempo que pas despierto durante la duracin del experimento. Aun as, se han logrado cientos de imgenes que reproducen exactamente lo que el nio estaba viendo, acompaadas por las expresiones lingsticas de sus familiares, que le explicaban la naturaleza de los objetos que lo rodeaban. Por ejemplo, durante la hora de la comida, la cmara en su cabeza grababa la imagen de una cuchara, al mismo tiempo que su madre le preguntaba algo relacionado con ese utensilio. Y as, con decenas de objetos cotidianos, explica Vong.La conexin entre estos dos medios casi nunca es obvia. De hecho, el investigador reconoce que parte del desafo para los bebs es entender exactamente qu palabra se asocia al objeto con el que estn interactuando. La mayora del tiempo, los padres no estn etiquetando cada objeto. Por cada pelota que Sam estaba mirando, sus padres no le decan esta es una pelota, mira la pelota. Escuchaba las palabras en un contexto natural, y la dificultad es justamente averiguar, dentro de una oracin ms o menos larga, cul es la palabra que corresponde al objeto redondo con el que estaba jugando, seala Vong.Entrenar una IA como un bebTras observar el comportamiento del nio, los investigadores pudieron confirmar que aprenda el significado de las palabras conectando el estmulo visual es decir, la imagen que se le presentaba con la respuesta de sus familiares, que repetan la palabra correspondiente. Con estos resultados, han pasado a la segunda fase del experimento: verificar si una IA sera capaz de aprender a reconocer los objetos de la misma forma que lo hizo Sam.El modelo de inteligencia artificial, llamado CVCL (Childs View for Contrastive Learning, aprendizaje contrastivo desde la perspectiva del nio), ha sido entrenado con 64 categoras visuales utensilios, juguetes, animales, entre otras y la transcripcin de lo que Sam estaba escuchando mientras miraba a estos objetos. Una vez creada esta base de datos, los investigadores han empezado a hacer pruebas para comprobar si la IA era capaz de identificar las imgenes. Segn Vong, el modelo con informacin sensorial limitada y mecanismos de aprendizaje relativamente genricos proporciona una base computacional para investigar cmo los nios adquieren sus primeras palabras y cmo esas palabras pueden conectarse al mundo visual.Encontramos que CVCL puede aprender a hacer conexiones entre imgenes y texto a partir de fragmentos limitados de la experiencia de un solo nio, destacan los autores en el estudio. En algunos casos, los objetos figuraban sobre un fondo blanco, mientras que en otros en un entorno con ms estmulos. De hecho, la precisin de clasificacin del modelo fue del 61.6%, y se mantuvo alta incluso cuando se insertaron en el sistema imgenes diferentes a las grabaciones de Sam, con las cuales la IA no haba sido entrenada. Los resultados confirman nuestra hiptesis de que con solamente dos impulsos, que son lo que el nio ve y lo que oye, es posible alcanzar y acelerar este tipo de aprendizaje, destaca Vong.Estudiar cmo nace el hablaAntonio Rodrguez Fornells, investigador en el Instituto de Neurociencias de la Universidad de Barcelona, seala el aspecto novedoso del estudio, que abre paso para entender, mediante simulaciones computacionales, cules son los mecanismos de aprendizaje mnimos que utilizan los nios para afrontar el reto de aprender un lenguaje: Los estudios previos en bebs en psicologa del desarrollo aportan informacin clave con experimentos muy novedosos, pero la falta de estudios de neurociencia o neuroimagen en los mismos (por la dificultad de aplicar estas tcnicas en bebs) no permite que se avance tanto en la neurociencia como para esclarecer los mecanismos cerebrales que sustentan estos procesos de adquisicin del lenguaje, explica este neurocientfico.Adems, reconoce que las simulaciones que se plantean en el artculo respaldan ciertas teoras del lenguaje propuestas anteriormente. Entre ellas, que simplemente con mecanismos simples de aprendizaje asociativo (que permiten vincular imgenes y palabras) en un entorno de aprendizaje natural (como el que experimentan los nios cuando nacen y en los primeros meses de su vida) es suficiente para poder aprender estas relaciones y generalizar el contenido del significado, aade Rodrguez Fornells.Aun as, el estudio presenta algunas limitaciones. El modelo CVCL se entren con grabaciones de una sola cmara montada en la cabeza de un solo nio, y aprendi a travs de las transcripciones de voz en lugar de voz directa, lo que omite matices importantes como la entonacin y el nfasis. Tambin hay que recordar que el aprendizaje del modelo fue pasivo, basado en grabaciones, sin interaccin activa con el entorno, lo cual es diferente a cmo los nios aprenden en entornos reales, reconocen los autores de la investigacin.Puedes seguir a MATERIA en Facebook, X e Instagram, o apuntarte aqu para recibir nuestra newsletter semanal.