Apple lanza MGIE, una IA para editar imgenes: cmo funciona y cmo probarla?



Apple anunci el lanzamiento de MGIE, un nuevo modelo de inteligencia artificial y cdigo abierto que puede editar imgenes con base en instrucciones de lenguaje natural. El desarrollo es el resultado de una investigacin realizada en colaboracin con la Universidad de California en Santa Brbara.El algoritmo trabaja bajo el principio de edicin de imgenes guiada. El procedimiento aprovecha los beneficios de los modelos de lenguaje grande multimodal (MLLM, por sus siglas en ingls) para interpretar los prompts del usuario y manipular los contenidos a nivel de pixel.OpenAI quiere desarrollar hardware de la mano de Jony Ive, ex director de diseo de AppleCon un gadget diseado para capitalizar las ventajas de la inteligencia artificial, OpenAI estara un paso adelante de sus competidores para dominar el naciente negocio.Las indicaciones humanas a veces son demasiado breves para que los mtodos actuales puedan captarlas y cumplirlas. Los MLLM tiene capacidades prometedoras en la comprensin intermodal y la generacin de respuestas visuales a travs de grandes modelos de lenguaje. Investigamos cmo los MLLM facilitan la comprensin e interpretacin de las instrucciones de edicin. MGIE aprende a derivar instrucciones expresivas y proporciona orientacin explcita, explicaron los autores.El mtodo propuesto por MGIE utiliza los MLLM de dos formas. En principio, a partir de las indicaciones en texto que ingresa el usuario, deriva instrucciones expresivas, concisas y claras que orientan de manera explcita el proceso de edicin. Por ejemplo, al introducir la fotografa de un paisaje e ingresar el prompt hacer que el pasto sea ms verde, el sistema reinterpreta la orden para generar la solicitud incrementar la saturacin de color en la regin del pasto en 20%. Esta ltima es la que gua el procedimiento de modificacin.En una segunda fase, emplea los grandes modelos multimodales para producir una representacin explcita (imaginacin visual) de la edicin deseada, que captura la esencia del cambio solicitado y orienta la manipulacin de la imagen pxel por pxel. El esquema de capacitacin de extremo a extremo, que involucra la derivacin de instrucciones, imaginacin visual y alteracin final del contenido, permite a MGIE realizar ediciones sin disponer de un amplio contexto y entregar respuestas razonables basadas en comandos ambiguos. Segn los investigadores, el modelo puede conducir a una mejora notable en las mtricas automticas y la evaluacin humana manteniendo al mismo tiempo una eficiencia de inferencia competitiva.Qu puede hacer MGIE, el nuevo modelo de IA de AppleMGIE es capaz de realizar ajustes simples de color, temperatura, iluminacin, tamao y orientacin as como otros ms complejos como cambiar la expresin del retrato de una persona, aadir o quitar elementos, modificar el fondo de una imagen y combinar dos grficos. Todas las opciones pueden aplicarse de forma global o en zonas especficas del contenido, segn la preferencia del usuario.La aplicacin prctica del sistema promete reducir los tiempos de edicin y optimizar la utilizacin de herramientas basadas en IA generativa para entregar una mejor experiencia de uso. Los usuarios pueden personalizar los resultados entregados aadiendo indicaciones adicionales.Cmo probar MGIE?El nuevo modelo de IA de Apple est disponible en GitHub como un proyecto de cdigo abierto. Dentro de la plataforma, los interesados pueden consultar el cdigo de programacin, los datos de entrenamiento del algoritmo, algunos sistemas previamente entrenados y un manual de demostracin que explica cmo utilizar MGIE en diversos escenarios de edicin.El sistema puede integrarse a servicios y aplicaciones existentes que requieren de funciones de manipulacin de contenidos visuales. Los desarrolladores han puesto a disposicin de los usuarios una versin de prueba en lnea del programa en Hugging Face Spaces, sitio web para probar herramientas de aprendizaje automtico.MGIE es un proyecto de investigacin. Se desconoce si Apple tiene planes para incorporar esta tecnologa a sus servicios o gadgets disponibles en el mercado. Con el lanzamiento del nuevo modelo, la big tech de Cupertino refuerza su apuesta en desarrollar sistemas de IA avanzados. En meses pasados present MLX, un algoritmo que facilita la creacin de modelos de aprendizaje automtico.La semana pasada, Tim Cook, CEO de Apple, confirm que la empresa trabaja en diversas funciones de inteligencia artificial generativa. Las funciones se lanzarn al mercado ms adelante este ao, segn el ejecutivo. Los analistas anticipan que dicha tecnologa se incorporar en iOS 18 e implicara una actualizacin mayor para Siri, el asistente de voz de la firma.