Hola, amigos, y bienvenidos al boletín de IA regular de TechCrunch.
Esta semana en IA, Apple se llevó el protagonismo.
En la Conferencia Mundial de Desarrolladores (WWDC) de la empresa en Cupertino, Apple presentó Apple Intelligence, su esperado impulso de IA generativa en todo el ecosistema. Apple Intelligence alimenta una amplia gama de funciones, desde una Siri mejorada hasta emoji generados por IA y herramientas de edición de fotos que eliminan personas y objetos no deseados de las fotos.
La compañía prometió que Apple Intelligence se está construyendo con la seguridad en su núcleo, junto con experiencias altamente personalizadas.
“Debe entenderte y estar fundamentado en tu contexto personal, como tu rutina, tus relaciones, tus comunicaciones y más”, señaló el CEO Tim Cook durante la presentación principal del lunes. “Todo esto va más allá de la inteligencia artificial. Es inteligencia personal, y es el próximo gran paso para Apple.”
Apple Intelligence es clásicamente Apple: oculta la tecnología detallada detrás de funciones obviamente útiles e intuitivas. Pero como alguien que escribe sobre el lado oscuro de la IA para ganarse la vida, desearía que Apple fuera más transparente, aunque sea esta vez, sobre cómo se hace la salchicha.
Por ejemplo, las prácticas de entrenamiento de modelos de Apple. Apple reveló en una publicación de blog que entrena los modelos de IA que alimentan Apple Intelligence con una combinación de conjuntos de datos con licencia y la web pública. Los editores tienen la opción de no participar en entrenamientos futuros. Pero ¿qué pasa si eres un artista curioso sobre si tu trabajo fue incluido en el entrenamiento inicial de Apple? Mala suerte, la empresa no dirá nada al respecto.
La secrecía podría deberse a razones competitivas. Pero sospecho que también es para proteger a Apple de desafíos legales, específicamente desafíos relacionados con los derechos de autor. Los tribunales aún no han decidido si los proveedores como Apple tienen derecho a entrenar con datos públicos sin compensar o acreditar a los creadores de esos datos, es decir, si la doctrina de uso justo se aplica a la IA generativa.
Es un poco decepcionante ver a Apple, que a menudo se presenta como un defensor de políticas tecnológicas sensatas, implícitamente abrazar el argumento de uso justo. Oculto detrás del velo del marketing, Apple puede afirmar que está tomando un enfoque responsable y medido hacia la IA mientras es probable que haya entrenado con obras de creadores sin permiso.
Un poco de explicación iría a un largo camino. Es una lástima que no hayamos obtenido una, y no tengo esperanzas de que lo hagamos pronto, a menos que surja una demanda (o dos).
Noticias
Principales características de la IA de Apple: Su servidor reunió las principales características de IA que Apple anunció durante la presentación principal del WWDC esta semana, desde la Siri mejorada hasta las integraciones profundas con el ChatGPT de OpenAI.
Contrataciones en OpenAI: OpenAI contrató esta semana a Sarah Friar, ex CEO de la red social hiperlocal Nextdoor, para que sea su directora financiera, y a Kevin Weil, quien anteriormente lideró el desarrollo de productos en Instagram y Twitter, como su director de productos.
Correo, ahora con más IA: Esta semana, Yahoo (empresa matriz de TechCrunch) actualizó Yahoo Mail con nuevas capacidades de IA, incluidos resúmenes generados por IA de correos electrónicos. Google presentó recientemente una característica similar de resumen generativo, pero está detrás de un muro de pago.
Puntos de vista controversiales: Un estudio reciente de la Universidad Carnegie Mellon encuentra que no todos los modelos de IA generativa son iguales, especialmente en cómo tratan temas polarizadores.
Generador de sonidos: Stability AI, la startup detrás del generador de arte impulsado por IA Stable Diffusion, ha lanzado un modelo de IA abierto para generar sonidos y canciones que afirma fue entrenado exclusivamente con grabaciones libres de regalías.
Artículo de investigación de la semana
Google cree que puede construir un modelo de IA generativa para la salud personal, o al menos dar pasos preliminares en esa dirección.
En un nuevo artículo presentado en el blog oficial de Google AI, investigadores de Google levantan el velo sobre Personal Health Large Language Model, o PH-LLM para abreviar, una versión ajustada de uno de los modelos Gemini de Google. PH-LLM está diseñado para dar recomendaciones para mejorar el sueño y la condición física, en parte leyendo datos de ritmo cardíaco y respiración de dispositivos ponibles como relojes inteligentes.
Para probar la capacidad de PH-LLM para dar sugerencias útiles de salud, los investigadores crearon cerca de 900 estudios de casos de sueño y condición física involucrando a sujetos en Estados Unidos. Descubrieron que PH-LLM daba recomendaciones de sueño que eran cercanas, pero no tan buenas como las recomendaciones dadas por expertos humanos en sueño.
Los investigadores dicen que PH-LLM podría ayudar a contextualizar los datos fisiológicos para “aplicaciones de salud personal”. Google Fit viene a la mente; no me sorprendería ver a PH-LLM alimentando eventualmente alguna nueva característica en una aplicación de Google centrada en el fitness, ya sea Fit u otra.
Modelo de la semana
Apple dedicó bastante texto de blog detallando sus nuevos modelos de IA generativa en dispositivos y en la nube que componen su suite Apple Intelligence. Sin embargo, a pesar de lo extenso que es este artículo, revela muy poco sobre las capacidades de los modelos. Aquí está nuestro mejor intento de interpretarlo:
El modelo sin nombre en el dispositivo que destaca Apple es de tamaño pequeño, sin duda para que pueda funcionar sin conexión en dispositivos Apple como el iPhone 15 Pro y Pro Max. Contiene 3 mil millones de parámetros, siendo “parámetros” las partes del modelo que básicamente definen su habilidad en un problema, como la generación de texto, lo cual lo hace comparable al modelo Gemini Nano en dispositivos de Google, que viene en tamaños de 1.8 mil millones de parámetros y 3.25 mil millones de parámetros.
Por otro lado, el modelo del servidor es más grande (cuánto más grande, Apple no lo dirá con exactitud). Lo que sabemos es que es más capaz que el modelo del dispositivo. Mientras que el modelo del dispositivo tiene un rendimiento similar a modelos como el Phi-3-mini de Microsoft, el Mistral 7B de Mistral y el Gemma 7B de Google en las pruebas que Apple enumera, el modelo del servidor "se compara favorablemente" con el modelo insignia anterior de OpenAI, GPT-3.5 Turbo, según afirma Apple.
Apple también dice que tanto el modelo en el dispositivo como el modelo del servidor son menos propensos a desviarse (es decir, a emitir toxicidad) que modelos de tamaños similares. Eso puede ser así, pero este escritor está reservando su juicio hasta que tengamos la oportunidad de poner a prueba Apple Intelligence.
Variedad
Esta semana se cumplió el sexto aniversario del lanzamiento de GPT-1, el precursor de GPT-4o, el último modelo de IA generativa insignia de OpenAI. Y aunque el aprendizaje profundo podría estar llegando a un límite, es increíble lo lejos que ha llegado el campo.
Consideren que se tomó un mes para entrenar a GPT-1 en un conjunto de datos de 4.5 gigabytes de texto (el BookCorpus, que contiene ~7,000 libros de ficción inéditos). GPT-3, que es casi 1,500 veces el tamaño de GPT-1 en cantidad de parámetros y significativamente más sofisticado en la prosa que puede generar y analizar, tardó 34 días en entrenar. ¿Qué les parece esa escalabilidad?
Lo que hizo a GPT-1 innovador fue su enfoque de entrenamiento. Técnicas anteriores dependían de vastas cantidades de datos etiquetados manualmente, limitando su utilidad. (Etiquetar datos manualmente es una tarea que consume mucho tiempo y laboriosa). Pero GPT-1 no lo hacía; se entrenó principalmente en datos no etiquetados para “aprender” cómo realizar una serie de tareas (por ejemplo, escribir ensayos).
Muchos expertos creen que no veremos un cambio de paradigma tan significativo como el de GPT-1 pronto. Pero, una vez más, el mundo tampoco vio venir a GPT-1.