¿Cuánto valen mil imágenes?

¿Cuánto valen mil imágenes?

¿Cuánto valen mil imágenes?

A lo largo de la historia, múltiples veces se intentó dar definiciones de la inteligencia humana, y muchas veces estas definiciones fueron criticadas y abandonadas. Inclusive, podríamos pensar que la pregunta misma está mal planteada (a Alan Turing le gusta esto). Sin embargo, no debería ser muy difícil ponernos de acuerdo en un listado más o menos comprensivo de características distintivas, como por ejemplo agencia, creatividad, emocionalidad, entre otras.

En los últimos años fuimos testigxs de cómo muchas de estas características dejaron de ser exclusivas de las personas, y empezaron a ser acaparadas por otro tipo de agente, ya no humano, sino artificial. Generación y comprensión de lenguaje, detección de objetos en imágenes, alto rendimiento en juegos como el Go o el ajedrez son sólo algunos de los bastiones que estos agentes lograron conquistar y que, hasta hace poco tiempo, pertenecían a las personas.

Los pasados meses asistimos a una revolución en otro campo: el de generación de imágenes. Que las computadoras pueden producir contenido visual de alta calidad no es una novedad. Por ejemplo, en 2020 resonó el modelo VQGAN+CLIP, cuya fama surgió de la velocidad con la que podía generar una imagen a partir de texto. Sin embargo, el 20 de abril, la empresa OpenAI publicó a DALL-E 2, una inteligencia artificial capaz de convertir texto en imagen en cuestión de segundos con una calidad que muchas veces podria ser confundida con una auténtica fotografía.

La rapidez y la calidad con la que estos modelos son capaces de producir imágenes es lo que plantea un interrogante filosófico importante. Sabemos que una imagen vale más que mil palabras, pero ¿cuánto valen mil imágenes? 

Esta pregunta no es casual, sino que nos lleva a una dimensión social y política de la discusión. 

Actualmente, OpenAI mantiene control sobre las generaciones realizadas con DALL-E 2. Esto es, el modelo sólo puede ser utilizado desde la interfaz de la compañía al precio de 15 dólares para 460 imágenes. Evidentemente, detrás de esta decisión se puede encontrar una lógica de negocio orientada a hacer de la inteligencia artificial un producto comercial y obtener un ingreso a partir de su uso. Pero, además, hay un motivo ético: la compañía debe garantizar que las generaciones no tengan contenido explícito, discriminatorio o dañino para la integridad de una persona. Por ejemplo, si se intenta producir una foto con contenido de este estilo, el módulo de procesamiento de lenguaje que utiliza este modelo detectará palabras clave o intenciones que van en contra de la política decidida por la empresa, y la generación será suspendida. De la misma manera, la empresa incluyó un sistema de reducción de sesgo que, frente a prompts que no especifiquen una marca de género, introduce modificaciones que garanticen la diversidad de la imagen generada.

Sin embargo, no todos los modelos de la familia de DALL-E 2 siguen estos lineamientos. Entre los proyectos publicados se encuentra Stable Diffusion, un modelo entrenado por la empresa stability.ai cuyo objetivo es la apertura de las capacidades de esta tecnología a un público más amplio. El modelo fue subido de forma open source a internet (lo cual quiere decir que podés descargar la red neuronal y levantarla en tu computadora), y además es sustancialmente más liviano que sus predecesores (puede ser ejecutado con una GPU regular, e incluso pueden utilizarse herramientas online que disponibilizan este tipo de procesamiento, como Google Colab). 

Las consecuencias de una IA democratizada

Hoy por hoy, nos encontramos frente a una tendencia cada vez más marcada en relación con las tecnologías de inteligencia artificial: la búsqueda de su democratización. Mientras que durante mucho tiempo éstas sólo eran accesibles para un grupo reducido de investigadores y personas de la industria, hoy existen múltiples plataformas online que disponibilizan modelos e incluso generan capacitaciones para que las personas puedan levantarlos y utilizarlos (HuggingFace es un ejemplo claro de esta iniciativa).

Evidentemente, algunas empresas se toman esta consigna más en serio que otras. Si bien los desarrollos de OpenAI pretenden seguir una línea de democratización de la tecnología, la empresa no deja de posicionarse como un agente central responsable por los resultados que salgan de ella. Por otro lado, stability.ai propone correrse de este lugar central y abrir completamente el poder de la tecnología a la comunidad, garantizando libre y total acceso para cualquier persona que lo desee y que disponga de los medios. Si bien hay una confianza en que la comunidad sea responsable, esto no siempre es suficiente para evitar que los modelos sean utilizados con fines negativos, como la generación de deepfakes o imágenes ofensivas.

Esto refleja una tensión importante al interior del movimiento por una IA más democrática: ¿queremos resignar parte de nuestra libertad de acceso a una tecnología en favor de mayor control por parte de un agente privado, o la tecnología debería ser libre y abierta con las potenciales consecuencias que esto podría aparejar? 

Las grandes empresas de tecnología tienen esta pregunta muy presente, especialmente luego de la abrumadora evidencia del mal que podía ser efectuado cuando una plataforma centralizaba tanto poder. Facebook es un ejemplo claro de esto: luego del incidente con Cambridge Analytica y de los múltiples reportes sobre la manipulación de sus usuarios, la empresa conformó Oversight Board, una “corte suprema” responsable de curar el contenido que circula en las redes sociales de la empresa. La complejidad ínsita en dicha tarea no es desconocida para este organismo, sino que parte del debate que proponen incluye el hecho de que distintos países y distintas regiones deberán tener sus regulaciones especiales, y que además esto necesita una representación diversa al interior del organismo mismo.

OpenAI, por su parte, también viene planteando la cuestión sobre la seguridad y el alineamiento de la IA. Pero no es claro que estas iniciativas empresariales sean suficientes para mitigar el problema, ya que carecen de la transparencia y la apertura necesarias para enfrentar este tipo de situaciones. Las decisiones sobre el uso de una tecnología que afecta a millones de personas no deberían caer en manos de unas pocas personas cuya posición no fue avalada ni consensuada por lxs usuarixs. Además, existen argumentos adicionales a favor de considerar que la apertura de estas tecnologías tiene un impacto positivo bajo la consideración de la seguridad de la IA. Estos apuntan a que poner a grandes empresas como guardianes de llaves de la tecnología no hace más que barrer el problema debajo de la alfombra, ya que la publicación misma de estos modelos abre la posibilidad a que actores con fines ofensivos y acceso a poder de cómputo realicen sus propias implementaciones y que luego los utilicen con fines que la empresa original hubiese querido frenar.

Se trata de un dilema que, lejos de estar resuelto, se ubica en el centro de la discusión sobre inteligencia artificial en la actualidad. Si te interesan estos temas, probablemente viste varias imágenes generadas por computadora en redes sociales. Y todo parece indicar que esta tendencia sólo se profundizará. Por eso, es importante entender quién pone estas imágenes en nuestros feeds y quién permite que estas imágenes existan. La apertura de la tecnología implica que todxs somos un poco responsables de su control. Para vos, ¿cuánto valen las imágenes?