Unos amigos viajaron a Roma hace unos días. Chateamos en WhatsApp y les pregunté qué tal el viaje. Me contaron que no habían podido ver el Vaticano por un cierre temporal. Entonces aproveché y les pregunté si habían visto al Papa. “Últimamente está muy moderno, no sé si os habéis enterado”, añadí.
“No”, me dijeron. Entonces envié una foto. No una real, sino una en la que el Papa aparece vestido con un singular abrigo blanco. La imagen tiene tal calidad que es difícil distinguirla de una real, y sería difícil que alguien que no conociese el trasfondo del asunto lo supiese.
Mis amigos, que no se habían enterado de todo el debate, se tragaron aquello. Luego les envié otra imagen, esta vez una en las que aparece bailando hip-hop. Aquello, claro, fue demasiado. Se dieron cuenta de que les estaba tomando el pelo, pero si hubiera mandado solo la primera imagen, me habrían creído. Difícil no hacerlo.
La situación es probablemente mucho más común estas últimas semanas, y aquella imagen del Papa desató aún más un fenómeno que lleva meses esperando a eclosionar de forma definitiva. En el caso del Papa, verlo en todo tipo de escenarios —bailando, revolucionando su vestuario o haciendo parkour— parecía cobrar sentido, pero este era solo un ejemplo de hasta dónde pueden llegar plataformas como Midjourney, DALL-E 2 o Stable Diffusion.
Juguemos al juego de las diferencias
Dicen que una imagen vale más que mil palabras, pero nosotros hemos querido plantear este tema no con una imagen, sino con 20. Creemos que una buena forma de mostrar lo difícil que es distinguir lo real de lo generado por una IA es ponernos a prueba con un pequeño juego.
Así, a continuación encontraréis 10 bloques de dos imágenes enfrentadas. Una de ellas es una fotografía real tomada por un ser humano. La otra es una imagen generada por Midjourney v5 que precisamente trata de ofrecer una imagen parecida a la real para confundirnos. Javier Lacort, editor en Xataka y ya con muchas tablas en esto de generar imágenes por IA, se ha encargado de esta parte.
El funcionamiento es muy sencillo: basta con que comparéis las imágenes y pinchéis en aquella que créeis que es real. Si acertáis, aparecerá un mensaje de “Correcto”. Si no, aparecerá un mensaje de “¡Incorrecto! ¡Esta imagen es real!” y el botón verde pasará a ser de color rojo.
Podéis encontrar la solución y la lista de imágenes reales al final del artículo. Os proponemos apuntar aparte vuestra lista con las que creéis que lo son, y luego comprobar los resultados. Por favor, contadnos qué tal os ha ido 😉 ¡Vamos allá!
¿Qué os parece? Aunque probablemente hayáis acertado muchas (o quizás todas), seguramente haya alguna que os lo haya puesto especialmente difícil o incluso que haya logrado engañaros. Ya podéis comprobar la solución al final del artículo, pero antes hemos querido debatir sobre la situación actual en este campo.
La ficción lo parece cada vez menos
Las cosas se están desbocando y estamos viendo cómo la capacidad de las inteligencias artificiales generativas se puede usar fácilmente con el propósito de desinformar. Eliot Higgins, fundador del sitio Bellingcat —un medio de periodismo investigativo Open Source— quiso experimentar con esta tecnología.
Aprovechando que Donald Trump comparecía ante la Fiscalía del distrito de Mnahattan, Higgins imaginó cómo serían las imágenes de su arresto. Compartió varias imágenes falsas en Twitter en las que se mostraba a Trump resistiéndose al arresto y siendo reducido por la policía.
Si uno se fijaba en las imágenes era posible detectar fallos, pero en realidad lo único que hacía saltar las alarmas era saber que si todo lo que mostraban hubiera pasado, eso hubiera aparecido en medios de todo el mundo. El hilo con unas 50 imágenes falsas no tiene desperdicio, e incluye a un hipotético Trump haciendo pesas en la cárcel, descansando apoyado en una valla o escapando por un túnel.
Dio igual que Higgins avisara: las imágenes se convirtieron una vez más en virales y reabrieron (aún más) un debate pendiente y probablemente urgente. Y mientras, Higgins indicó en BuzzFeed News que había sido baneado de Midjourney. La palabra “arrested” (“arrestado”) está ahora prohibida en los prompts de esta plataforma, de hecho, pero ese baneo —tanto de la persona como del término— no parecen medidas especialmente efectivas. Son más bien un intento de ponerle puertas al campo.
La inteligencia artificial nos lleva engañando desde hace tiempo. En 2018, en nuestro podcast Captcha, realizamos una prueba tanto a nuestro compañero John Tones como a un experto en estos temas, Andrés Torrubia. Les enseñamos cuatro poemas y tenían que señalar si habían sido creados por una IA o por un humano. Ambos se equivocaron en uno de esos poemas (podéis ver el momento a partir del minuto 26:00 de ese vídeo).
El tema se ha vuelto mucho más delicado con las IAs generativas de imágenes, que han demostrado que confundir al ser humano y hacer que una imagen falsa pase por verdadera no es muy difícil. Ni siquiera cuando se supone que deberíamos detectarlo: ocurrió con el ya célebre concurso de fotografía que un usuario ganó con una imagen creada por IA: no lo confesó hasta ver cómo acababa ganándolo. Antes había ocurrido con un concurso de arte y pese al berrinche de los jueces, todos ellos picaron.
Como indicaban en Vox, los últimos avances en plataformas como Midjourney han hecho que la calidad de las imágenes sea aún más asombrosa. Expertos en el arte —igual deberíamos empezar a llamarlo así— del ‘prompting’ como Nick St. Pierre se han hecho muy conocidos en Twitter por publicar constantemente imágenes que podrían pasar por reales pero que han sido generadas con esta plataforma.
En una de ellas St. Pierre mostraba cómo serían modelos con los rasgos de Brad Pitt o John Oliver vestidos con ropa de Gucci. Aunque las imágenes “cantan”, el resultado era hasta cierto punto factible.
Otras muchas imágenes creadas por él son mucho más indistinguibles de la realidad, y demuestran que una vez uno logra controlar con precisión los términos que debe introducir para mostrar los resultados que desea, estos no suelen decepcionar. Midjourney incluso ayuda a encontrarlos con el ‘prompting inverso’.
Mientras, estamos viendo cómo empresas e incluso medios de todo el mundo comienzan a experimentar con esta tecnología. Levi’s anunció recientemente que iba a colaborar con Lalaland.ai, un estudio que genera modelos por IA para incrementar “el número y diversidad de los modelos”. Como explicaban en The Cut, en otro tiempo la solución habría sido la de contratar a distintos modelos para lograr ese efecto.
En medios el tema está en la cresta de la ola. La revista Cosmopolitan usó DALL-E 2 para crear su primera portada mediante una plataforma de inteligencia artificial generativa. Ellos presumieron de que eran los primeros, pero días antes The Economist había hecho exactamente lo mismo con una técnica llamada Foundation Model. Por supuesto, no serían los únicos.
Incluso revistas fotográficas como la francesa Réponses Photo decidieron publicar dos versiones de su edición de marzo de 2023. Una con la portada generada por una IA, y otra con una portada que usaba una foto real creada por Raymond Depardon. ¿Adivináis cuál es cual? (Respuesta: la de la derecha es la de la IA).
En España ya tenemos un ejemplo especialmente destacable. El pasado 3 de abril apareció en la portada de El Mundo una foto de los políticos Pablo Iglesias y Yolanda Díaz sonrientes y aparentemente en buena sintonía. En el pie de foto se desvelaba la verdad con el texto “¿Una foto imposible?” y explicando que la imagen la había creado el grupo United Unknown mediante inteligencia artificial. Era parte de un reportaje sobre el mismo tema que también trata este texto.
Esa portada generó un debate muy importante en redes sociales como Twitter, donde sobre todo periodistas de diversos medios intervinieron para juzgar la decisión de El Mundo. En Huffington Post entrevistaron a los autores de la imagen, y ellos destacaron que la polémica les parecía “exagerada”.
Las opiniones estaban divididas, pero una conclusión estaba clara. Lo señalaba Almudena Ariza, conocida corresponsal de TVE, que explicaba cómo “Lo bueno que veo en todo esto es que se ha abierto el melón de un debate urgente y necesario. Porque la IA va a transformar por completo nuestras vidas”.
Mientras, Gonzalo Suárez, director de PAPEL, la revista diaria de El Mundo, compartía aún más imágenes generadas por IA que formaron parte del reportaje escrito por Rodrigo Terrasa y que precisamente debatía sobre el impacto que tendrá la IA junto a varios expertos.
Como bien apuntaba Almudena Ariza, se ha abierto el melón. El problema está muy lejos de solucionarse, y estamos enfrascados en una coyuntura en la que las demandas son de momento lo único que está frenando —y no mucho— a estas plataformas.
A principios de 2020 la Unión Europea hizo oficial la Estrategia Digital Europea y el Libro Blanco de Inteligencia Artificial, pero las medidas efectivas para regular un mundo en el que las IAs generativas están revolucionando el concepto del arte y la creatividad siguen sin llegar y no parece que vayan a hacerlo a corto plazo.
Mientras, una cosa está clara: diferenciar las imágenes generadas por una inteligencia artificial generativa de aquellas reales creadas —por ejemplo, con una cámara— por los seres humanos es cada vez más difícil.
La encuesta que hemos realizado al principio de este texto es precisamente un pequeño experimento para demostrarlo, pero esto es solo el principio. La capacidad de redacción de plataformas como ChatGPT es asombrosa —lo demuestran las notas de GPT-4 en varios exámenes—, pero es que a la generación de imágenes le seguirá la generación de vídeo.
Todo ello hace que la amenaza de los deepfakes usados no ya en el ámbito pornográfico o en el del entretenimiento, sino en el de la desinformación —por ejemplo, la política, y en España tenemos elecciones a la vista—, sea muy real.
Cualquiera podrá convencernos de casi cualquier cosa a golpe de una imagen o un vídeo mínimamente conflicto, y puede que cada día sea como un April Fools’ o un día de los Santos Inocentes en los que tengamos que valorar constantemente si lo que estamos leyendo, viendo o escuchando es real o no.
La cosa es preocupante si tenemos en cuenta que las redes sociales son cada vez el lugar donde más y más gente se informa, y el crecimiento de TikTok —esos datos son del Reino Unido, pero ocurre lo mismo en EEUU— en este sentido es contundente. Aquí hay desde luego una oportunidad para pequeños y grandes medios que logren mantener una buena reputación ante la avalancha que se avecina.
Es cierto que la desinformación siempre ha existido y que la tecnología siempre se ha utilizado también con ese propósito, pero lo que plantea la inteligencia artificial en este caso lleva este escenario a otra dimensión. Será interesante ver cómo lidiamos con ella.
Solución: las imágenes reales son 1, 3, 6, 7, 10, 12, 14, 15, 18, y 19.
Imágenes: Paulius Dragunas | Joey Banks | Wikimedia | Wikimedia | Ben Dumond | Mitchell Luo | J King | Sushil Ghimire | Matty Adame | Maarten van der Heuvel
En Xataka | Guía práctica para escribir los mejores ‘prompts’ en Midjourney y crear imágenes alucinantes
– La noticia ¿Eres capaz de distinguir una imagen real de una generada por IA? Aquí tienes 20 fotos para comprobarlo fue publicada originalmente en Xataka por Javier Pastor .