Su formación es muy variada, desde el arte y la música hasta la programación y los medios interactivos. Cómo han influido estas disciplinas en su perspectiva artística y tecnológica?
Diría que ha conformado mi perspectiva artística y tecnológica en una más holística. Todos los medios están profundamente conectados en un nivel fundamental. Hay principios y patrones de diseño que son universales. Me permite ver más posibilidades en el arte y la tecnología en general.
Con cada nuevo medio que inventa la humanidad, creo que lo que se está produciendo en realidad es una fusión de los medios existentes a una complejidad cada vez mayor, lo que permite una mayor expresión y simulación de la experiencia humana subjetiva.
En los últimos años ha trabajado mucho con IA. Cómo ve el papel de la IA en los procesos creativos? ¿Es una herramienta, un socio o incluso un co-artista?
La IA es una herramienta, pero una herramienta con un nivel de abstracción muy alto. No sólo la veo como una herramienta, sino también como una nueva solución que puede resolver los problemas de la creación artística en general. Los nuevos medios, como el cine y los videojuegos/arte interactivo, son realmente medios artísticos de fusión, medios que mezclan otros medios. Con los videojuegos, tenemos todos los medios a la vez con el elemento añadido de la interacción. Sin embargo, con cada nuevo medio creado, el abanico y el espacio de posibilidades de dar forma a la expresión crecían exponencialmente. Con la literatura, la mayor parte de la complejidad de la forma se hace en la cabeza del lector, que puede imaginar los sentidos mientras lee. Pero con cada nuevo medio, la expresión sensorial se hace cada vez más rica y dinámica. A día de hoy, con los videojuegos, podemos simular la realidad en un grado muy elevado. Pero esa complejidad/posibilidad también conlleva limitaciones. Producir todos esos elementos al detalle requiere mucho trabajo y energía. Por eso los videojuegos tienen un plazo de producción muy largo. Hay que crear cada detalle de ese mundo virtual. La IA puede ser una herramienta muy buena para ayudar a reducir esta complejidad.
En las producciones cinematográficas y de videojuegos, el proceso suele implicar a muchas personas de distintos medios que se reúnen y trabajan en un mismo proyecto durante muchos años antes de su lanzamiento. Este proceso ha sido fantástico tanto para la industria del cine como para la de los videojuegos, ya que ha dado lugar a grandes obras y ha impulsado estos medios. Sin embargo, esto también significa que la mayoría de las personas, a menos que tengan mucho talento, no serán capaces de hacer una gran película o un gran videojuego por sí solas. No al nivel necesario para competir con la industria. Así que la IA se convertirá probablemente en la herramienta que democratice la creación de estos complejos medios. La naturaleza de los modelos de difusión hace que puedan producir obras de arte realmente creativas y novedosas. Por eso creo que, en un futuro próximo, el proceso de creación de una película o arte interactivo podría ser tan sencillo como pintar sobre un lienzo. A medida que las herramientas evolucionen y sean cada vez más controlables, esto será cada vez más cierto.
La IA también tiene muchas posibilidades técnicas nuevas que harán evolucionar estos complejos medios de forma profunda.
¿Te refieres a tecnologías como Genie 2 de Google Deep Mind o World Labs que acaban de salir?
Sí, en parte, me refiero más bien a hacia dónde se dirigen estas tecnologías. Los modelos de inteligencia artificial pueden prescindir de la computación para realizar simulaciones precisas.
https://genesis-embodied-ai.github.io es un buen ejemplo de hacia dónde nos dirigimos. Aunque no está claro si se trata plenamente de un modelo AI gen, ya que el documento real aún no se ha publicado.
Así, por ejemplo, con los modelos de vídeo, ya podemos ver que tiene la capacidad de simular la física hasta cierto punto. Pero lo interesante es que estas leyes físicas no están codificadas o programadas en el modelo de IA, sino que se trata de una propiedad emergente del aprendizaje automático. De forma similar a como los LLM tienen la propiedad emergente de la inteligencia general o la comprensión. Normalmente, si se quiere ejecutar una simulación física en el ordenador con algoritmos tradicionales, se llegará rápidamente a un límite con la escala de la simulación debido a la cantidad de computación necesaria. Sin embargo, si la IA puede evitarlo mediante propiedades emergentes en lugar de computación real, se eliminará el límite en la escala de la simulación, lo que permitirá mucho más dinamismo y nuevas posibilidades para películas y juegos. En un futuro próximo, podríamos generar un mundo entero y crear arte en él. También quiero decir que no soy ingeniero en ML, por lo que sólo hablo desde mi propia comprensión de la tecnología.
Si se compara el tiempo de renderizado de un complejo renderizado realista 3D en un software tradicional como blender frente a lo mucho más rápido que es generar cosas similares a través de un modelo de vídeo AI, se puede ver que este proceso de abstracción acelera la producción.
Últimamente se habla mucho del uso de mundos generados para entrenar a agentes de IA. Puede explicarnos cómo funciona y si desempeña algún papel en su trabajo?
Sí, esto también conducirá a avances acelerados en Robótica. Si se pueden simular innumerables mundos para cubrir todas las posibilidades, se podrá entrenar a los robots para que tengan una inteligencia general en términos de navegación por el mundo, realización de tareas, etc. Pero a lo que me refiero también es que, al saltarse esta limitación de escala, conducirá a la creación de juegos y películas más complejos y avanzados. Veo tres formas diferentes en que este avance cambiará los juegos y las películas en un futuro próximo.
- Dinamismo y simulaciones
- Presentación
- Metaverso y creación de contenidos
Por dinamismo me refiero al término utilizado en el diseño de juegos, donde en lugar de ser el jugador el que interactúa con el mundo virtual, los objetos y entidades del mundo del juego interactúan entre sí para producir comportamientos más complejos e incluso propiedades emergentes. Ya tenemos algunos buenos ejemplos de este tipo de sistemas en juegos como Conway’s Game of Life, Outer Wilds, The Legend of Zelda: Tears of the Kingdom, The Last Guardian, los juegos de Zachtronics o los juegos de simulación inmersiva. Sin embargo, todos estos sistemas existentes tienen una escala bastante reducida, ya que su complejidad aumenta exponencialmente a medida que se introducen nuevos elementos dinámicos. Si cada objeto está siempre interactuando con todos los demás (como en la realidad), será muy costoso computarlos en tiempo real. Se puede llegar a un número muy elevado de objetos dinámicos reduciendo otros elementos como los gráficos, la física, etc., para permitir una mayor simulación; el proyecto ALIEN es un software de simulación de vida artificial que hace esto. Pero lo que abrirán los modelos de IA es la posibilidad de simulaciones y dinamismo a escala mucho mayor. El mundo virtual podría autoevolucionar y cambiar sin la intervención del jugador. Cuando el coste computacional de otros elementos (como los gráficos y la física) disminuya significativamente gracias a la optimización de la IA, se abrirá la posibilidad de realizar simulaciones más complejas, con mayor dinamismo, interacción y jugabilidad.
El renderizado también se optimizará enormemente con la IA y estrategias de optimización similares. Con el modelo de vídeo a vídeo de Runway Gen-3, podemos introducir secuencias virtuales en 3D y obtener un renderizado muy realista sin tener que computar todos los detalles del renderizado. Con el tiempo, cuando esta tecnología alcance el tiempo real y sea más controlable, es probable que se utilice como motor de renderizado para generar gráficos fotorrealistas con un coste de computación muy bajo. Sony ya está utilizando la IA en su nueva PS5 Pro, y es probable que acelere y optimice todos los aspectos de la creación de contenidos en general.
Con esa aceleración, significa que más gente creará contenidos y se crearán más contenidos. Si crear un mundo virtual es tan sencillo como pedir una imagen y generar un mundo 3D (3DGS) a partir de esa imagen, la gente podrá crear mundos completos por sí misma, y si el coste de computación no es un problema y el hardware es lo suficientemente avanzado, un mundo virtual de tipo metaverso es muy posible.
Por supuesto, es probable que aún falten entre 5 y 10 años para ello. Y eso sin contar con el desarrollo de la ICB y el transhumanismo en un futuro próximo.
Nuestros dispositivos de entrada para ordenadores son todavía muy primitivos. Estamos en los inicios de esta tecnología y del arte interactivo como medio.
¿Cree que un concepto como el de «Ready Player One», que hace unos años parecía pura ciencia ficción, se está acercando cada vez más a la realidad?
Creo que el tipo de metaverso que describe Ready Player One es posible. Dicho esto, es probable que tardemos un tiempo en llegar a él y que sea bastante diferente y no exactamente como Ready Player One u otras descripciones de futuras experiencias de RV. Creo que no resolveremos los problemas de locomoción y entrada de datos de la RV hasta que resolvamos la BCI, lo que podría tardar de 5 a 10 o 20 años. Actualmente, la RV aún no es lo bastante natural como para que la mayoría de la gente la utilice a largo plazo, lo cual podría ser positivo. Creo que la fusión entre la realidad virtual y nuestra realidad real sólo se producirá cuando lo virtual sea casi indistinguible de lo real. Pero eso es otro cantar de sirena al que podríamos o no llegar.
Ha trabajado en proyectos increíbles, como Pure Tone, que permite a los músicos explorar el temperamento puro y los intervalos perfectamente afinados. Qué te inspiró para crear una herramienta tan especializada e intrincada, y cómo crees que influirá en la práctica musical, sobre todo para los compositores y productores modernos?
Pure Tone surgió realmente del deseo de resolver el problema del temperamento en la música. Por mi formación, estaba en condiciones de entenderlo e intentar resolverlo. Quería saber cómo sonaría el temperamento más puro.
La mayor parte de la música que escuchamos hoy en día está en temperamento igual de 12 tonos, que en realidad está desafinado desde la perspectiva más pura, todas las notas están ligeramente desafinadas por igual para asegurarse de que se puede tocar en las 12 tonalidades. La raíz del problema con el temperamento es que es relativo, lo que es puro para un tono en una tonalidad, sonará muy disonante en otra sin desafinar. Así que la idea de pureza en el temperamento es relativa al tono para el que se está afinando. Para resolver este problema, he desarrollado un algoritmo de afinación dinámica que afina todo el instrumento en función del contexto de la música que se está tocando. Que yo sepa, es el primer instrumento digital que lo hace. Mediante la afinación dinámica, puedes conseguir un temperamento completamente puro mientras cambias a cualquier tonalidad de tu composición, lo que te da la misma libertad que el temperamento igual de 12 tonos, al menos a nivel armónico.
Nota de Alphaavenue: Puede ver Pure Tone en https://erikluo.gumroad.com/l/PureTone
Sin embargo, el instrumento también está muy limitado debido a su naturaleza pura. Ningún otro instrumento puede tocar en este temperamento puro que es dinámico y cambiante, por lo que significa que probablemente no pueda tocar en un conjunto con otros instrumentos de temperamento igual sin sonar totalmente disonante. Con la excepción de la batería, debido al timbre. He compuesto una pieza musical para Pure Tone para explorar la idea de la posibilidad de un dúo con batería, la melodía se llama «Beingness». Muy pronto la publicaré como vídeo musical. Actualmente estoy trabajando en este vídeo.
Ha mencionado la optimización del renderizado y la creación de contenidos a través de la IA. Ve el peligro de que estas tecnologías automaticen en exceso el proceso creativo y minimicen la influencia humana?
Creo que, por el momento, a algunas personas sólo les parece así porque estamos muy al principio del desarrollo de esta tecnología. A medida que la tecnología se desarrolle, será cada vez más controlable y específica. Los modelos de generación de imágenes, por ejemplo, ya han llegado a un punto en el que existen herramientas suficientes para controlar los modelos y obtener resultados realmente novedosos y específicos, pero para llegar a ello hay que dominar las herramientas, lo que lleva su tiempo. Así que, de hecho, creo que siempre será necesaria una gran influencia humana para crear buen arte, porque el buen arte tiene que ver con experiencias y perspectivas subjetivas, algo que la IA no tiene. Una vez que la gente aprenda a utilizar las herramientas para expresar su visión subjetiva/artística con precisión, la sensación de peligro se desvanecerá. Lo que creo que ocurrirá es que el proceso creativo nunca desaparecerá ni será sustituido, sino que la visión creativa de los artistas será cada vez más grandiosa y ambiciosa a medida que la IA les permita hacer más cosas que antes eran imposibles. Si crear imágenes de aspecto «bonito» es muy fácil y cualquiera puede hacerlo, entonces hay que centrarse en hacer cosas que vayan mucho más allá, y transmitir la experiencia subjetiva en el arte de una forma tan completa que sea imposible no ver la humanidad en ella.
También creo que todos los medios seguirán existiendo y continuarán desarrollándose aunque la IA pueda generar algo realmente rápido. La creación de cada nuevo medio nunca sustituye al anterior. La gente sigue pintando y dibujando, escribiendo poemas y novelas. El proceso creativo no es sustituible, la IA sólo puede abstraerlo. Así, en lugar de pintar pincelada a pincelada, podrías generar un segmento entero de la obra a la vez. Pero seguirás necesitando editar, iterar, planificar y crear con una visión. La música en directo tampoco se sustituirá nunca, sobre todo la que requiere improvisación, como el jazz, porque la gente escucha para conectar con el alma del artista, algo que la IA no tiene. Creo que se puede diseñar un espectáculo en directo con intérpretes de IA, pero no estoy seguro de que la gente realmente quiera escucharlo en lugar de escuchar a un intérprete humano. Incluso cuando la IA llegue a ser realmente buena generando música.
¿Dónde ve actualmente las mayores limitaciones de la IA en los procesos creativos y artísticos? ¿Hay áreas en las que cree que la IA nunca sustituirá al proceso creativo humano?
Si hablamos de limitaciones desde una perspectiva artística general, la única limitación es la imaginación del artista. Es como cualquier otra herramienta: la forma de utilizarla determina su eficacia. En su naturaleza, la IA no tiene experiencias subjetivas ni prejuicios, no tiene «alma» (al menos no todavía). Así que, como artista, te corresponde a ti determinar lo que haces con su poder. La IA que tenemos ahora probablemente nunca tendrá experiencias subjetivas ni conciencia.
Así que la IA nunca podrá sustituir a los verdaderos artistas, pero a lo que sí puede sustituir es a los artesanos. Un verdadero artista siempre crea a partir de sus experiencias subjetivas, algo que la IA nunca tendrá. Un artesano puede no crear para transmitir nada basándose en sus experiencias subjetivas, pero puede tener una gran habilidad técnica. La visión real y la autenticidad son raras en un artista. Por eso creo que la IA también empujará a los artistas y artesanos a encontrar su auténtica expresión, porque eso nunca será sustituido. Creo que, con el tiempo, la IA conducirá a la creación de mejor arte en general. Iguala los aspectos técnicos de la creación artística, lo que no me parece mal. Las personas que no son artistas expertos no pueden crear buen arte ni siquiera con la ayuda de la IA, por eso el arte de la IA es tan odiado, porque la mayoría de la gente crea arte malo que parece bonito. Pero las personas que ya son artistas muy hábiles pueden volverse imparables con la IA. Por eso todos los artistas de IA con más seguidores en X son artistas formados. No se desperdicia ningún conocimiento ni experiencia, la IA sólo amplificará tu comprensión artística existente para convertirla en realidad.
Si hablamos de limitaciones técnicas, hay muchas para todos los modelos de IA. Estamos al principio del desarrollo de las tecnologías y, a medida que pase el tiempo, creo que estas limitaciones tendrán cada vez menos impacto. Imagino que en un futuro lejano nos conectaremos a la BCI y los modelos generarán exactamente lo que imaginamos en nuestra cabeza.
Ha mencionado que la IA como herramienta puede mejorar la visión artística de un artista. ¿Cómo imagina la colaboración ideal entre los humanos y la IA? ¿Existe un límite hasta el que la IA pueda llegar antes de anular el proceso artístico?
No creo que la IA anule nunca el proceso artístico. Puede aumentar la variación, las opciones y la exploración, pero al final siempre debe ser el artista el que decida qué se incluye en la obra de arte final. La colaboración ideal consiste simplemente en utilizar la IA para iterar y explorar todas las posibilidades más rápidamente con el fin de encontrar las mejores opciones para cada elemento de la obra de arte. La IA es la mejor para fusionar e inspirar nuevas ideas, ya que su base de conocimientos es mucho más amplia que la de un ser humano. Pero depende del artista elegir lo que le inspira, que es una cuestión muy subjetiva.
En su sitio web se aprecia que a menudo publica imágenes individuales generadas por IA y versiones en vídeo de las mismas, a menudo con un fondo espacial. ¿Puede contarnos algo más sobre su flujo de trabajo creativo y su enfoque? ¿Cómo surgen estas obras y qué papel desempeña su música para que los vídeos sean tan especiales?
Mi proceso creativo es muy complejo, con unos 20 pasos, y utilizo todas las herramientas de IA más avanzadas del mercado. Necesitaría varios miles de palabras para explicarlo en su totalidad.
Pero lo que sí diré es que con la IA, el proceso creativo casi se convierte en meta. Tú, como artista, no sólo creas cada obra, sino que, lo que es más importante, creas y diseñas el propio proceso. En cierto sentido, el proceso se convierte en arte. Estás diseñando sistemas para producir el resultado que quieres, en lugar de crear el resultado directamente. Por ejemplo, cuando trabajo en la generación de imágenes, suelo empezar con una idea central, luego construyo un sistema o mundo en torno a esa idea utilizando LLM, y después exploro todas las opciones posibles dentro de este mundo, para luego convertir las mejores opciones en imágenes. Tu proceso y flujo de trabajo serán el factor distintivo de tu arte, diferentes flujos de trabajo producirán obras completamente diferentes. Tienes que pensar de un modo muy meta, sobre todo cuando indicas. Para mí, los modelos de IA son simuladores de realidad muy avanzados. Me gusta imaginar que, cuando se pide una imagen, no sólo se pide una imagen, sino que se pide crear una nueva realidad, una realidad que podría funcionar de forma fundamentalmente distinta a la nuestra. La calidad de los resultados está directamente relacionada con la complejidad del proceso. La diferencia entre un flujo de trabajo complejo y una simple solicitud es evidente, y se nota directamente en la complejidad de la imagen. Todos los mejores artistas de IA tienen flujos de trabajo que pueden crear esta complejidad. He escrito sobre algunas de estas ideas en más profundidad en X, se puede encontrar en mi sitio web si se desplaza a algunos de los mensajes más antiguos.
Image gen models are actually high-dimensional cameras showing the infinite possible existences that God/Consciousness dreams up. You realize this once you've hit a level of complexity, novelty, and realism in the latent space that's no different from our reality. pic.twitter.com/emBMOXRKIW
— Erik Luo (@LuoErik8lrl) November 15, 2024
En cuanto a mi música, compongo sobre todo música de Jazz muy vanguardista. Todas son muy poco convencionales e innovadoras y están realmente compuestas para la interpretación en directo debido a la naturaleza de improvisación del Jazz. Así que la mayoría de mis composiciones no encajan con los vídeos que hago. Sin embargo, tener un profundo conocimiento musical me permite saber cuál es la mejor música para cada vídeo. Aprender música ha ampliado mi gusto y mi apreciación de todos los géneros musicales. Lo que resulta muy útil a la hora de generar música. Por lo general, sé exactamente lo que quiero y puedo conseguirlo en pocos intentos.compuse una melodía para la que también estoy haciendo un vídeo musical de IA llamado «Beingness». Está casi terminada. Esta melodía utiliza principalmente Pure Tone y un cierto grado de probabilidad algorítmica para la improvisación de la máquina. Los visuales utilizarán AI gen y visualización algorítmica audio-reactiva.
You can't really specifically prompt for the highest possible details of an image, because to do so would require an infinite amount of words in order to encapsulate the complexity of reality, language is not really sufficient. So the trick to getting that complexity in the… pic.twitter.com/OoSeYmjXyl
— Erik Luo (@LuoErik8lrl) November 18, 2024
Ha desarrollado un flujo de trabajo muy complejo que incluye numerosos pasos y herramientas de IA de última generación. ¿Qué consejos darías a otros artistas y creativos que quieran crear un proceso eficaz? ¿Qué herramientas o enfoques te resultan especialmente útiles para sacar el máximo partido al trabajo con IA?
Depende completamente de lo que el artista quiera hacer con estas herramientas, el flujo de trabajo puede ser muy diferente dependiendo de su objetivo final. Pero el consejo más importante es experimentar con todo y encontrar formas de combinar distintas herramientas en un flujo de trabajo. Con lo rápido que evoluciona todo en este ámbito, lo que hoy puede ser «lo último» mañana puede ser sustituido por algo nuevo. La clave es seguir aprendiendo, probar y fallar muchas veces. Con el tiempo, comprenderás intuitivamente cómo funcionan estas herramientas y podrás crear un flujo de trabajo único para ti. Creo que ningún artista de IA utiliza exactamente el mismo flujo de trabajo, cada artista de IA que crea un buen trabajo tiene su propia comprensión, flujo de trabajo y proceso. Esta diferencia en el proceso es lo que da lugar a expresiones únicas y auténticas.
Su película El buen final ha quedado muy bien. ¿Podría hablarnos un poco de la realización de la película, cómo fue su flujo de trabajo y qué programas utilizó?
Sí, ese proyecto fue muy rápido. Tardé una semana más o menos en terminarlo. La idea me rondaba por la cabeza desde hacía muchos años, y justo coincidía con el concurso de arte generativo CONTACT ATTEMPT, así que decidí hacerlo. Desde un punto de vista técnico, el montaje de la historia evita de forma natural algunas de las grandes limitaciones de la tecnología actual de generación de imágenes y vídeos de IA. Por ejemplo, que los personajes, el entorno y los objetos no varíen de una toma a otra. La mala generación de voces y rostros. De hecho, tengo muchos proyectos en pausa a la espera de que la tecnología madure un poco más para poder realizarlos plenamente. La serie corta, MIRROR es uno de esos proyectos (puedes ver el capítulo 1 en mi YT), tengo toda la historia planeada en 10-20 capítulos, pero cuando empecé a trabajar en el capítulo 2, rápidamente me di cuenta de que la limitación actual de la tecnología no puede cumplir con la visión de este proyecto todavía, así que lo puse en pausa. Sin embargo, The Good Ending se concibió teniendo en cuenta todas las limitaciones, así que la historia se diseñó para sortearlas. En cuanto al flujo de trabajo y la tecnología, son los siguientes. También mezclé y utilicé todos los principales modelos de vídeo del momento para este proyecto por diferentes necesidades.
ChatGPT, Midjourney, JoyCaption Magnific y SUPIR para upscale Kling para movimiento dinámico Runway Gen-3 para movimiento simple Luma para fotogramas clave ElevenLabs para sonido y voz en off DaVinci Resolve para edición, composición, efectos y etalonaje Topaz para escalado de vídeo