AI in the air
@Midjourney
AI in the air

4o Generación de imágenes: la IA abierta ha alcanzado a la IA clásica

La revolución de la IA en el campo de la generación de imágenes abre un nuevo capítulo

El mundo de la IA a veces se asemeja a una carrera en la que los participantes sacan constantemente nuevos trucos de la chistera. Mientras que Midjourney y Stable Diffusion llevaban mucho tiempo a la cabeza, OpenAI ha sacado ahora un as de la manga con la integración de la generación de imágenes en GPT-4o.

De DALL-E a GPT-4o: un viaje a través de la generación de imágenes

El viaje de OpenAI en la generación de imágenes comenzó con DALL-E, llamado así por el artista Salvador Dalí y el robot WALL-E de Pixar. DALL-E 2 y más tarde DALL-E 3 aportaron mejoras significativas, pero persistía un problema fundamental: la generación de imágenes era un proceso separado, desvinculado de la comprensión del texto.

GPT-4o: la «o» significa «omnimodal», y eso lo cambia todo

Con GPT-4o, OpenAI ha llevado a cabo un cambio fundamental. La «o» significa «omnimodal»: el modelo puede procesar y comprender diferentes tipos de información (texto, imágenes, audio) al mismo tiempo.

A diferencia de los enfoques anteriores, la generación de imágenes está ahora directamente integrada en GPT-4o. Es como si, en lugar de dos especialistas, se contratara a un erudito universal que entiende y puede crear tanto textos como imágenes.

¿Qué puede hacer realmente la nueva generación de imágenes?

Representación precisa de texto

GPT-4o puede representar texto en imágenes con precisión, ya sea en carteles, menús, invitaciones o infografías. ¡Se acabó el «Hppy Brithady» en lugar de «Happy Birthday»!

Conciencia contextual y consistencia

Imagínese que está desarrollando un personaje de videojuego. Con GPT-4o puede perfeccionarlo mediante conversaciones naturales, y el modelo mantiene la consistencia, una habilidad que tiene un valor incalculable para los diseñadores y creativos.

Mejora de la «vinculación de objetos»

GPT-4o puede asignar correctamente atributos a entre 15 y 20 objetos sin confundirse, lo cual supone una mejora considerable con respecto a otros modelos, que suelen llegar a sus límites con entre 5 y 8 objetos.

Uso del conocimiento del mundo

El modelo aporta su amplio conocimiento del mundo a la generación de imágenes. Si pregunta por una imagen del experimento de los prismas de Newton, no tiene que explicar qué es: GPT-4o ya lo sabe.

Aplicaciones prácticas: más que bonitas imágenes

La nueva función de generación de imágenes es ideal para:

  • Diseño y marca: logotipos, carteles y materiales publicitarios con una colocación precisa del texto
  • Educación y visualización: diagramas científicos e infografías
  • Desarrollo de juegos: diseños de personajes consistentes a lo largo de varias iteraciones
  • Marketing y creación de contenidos: contenidos visuales personalizados para redes sociales y más

OpenAI vs. la competencia: ¿un nuevo equilibrio?

Lo que diferencia a OpenAI de los demás es su enfoque integrado. En lugar de utilizar modelos separados para texto e imagen, OpenAI ha creado un único modelo que puede hacer ambas cosas. Esto da lugar a una experiencia más fluida y permite al modelo utilizar el contexto de las conversaciones.

Muchos usuarios describen la calidad de las imágenes generadas como «increíblemente mejor», y algunos incluso califican los resultados como «demencialmente» buenos.

No todo es perfecto: limitaciones y desafíos

A pesar de todos los avances, GPT-4o no es perfecto. Entre las limitaciones se encuentran:

  • Problemas de recorte en imágenes largas
  • Posibles alucinaciones en peticiones vagas
  • Dificultades con más de 20 conceptos a la vez
  • Problemas con caracteres no latinos
  • Desafíos en el procesamiento de imágenes

Otra desventaja es la velocidad: aproximadamente un minuto por imagen. Sin embargo, Sam Altman, director general de OpenAI, subraya: «Las imágenes son mucho más lentas que nuestra generación de imágenes anterior, pero increíblemente mejores. Creemos que la espera merece totalmente la pena».

Un paso importante para la IA y la creatividad

La integración de la generación de imágenes en GPT-4o marca un hito importante en el desarrollo de sistemas de IA. Demuestra que es posible un enfoque realmente integrado que conecte a la perfección diferentes formas de medios.

Para los creativos, diseñadores, educadores y muchos otros, esta tecnología abre nuevas posibilidades para visualizar y comunicar ideas. La capacidad de combinar texto e imagen en una sola conversación hace que la interacción con la IA sea más natural y productiva.

El futuro de la IA no se basa únicamente en el texto o en la imagen, sino que es multimodal, integrada y consciente del contexto. Y con GPT-4o, OpenAI ha dado un paso importante en esta dirección.

Fuentes:

OpenAI. «Introducing 4o Image Generation». Blog de OpenAI. https://openai.com/index/introducing-4o-image-generation/

Vídeo de YouTube sobre la presentación de la generación de imágenes GPT-4o. https://www.youtube.com/watch?v=2f3K43FHRKo

Imagen de Justus Becker

Justus Becker

I have a passion for storytelling. AI enthusiast and addicted to midjourney.
Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *