Novedades sobre productos
Aumenta la participación de los usuarios con la generación de imágenes con IA
Lectura de 5 min
Agregar imágenes personalizadas a tu app puede mejorar y personalizar significativamente la experiencia del usuario, y aumentar su participación. En esta publicación, se exploran dos nuevas capacidades para la generación de imágenes con Firebase AI Logic: las funciones de edición de Imagen especializadas, actualmente en versión preliminar, y la disponibilidad general de Gemini 2.5 Flash Image (también conocido como "Nano Banana"), diseñado para la generación de imágenes contextual o conversacional.
Aumenta la participación de los usuarios con imágenes generadas a través de Firebase AI Logic
Los modelos de generación de imágenes se pueden usar para crear avatares personalizados de perfiles de usuario o para integrar recursos visuales personalizados directamente en los flujos de pantallas clave.
Por ejemplo, Imagen ofrece nuevas funciones de edición (en versión preliminar para desarrolladores). Ahora puedes dibujar una máscara y usar la función de restauración para generar píxeles dentro del área enmascarada. Además, la extensión de imagen está disponible para generar píxeles fuera de la máscara.
Imagen admite la restauración de imágenes, lo que permite generar solo una parte de una imagen.
Como alternativa, Gemini 2.5 Flash Image (también conocido como Nano Banana) puede usar un conocimiento del mundo más amplio y las capacidades de razonamiento de los modelos de Gemini para generar imágenes pertinentes según el contexto, lo que resulta ideal para crear ilustraciones dinámicas que se alineen con la experiencia actual del usuario en la app.
Usa Gemini 2.5 Flash Image para crear ilustraciones dinámicas que sean pertinentes para el contexto de tu app.
Por último, la capacidad de editar imágenes de forma conversacional e iterativa permite a los usuarios editar una foto con lenguaje natural.
Usa Gemini 2.5 Flash Image para editar una imagen con lenguaje natural.
Cuando comiences a integrar la IA en tu aplicación, es importante que aprendas sobre la seguridad de la IA. Es fundamental que evalúes los riesgos de seguridad de tu aplicación, consideres ajustes para mitigar los riesgos de seguridad, realices pruebas de seguridad adecuadas para tu caso de uso, solicites comentarios de los usuarios y supervises el contenido.
Imagen o Gemini: Tú eliges
La diferencia entre Gemini 2.5 Flash Image (“Nano Banana”) y Imagen radica en su enfoque principal y sus capacidades avanzadas. Gemini 2.5 Flash Image, como modelo de imagen dentro de la familia más grande de Gemini, se destaca en la edición de imágenes conversacionales, ya que mantiene la coherencia del contexto y el tema en varias iteraciones, y aprovecha el "conocimiento y el razonamiento del mundo" para crear imágenes pertinentes según el contexto o incorporar imágenes precisas dentro de secuencias de texto largas.
Imagen es el modelo especializado de Google para la generación de imágenes, diseñado para brindar un mayor control creativo, que se especializa en resultados altamente fotorrealistas, detalles artísticos y estilos específicos, y que proporciona controles explícitos para especificar la relación de aspecto o el formato de la imagen generada.
| Gemini 2.5 Flash Images (Nano Banana 🍌) | Imagen |
🌎 Conocimiento y razonamiento del mundo para obtener imágenes más pertinentes según el contexto 💬 Editar imágenes de forma conversacional y mantener el contexto 📖 Incorpora imágenes precisas en secuencias de texto largas. | 📐 Especifica la relación de aspecto o el formato de las imágenes generadas
🖌️ Compatibilidad con la edición basada en máscaras para la expansión y la reducción de imágenes.
🎚️ Mayor control sobre los detalles de la imagen generada (calidad, detalles artísticos y estilos específicos) |
Veamos cómo usarlos en tu app.
Pintura en la imagen con Imagen
Hace unos meses, lanzamos nuevas funciones de edición para Imagen. Si bien Imagen ya está listo para la producción de imágenes, las funciones de edición aún se encuentran en versión preliminar para desarrolladores.
Las funciones de edición de Imagen incluyen el retoque y la extensión de imagen, que son funciones de edición de imágenes basadas en máscaras. Esta nueva función permite a los usuarios modificar áreas específicas de una imagen sin regenerar toda la imagen. Esto significa que puedes conservar las mejores partes de la imagen y solo alterar lo que quieras cambiar.
Usa las funciones de edición de Imagen para realizar cambios precisos y específicos en una imagen, y garantizar la integridad del resto de la imagen
Estos cambios se realizan manteniendo los elementos centrales y la integridad general de la imagen original, y modificando solo el área de la máscara.
Para implementar el relleno con Imagen, primero inicializa imagen-3.0-capability-001 un modelo de Imagen específico que admita funciones de edición:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
"imagen-3.0-capability-001",
generationConfig = ImagenGenerationConfig(
numberOfImages = 1,
aspectRatio = ImagenAspectRatio.SQUARE_1x1,
imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75),
),
)
A partir de ahí, define la función de restauración:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val prompt = "remove the pancakes and make it an omelet instead"
suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap {
val imageResponse = editingModel.editImage(
referenceImages = listOf(
ImagenRawImage(sourceImage.toImagenInlineImage()),
ImagenRawMask(maskImage.toImagenInlineImage()),
),
prompt = prompt,
config = ImagenEditingConfig(
editMode = ImagenEditMode.INPAINT_INSERTION,
editSteps = editSteps,
),
)
return imageResponse.images.first().asBitmap()
}
Proporcionas una imagen de origen (sourceImage), una imagen de máscara (maskImage) y una instrucción para la edición, así como la cantidad de pasos de edición que se deben realizar.
Puedes verlo en acción en la Muestra de edición de Imagen del catálogo de muestras de IA de Android.
Imagen también admite la extensión de imagen, que te permite dejar que el modelo genere los píxeles fuera de una máscara. También puedes usar las funciones de personalización de imágenes de Imagen para cambiar el estilo de una foto o actualizar un sujeto en una foto. Obtén más información en la documentación para desarrolladores de Android.
Generación de imágenes conversacionales con Gemini 2.5 Flash Image
Una forma de editar imágenes con Gemini 2.5 Flash Image es usar las capacidades de chat de varios turnos del modelo.
Primero, inicializa el modelo:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
modelName = "gemini-2.5-flash-image",
// Configure the model to respond with text and images (required)
generationConfig = generationConfig {
responseModalities = listOf(ResponseModality.TEXT,
ResponseModality.IMAGE)
}
)
Para lograr un resultado similar al método de Imagen basado en máscaras que se describió anteriormente, podemos usar la API de chat para iniciar una conversación con Gemini 2.5 Flash Image.
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
// Initialize the chat
val chat = model.startChat()
// Load a bitmap
val source = ImageDecoder.createSource(context.contentResolver, uri)
val bitmap = ImageDecoder.decodeBitmap(source)
// Create the initial prompt instructing the model to edit the image
val prompt = content {
image(bitmap)
text("remove the pancakes and add an omelet")
}
// To generate an initial response, send a user message with the image and text prompt
var response = chat.sendMessage(prompt)
// Inspect the returned image
var generatedImageAsBitmap = response
.candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response
.candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
Puedes verla en acción en la muestra de Gemini Image Chat en el catálogo de muestras de IA de Android y leer más sobre ella en la documentación de Android.
Conclusión
Tanto Imagen como Gemini 2.5 Flash Image ofrecen capacidades potentes que te permiten seleccionar el modelo de generación de imágenes ideal para personalizar tu app y aumentar la participación de los usuarios, según tu caso de uso específico.
Seguir leyendo
-
Novedades sobre productos
Si eres desarrollador de Android y quieres implementar funciones innovadoras basadas en IA en tu app, hace poco lanzamos nuevas y potentes actualizaciones.
Thomas Ezan • Lectura de 3 min
-
Novedades sobre productos
Hoy expandimos la familia de modelos de Gemini 3 con el lanzamiento de Gemini 3 Flash, inteligencia de vanguardia creada para ofrecer velocidad a una fracción del costo.
Thomas Ezan • Lectura de 2 min
-
Novedades sobre productos
Android Studio Panda 4 ya es estable y está listo para que lo uses en producción. Esta versión incluye el modo de planificación, la predicción de la próxima edición y mucho más, lo que facilita más que nunca la creación de apps para Android de alta calidad.
Matt Dyor • Lectura de 5 min
Mantente al día
Recibe la información más reciente sobre el desarrollo de Android en tu bandeja de entrada todas las semanas.