Nowości o produktach
Zwiększanie zaangażowania użytkowników dzięki generowaniu obrazów za pomocą AI
Czas czytania: 5 minut
Dodawanie do aplikacji niestandardowych obrazów może znacznie poprawić i spersonalizować wrażenia użytkowników oraz zwiększyć ich zaangażowanie. W tym poście omawiamy 2 nowe funkcje generowania obrazów za pomocą Firebase AI Logic: specjalistyczne funkcje edycji Imagen, które są obecnie dostępne w wersji przedpremierowej, oraz ogólną dostępność modelu Gemini 2.5 Flash Image (znanego też jako „Nano Banana”), który został zaprojektowany do generowania obrazów w kontekście lub w ramach rozmowy.
Zwiększanie zaangażowania użytkowników dzięki obrazom generowanym za pomocą Firebase AI Logic
Modele generowania obrazów można wykorzystywać do tworzenia niestandardowych awatarów profili użytkowników lub do integrowania spersonalizowanych zasobów wizualnych bezpośrednio z kluczowymi ścieżkami ekranów.
Na przykład Imagen oferuje nowe funkcje edycji (w wersji przedpremierowej dla programistów). Możesz teraz narysować maskę i użyć funkcji zamalowywania, aby wygenerować piksele w obszarze maski. Dodatkowo dostępna jest funkcja rozszerzania obrazu, która umożliwia generowanie pikseli poza maską.
Imagen obsługuje zamalowywanie, co pozwala generować tylko część obrazu.
Alternatywnie model Gemini 2.5 Flash Image (znany też jako Nano Banana) może wykorzystywać rozszerzoną wiedzę o świecie i możliwości rozumowania modeli Gemini do generowania obrazów odpowiednich do kontekstu. Jest to idealne rozwiązanie do tworzenia dynamicznych ilustracji, które pasują do bieżących wrażeń użytkownika w aplikacji.
Użyj modelu Gemini 2.5 Flash Image, aby tworzyć dynamiczne ilustracje odpowiednie do kontekstu aplikacji.
Ponadto możliwość edytowania obrazów w ramach rozmowy i iteracyjnie pozwala użytkownikom edytować zdjęcia za pomocą języka naturalnego.
Użyj modelu Gemini 2.5 Flash Image, aby edytować obraz za pomocą języka naturalnego.
Gdy zaczynasz integrować AI z aplikacją, ważne jest, aby dowiedzieć się więcej o bezpieczeństwie AI. Szczególnie ważne jest, aby ocenić ryzyko związane z bezpieczeństwem aplikacji, rozważyć wprowadzenie zmian w celu zmniejszenia ryzyka, przeprowadzić testy bezpieczeństwa odpowiednie do Twojego przypadku użycia oraz poprosić użytkowników o opinie i monitorować treści.
Imagen czy Gemini – wybór należy do Ciebie
Różnica między modelem Gemini 2.5 Flash Image („Nano Banana”) a Imagen polega na ich głównym przeznaczeniu i zaawansowanych możliwościach. Model Gemini 2.5 Flash Image jako model graficzny w ramach większej rodziny Gemini doskonale sprawdza się w edycji obrazów w ramach rozmowy, utrzymywaniu kontekstu i spójności tematu w wielu iteracjach oraz wykorzystywaniu „wiedzy o świecie i rozumowania” do tworzenia odpowiednich do kontekstu elementów wizualnych lub osadzania dokładnych elementów wizualnych w długich sekwencjach tekstowych.
Imagen to specjalistyczny model Google do generowania obrazów, który został zaprojektowany z myślą o większej kontroli twórczej. Specjalizuje się w tworzeniu bardzo realistycznych obrazów, szczegółów artystycznych i określonych stylów oraz zapewnia wyraźne elementy sterujące do określania formatu obrazu lub formatu wygenerowanego obrazu.
| Obrazy Gemini 2.5 Flash (Nano Banana 🍌) | Imagen |
🌎 Wiedza o świecie i rozumowanie umożliwiające tworzenie obrazów bardziej odpowiednich do kontekstu. 💬 Edytowanie obrazów w ramach rozmowy przy zachowaniu kontekstu. 📖 Osadzanie dokładnych elementów wizualnych w długich sekwencjach tekstowych. | 📐 Określanie formatu obrazu lub formatu wygenerowanych obrazów.
🖌️ Obsługa edycji opartej na maskach do zamalowywania i rozszerzania obrazu.
🎚️ Większa kontrola nad szczegółami wygenerowanego obrazu (jakość, szczegóły artystyczne i określone style). |
Zobaczmy, jak ich używać w aplikacji.
Zamalowywanie za pomocą Imagen
Kilka miesięcy temu udostępniliśmy nowe funkcje edycji Imagen. Chociaż Imagen jest już gotowy do użycia w środowisku produkcyjnym do generowania obrazów, funkcje edycji są nadal dostępne w wersji przedpremierowej dla programistów.
Funkcje edycji Imagen obejmują zamalowywanie i rozszerzanie obrazu, czyli funkcje edycji obrazów oparte na maskach. Ta nowa funkcja umożliwia użytkownikom modyfikowanie określonych obszarów obrazu bez konieczności ponownego generowania całego obrazu. Oznacza to, że możesz zachować najlepsze części obrazu i zmienić tylko to, co chcesz.
Użyj funkcji edycji Imagen, aby wprowadzać precyzyjne zmiany w obrazie i zachować jego integralność.
Zmiany te są wprowadzane przy zachowaniu podstawowych elementów i ogólnej integralności oryginalnego obrazu oraz modyfikowaniu tylko obszaru w masce.
Aby wdrożyć zamalowywanie za pomocą Imagen, najpierw zainicjuj imagen-3.0-capability-001 – konkretny model Imagen obsługujący funkcje edycji:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
"imagen-3.0-capability-001",
generationConfig = ImagenGenerationConfig(
numberOfImages = 1,
aspectRatio = ImagenAspectRatio.SQUARE_1x1,
imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75),
),
)Następnie zdefiniuj funkcję zamalowywania:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val prompt = "remove the pancakes and make it an omelet instead"
suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap {
val imageResponse = editingModel.editImage(
referenceImages = listOf(
ImagenRawImage(sourceImage.toImagenInlineImage()),
ImagenRawMask(maskImage.toImagenInlineImage()),
),
prompt = prompt,
config = ImagenEditingConfig(
editMode = ImagenEditMode.INPAINT_INSERTION,
editSteps = editSteps,
),
)
return imageResponse.images.first().asBitmap()
}Podaj sourceImage, maskImage i prompt do edycji oraz liczbę kroków edycji do wykonania.
Możesz zobaczyć, jak to działa, w próbce edycji Imagen w katalogu próbek AI na Androida.
Imagen obsługuje też rozszerzanie obrazu , które umożliwia modelowi generowanie pikseli poza maską. Możesz też użyć funkcji dostosowywania obrazu w Imagen, aby zmienić styl obrazu lub zaktualizować obiekt na obrazie. Więcej informacji znajdziesz w dokumentacji dla deweloperów aplikacji na Androida.
Generowanie obrazów w ramach rozmowy za pomocą modelu Gemini 2.5 Flash Image
Jednym ze sposobów edytowania obrazów za pomocą modelu Gemini 2.5 Flash Image jest użycie funkcji czatu wieloetapowego.
Najpierw zainicjuj model:
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
modelName = "gemini-2.5-flash-image",
// Configure the model to respond with text and images (required)
generationConfig = generationConfig {
responseModalities = listOf(ResponseModality.TEXT,
ResponseModality.IMAGE)
}
)
Aby uzyskać podobny efekt jak w przypadku opisanej powyżej metody Imagen opartej na maskach, możemy użyć interfejsu API chat do rozpoczęcia rozmowy z modelem Gemini 2.5 Flash Image.
// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
// Initialize the chat
val chat = model.startChat()
// Load a bitmap
val source = ImageDecoder.createSource(context.contentResolver, uri)
val bitmap = ImageDecoder.decodeBitmap(source)
// Create the initial prompt instructing the model to edit the image
val prompt = content {
image(bitmap)
text("remove the pancakes and add an omelet")
}
// To generate an initial response, send a user message with the image and text prompt
var response = chat.sendMessage(prompt)
// Inspect the returned image
var generatedImageAsBitmap = response
.candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response
.candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
Możesz zobaczyć, jak to działa, w próbce czatu graficznego Gemini w katalogu próbek AI na Androida. Więcej informacji znajdziesz w dokumentacji Androida.
Podsumowanie
Zarówno Imagen, jak i Gemini 2.5 Flash Image oferują zaawansowane możliwości, które pozwalają wybrać idealny model generowania obrazów do personalizacji aplikacji i zwiększenia zaangażowania użytkowników w zależności od konkretnego przypadku użycia.
Czytaj dalej
-
Nowości o produktach
Jeśli jesteś deweloperem aplikacji na Androida i chcesz wdrożyć w swojej aplikacji innowacyjne funkcje AI, niedawno wprowadziliśmy nowe, zaawansowane aktualizacje.
Thomas Ezan • Czas czytania: 3 minuty
-
Nowości o produktach
Dziś rozszerzamy rodzinę modeli Gemini 3 o model Gemini 3 Flash, który zapewnia zaawansowaną inteligencję i szybkość działania przy znacznie niższych kosztach.
Thomas Ezan • Czas czytania: 2 minuty
-
r.r.
Nowości o produktach
Każdego roku podczas Google I/O ogłaszamy nowe informacje i udostępniamy zasoby dotyczące ekosystemów i usług, w tym tworzenia aplikacji na Androida. W związku z tym, że tworzenie aplikacji coraz bardziej opiera się na AI i narzędziach wspomaganych przez agentów, rozszerzyliśmy naszą ofertę, aby lepiej Cię wspierać niezależnie od tego, jak tworzysz aplikacje na Androida.
Simona Milanovic • Czas czytania: 2 minuty
Bądź na bieżąco
Otrzymuj co tydzień najnowsze informacje o tworzeniu aplikacji na Androida na swoją skrzynkę odbiorczą.