Nowości o usługach

Interfejs Prompt API w ML Kit: odblokowywanie niestandardowych funkcji Gemini Nano na urządzeniu

2 minuty czytania
3 autorów
Caren Chang, Chengji Yan, Penny Li

AI ułatwia tworzenie spersonalizowanych aplikacji, które przekształcają treści w odpowiedni format dla użytkowników. Wcześniej umożliwiliśmy deweloperom integrację z Gemini Nano za pomocą interfejsów ML Kit GenAI API dostosowanych do konkretnych przypadków użycia, takich jak podsumowywanie i opisywanie obrazów.

Dziś obchodzimy ważny kamień milowy w rozwoju generatywnej AI na urządzeniu z Androidem. Ogłaszamy wersję alfa interfejsu ML Kit GenAI Prompt API. Ten interfejs API umożliwia wysyłanie do Gemini Nano zapytań w języku naturalnym i zapytań multimodalnych, co zaspokaja zapotrzebowanie na większą kontrolę i elastyczność podczas tworzenia modeli generatywnych.

Partnerzy tacy jak Kakao już korzystają z Prompt API, tworząc unikalne funkcje, które mają realny wpływ na świat. Już dziś możesz eksperymentować z zaawansowanymi funkcjami Prompt API przy minimalnej ilości kodu.

 

 

Przejdź od gotowych do niestandardowych funkcji generatywnej AI na urządzeniu

Prompt API wykracza poza gotowe funkcje i obsługuje niestandardowe przypadki użycia generatywnej AI w aplikacjach, co pozwala tworzyć unikalne funkcje z wykorzystaniem złożonych przekształceń danych. Prompt API używa Gemini Nano na urządzeniu do lokalnego przetwarzania danych, co umożliwia działanie offline i zwiększa prywatność użytkowników.

Główne przypadki użycia Prompt API:

Prompt API umożliwia tworzenie wysoce spersonalizowanych przypadków użycia generatywnej AI. Oto kilka zalecanych przykładów: 

  • Rozpoznawanie obrazów: analizowanie zdjęć pod kątem klasyfikacji (np. tworzenie wersji roboczej posta w mediach społecznościowych lub identyfikowanie tagów takich jak „zwierzęta”, „jedzenie” czy „podróże”).
  • Inteligentne skanowanie dokumentów: używanie tradycyjnego modelu ML do wyodrębniania tekstu z paragonu, a następnie kategoryzowanie poszczególnych pozycji za pomocą Prompt API.
  • Przekształcanie danych na potrzeby interfejsu: analizowanie długich treści w celu utworzenia krótkiego, angażującego tytułu powiadomienia.
  • Promptowanie treści: sugerowanie tematów nowych wpisów w dzienniku na podstawie preferencji użytkownika dotyczących motywów.
  • Analiza treści: klasyfikowanie opinii klientów jako pozytywnych, neutralnych lub negatywnych.
  • Ekstrakcja informacji: wyodrębnianie ważnych szczegółów dotyczących nadchodzącego wydarzenia z wątku e-maili.

Implementacja
Prompt API umożliwia tworzenie niestandardowych promptów i ustawianie opcjonalnych parametrów generowania za pomocą kilku wierszy kodu:

Generation.getClient().generateContent(
   generateContentRequest(
       ImagePart(bitmapImage),
       TextPart("Categorize this image as one of the following: car, motorcycle, bike, scooter, other. Return only the category as the response."),
   ) {
       // Optional parameters
       temperature = 0.2f
       topK = 10
       candidateCount = 1
       maxOutputTokens = 10
   },
)

Bardziej szczegółowe przykłady implementacji Prompt API znajdziesz w oficjalnej dokumentacjiprzykładzie na GitHub.

Gemini Nano, wydajność i prototypowanie

Prompt API obecnie działa najlepiej na urządzeniach z serii Pixel 10, na których działa najnowsza wersja Gemini Nano (nano-v3). Ta wersja Gemini Nano jest oparta na tej samej architekturze co Gemma 3n – model, który po raz pierwszy udostępniliśmy społeczności modeli otwartych podczas konferencji I/O.

Wspólna podstawa Gemma 3n i nano-v3 ułatwia deweloperom prototypowanie funkcji. Osoby, które nie mają urządzenia Pixel 10, mogą już dziś zacząć eksperymentować z promptami, prototypując lokalnie za pomocą Gemma 3n.

Pełną listę urządzeń obsługujących interfejsy GenAI API znajdziesz w naszej dokumentacji dotyczącej obsługi urządzeń.

Więcej informacji

Zacznij już dziś implementować Prompt API w swoich aplikacjach na Androida, korzystając z oficjalnej dokumentacji i przykładu na GitHub.

Czytaj dalej