Gemini Nano z pakietem Google AI Edge SDK

Na obsługiwanych urządzeniach z Androidem możesz korzystać z bogatych funkcji generatywnej AI bez konieczności łączenia się z siecią ani wysyłania danych do chmury. AI na urządzeniu to świetne rozwiązanie w przypadku zastosowań, w których najważniejsze są niskie opóźnienia, niskie koszty i zabezpieczenia dotyczące prywatności.

W przypadku zastosowań na urządzeniu możesz korzystać z modelu podstawowego Gemini Nano od Google. Chociaż jest mniejszy niż inne modele Gemini, które wykonują wnioskowanie w chmurze, możesz dostosować model Gemini Nano do wykonywania wyspecjalizowanych zadań tak samo jak jego większe odpowiedniki. Gemini Nano działa w systemowej usłudze AICore, która wykorzystuje sprzęt urządzenia, aby zapewnić krótki czas oczekiwania na wnioskowanie i utrzymywać model w stanie aktualnym.

Dostęp do interfejsu Gemini Nano API i AICore zapewnia pakiet Google AI Edge SDK. Google AI Edge to kompleksowy zestaw narzędzi do korzystania z ML na urządzeniu. Więcej informacji o Google AI Edge

Architektura

Jako moduł na poziomie systemu uzyskujesz dostęp do AICore za pomocą serii interfejsów API, aby przeprowadzać wnioskowanie na urządzeniu. Ponadto AICore ma kilka wbudowanych funkcji bezpieczeństwa, które zapewniają dokładną ocenę pod kątem naszych filtrów bezpieczeństwa. Na poniższym diagramie pokazano, jak aplikacja uzyskuje dostęp do AICore, aby uruchomić Gemini Nano na urządzeniu.

Google AI Edge SDK, AICore i Gemini Nano.
Rysunek 1. Google AI Edge SDK, AICore i Gemini Nano.

Ochrona prywatności i bezpieczeństwa danych użytkownika

Generatywna AI na urządzeniu wykonuje prompty lokalnie, eliminując wywołania serwera. Takie podejście zwiększa prywatność, ponieważ dane wrażliwe są przechowywane na urządzeniu, co umożliwia korzystanie z funkcji offline i zmniejsza koszty wnioskowania.

AICore przestrzega zasad Private Compute Core, a jego kluczowe cechy to:

Ograniczone wiązanie pakietów: AICore jest izolowany od większości innych pakietów, z niewielkimi wyjątkami w przypadku niektórych pakietów systemowych. Wszelkie zmiany na tej liście dozwolonych mogą być wprowadzane tylko podczas pełnej aktualizacji OTA Androida.

Pośredni dostęp do internetu: AICore nie ma bezpośredniego dostępu do internetu. Wszystkie żądania internetowe, w tym pobieranie modeli, są kierowane przez towarzyszący APK Private Compute Services o źródle otwartym. Interfejsy API w usługach Private Compute Services muszą wyraźnie wskazywać, że ich działanie jest skoncentrowane na ochronie prywatności.

Ponadto AICore jest tak skonstruowany, aby izolować każde żądanie i nie przechowywać żadnych danych wejściowych ani wyników po przetworzeniu w celu ochrony prywatności użytkowników. Aby dowiedzieć się więcej, przeczytaj poście na blogu na temat ochrony prywatności i bezpieczeństwa w Gemini Nano.

Ilustracja architektury AICore
Rysunek 2. Architektura AICore

Zalety korzystania z modeli podstawowych AI w usłudze AICore

AICore umożliwia systemowi Android OS udostępnianie modeli AI i zarządzanie nimi. Dzięki temu znacznie obniżysz koszty korzystania z tych dużych modeli w aplikacji, głównie z tych powodów:

Łatwość wdrażania: AICore zarządza dystrybucją Gemini Nano i przeprowadza przyszłe aktualizacje. Nie musisz się martwić pobieraniem ani aktualizowaniem dużych modeli przez sieć ani wpływem na dysk i budżet pamięci aplikacji w czasie jej działania.

Akceleracja wnioskowania: AICore wykorzystuje sprzęt na urządzeniu do przyspieszania wnioskowania. Aplikacja osiąga najlepszą wydajność na każdym urządzeniu i nie musisz się martwić o podstawowe interfejsy sprzętowe.

Obsługiwane funkcje

AICore obsługuje te urządzenia i modalności:

  • Obsługiwane urządzenia: AICore jest obecnie dostępny na urządzeniach z Pixel 9, Pixel 8 (w tym Pixel 81 i Pixel 8a2), Samsung S24, Samsung Z Fold6, Samsung Z Flip6, Realme GT 6, Motorola Edge 50 Ultra, Motorola Razr 50 Ultra, Xiaomi 14T/Pro i Xiaomi MIX Flip.
  • Obsługiwane tryby: AICore obsługuje obecnie tryb tekstowy w przypadku Gemini Nano.

Aktywnie inwestujemy w obsługę dodatkowych urządzeń i modalności.

Przykłady zastosowań

Ze względu na ograniczenia zasobów urządzeń mobilnych w porównaniu z serwerami w chmurze modele generatywnej AI na urządzeniach są projektowane z uwzględnieniem wydajności i rozmiaru. Ta optymalizacja stawia na pierwszym miejscu konkretne, dobrze zdefiniowane zadania, a nie bardziej ogólne zastosowania. Odpowiedni przypadki użycia:

  • Przeformułowanie tekstu: możesz zmienić ton i styl tekstu (np. z nieformalnego na formalny).
  • Inteligentna odpowiedź: generuje trafne odpowiedzi w kontekście wątku czatu.
  • Korektura: wykrywanie i poprawianie błędów ortograficznych i gramatycznych.
  • Streszczenie: przekształcanie długich dokumentów w zwięzłe podsumowania (akapity lub punkty).

Aby uzyskać optymalną skuteczność, zapoznaj się z dokumentacją dotyczącą strategii promptów. Aby zapoznać się z tymi zastosowaniami, pobierz naszą przykładową aplikację i zacznij eksperymentować z Gemini Nano.

Gemini Nano jest używane przez kilka aplikacji Google. Oto kilka przykładów:

  • TalkBack: aplikacja na Androida ułatwiająca dostępność TalkBack korzysta z możliwości multimodalnego wprowadzania danych przez Gemini Nano, aby ulepszyć opisy obrazów dla użytkowników niedowidzących.
  • Dyktafon na Pixelu: aplikacja Dyktafon na Pixelu korzysta z Gemini Nano i AICore do obsługi funkcji podsumowywania na urządzeniu. Zespół odpowiedzialny za Narzędzie do nagrywania wprowadził najnowszy model Gemini Nano, aby obsługiwać dłuższe nagrania i zapewniać podsumowania o wyższej jakości.
  • Gboard: inteligentna odpowiedź w Gboard korzysta z Gemini Nano na urządzeniu z AICore, aby dostarczać dokładne inteligentne odpowiedzi.

  1. Gemini Nano można włączyć na urządzeniach Pixel 8 jako opcję dla programistów

  2. Gemini Nano można włączyć na urządzeniach Pixel 8a jako opcję dla programistów