Die richtige KI/ML-Lösung für Ihre App finden

Dieser Leitfaden soll Ihnen helfen, die Lösungen von Google für generative künstliche Intelligenz und maschinelles Lernen (KI/ML) in Ihre Anwendungen zu integrieren. Sie bietet eine Anleitung, mit der Sie sich in den verschiedenen Lösungen für künstliche Intelligenz und maschinelles Lernen zurechtfinden und die Lösung auswählen können, die am besten zu Ihren Anforderungen passt. In diesem Dokument erfahren Sie, welches Tool Sie für Ihre Anforderungen und Anwendungsfälle verwenden sollten.

Dieser Leitfaden soll Ihnen bei der Auswahl der am besten geeigneten KI-/ML-Lösung für Ihre spezifischen Anforderungen helfen. Wenn Sie eine Reihe von Fragen zu den Zielen und Einschränkungen Ihres Projekts beantworten, werden Sie im Leitfaden zu den am besten geeigneten Tools und Technologien weitergeleitet.

Dieser Leitfaden soll Ihnen helfen, die beste KI-Lösung für Ihre App auszuwählen. Berücksichtigen Sie dabei die folgenden Faktoren: den Datentyp (Text, Bilder, Audio, Video), die Komplexität der Aufgabe (einfache Zusammenfassung bis hin zu komplexen Aufgaben, die Fachwissen erfordern) und die Datengröße (kurze Eingaben im Vergleich zu großen Dokumenten). So können Sie entscheiden, ob Sie Gemini Nano auf Ihrem Gerät oder die cloudbasierte KI von Firebase (Gemini Flash, Gemini Pro oder Imagen) verwenden möchten.

Flussdiagramm für Entscheidungen bei Anwendungsfällen mit generativer KI. Zu den Kriterien gehören die Modalität (Text, Bild im Vergleich zu Audio, Video, Bildgenerierung), die Komplexität (Zusammenfassen, Umschreiben im Vergleich zu Fachwissen) und das Kontextfenster (kurze Eingabe/Ausgabe im Vergleich zu umfangreichen Dokumenten/Medien). Dies führt entweder zu On-Device GenAI (Gemini Nano) oder Firebase AI Logic (Gemini Flash, Pro, Imagen).
Abbildung 1: Diese Abbildung zeigt einen allgemeinen Lösungsleitfaden, mit dem Sie die richtige KI-/ML-Lösung für Ihre Android-App finden. Eine detailliertere Aufschlüsselung Ihrer KI- und ML-Optionen finden Sie im Lösungsleitfaden weiter unten in diesem Dokument.

Vorteile der Inferenz auf dem Gerät nutzen

Wenn Sie Ihrer Android-App KI- und ML-Funktionen hinzufügen, können Sie diese auf verschiedene Arten bereitstellen – entweder auf dem Gerät oder über die Cloud.

On‑Device-Lösungen wie Gemini Nano liefern Ergebnisse ohne zusätzliche Kosten, bieten einen besseren Datenschutz und ermöglichen eine zuverlässige Offline-Nutzung, da Eingabedaten lokal verarbeitet werden. Diese Vorteile können für bestimmte Anwendungsfälle wie die Zusammenfassung von Nachrichten entscheidend sein. Daher sollte bei der Auswahl der richtigen Lösungen On-Device-KI priorisiert werden.

Mit Gemini Nano können Sie Inferenz direkt auf einem Android-Gerät ausführen. Wenn Sie mit Text, Bildern oder Audio arbeiten, beginnen Sie mit den GenAI APIs von ML Kit für sofort einsatzbereite Lösungen. Die ML Kit GenAI-APIs basieren auf Gemini Nano und sind für bestimmte On-Device-Aufgaben optimiert. Die GenAI-APIs von ML Kit sind aufgrund ihrer Schnittstelle auf höherer Ebene und ihrer Skalierbarkeit ideal für die Produktion Ihrer Apps. Mit diesen APIs können Sie Anwendungsfälle implementieren, um Text zusammenzufassen, Korrektur zu lesen und umzuschreiben, Bildbeschreibungen zu generieren und Spracherkennung durchzuführen.

Wenn Sie über die grundlegenden Anwendungsfälle hinausgehen möchten, die von den ML Kit GenAI APIs bereitgestellt werden, sollten Sie den experimentellen Zugriff auf Gemini Nano in Betracht ziehen. Mit dem experimentellen Zugriff auf Gemini Nano haben Sie direkteren Zugriff auf benutzerdefinierte Prompts mit Gemini Nano.

Für herkömmliche Aufgaben im Bereich des maschinellen Lernens können Sie Ihre eigenen benutzerdefinierten Modelle implementieren. Wir bieten leistungsstarke Tools wie ML Kit, MediaPipe, LiteRT und Google Play-Bereitstellungsfunktionen, um Ihren Entwicklungsprozess zu optimieren.

Für Anwendungen, die hochspezialisierte Lösungen erfordern, können Sie Ihr eigenes benutzerdefiniertes Modell verwenden, z. B. Gemma oder ein anderes Modell, das auf Ihren spezifischen Anwendungsfall zugeschnitten ist. Führen Sie Ihr Modell mit LiteRT direkt auf dem Gerät des Nutzers aus. LiteRT bietet vordefinierte Modellarchitekturen für eine optimierte Leistung.

Sie können auch eine Hybridlösung mit On-Device- und Cloud-Modellen in Betracht ziehen.

In mobilen Apps werden häufig lokale Modelle für kleine Textdaten wie Chatunterhaltungen oder Blogartikel verwendet. Bei größeren Datenquellen (z. B. PDFs) oder wenn zusätzliches Wissen erforderlich ist, kann jedoch eine cloudbasierte Lösung mit leistungsstärkeren Gemini-Modellen erforderlich sein.

Erweiterte Gemini-Modelle einbinden

Android-Entwickler können die fortschrittlichen generativen KI-Funktionen von Google, einschließlich der leistungsstarken Modelle Gemini Pro, Gemini Flash und Imagen, mit dem Firebase AI Logic SDK in ihre Anwendungen einbinden. Dieses SDK wurde für größere Datenmengen entwickelt und bietet erweiterte Funktionen und Anpassungsfähigkeit, da es den Zugriff auf diese leistungsstarken, multimodalen KI-Modelle ermöglicht.

Mit dem Firebase AI Logic SDK können Entwickler mit minimalem Aufwand clientseitige Aufrufe an die KI-Modelle von Google vornehmen. Diese Modelle, z. B. Gemini Pro und Gemini Flash, führen Inferenz in der Cloud aus und ermöglichen es Android-Apps, eine Vielzahl von Eingaben zu verarbeiten, darunter Bilder, Audio, Video und Text. Gemini Pro eignet sich hervorragend für komplexe Probleme und die Analyse umfangreicher Daten. Die Gemini Flash-Modelle bieten eine höhere Geschwindigkeit und ein Kontextfenster, das für die meisten Aufgaben groß genug ist.

Wann sollte traditionelles maschinelles Lernen verwendet werden?

Generative KI ist zwar nützlich, um Inhalte wie Text, Bilder und Code zu erstellen und zu bearbeiten, viele reale Probleme lassen sich jedoch besser mit herkömmlichen Techniken für maschinelles Lernen (ML) lösen. Diese etablierten Methoden eignen sich hervorragend für Aufgaben wie Vorhersage, Klassifizierung, Erkennung und Analyse von Mustern in vorhandenen Daten. Sie sind oft effizienter, kostengünstiger und einfacher zu implementieren als generative Modelle.

Herkömmliche ML-Frameworks bieten robuste, optimierte und oft praktischere Lösungen für Anwendungen, die sich auf die Analyse von Eingaben, die Identifizierung von Merkmalen oder die Erstellung von Vorhersagen auf der Grundlage erlernter Muster konzentrieren – anstatt völlig neue Ausgaben zu generieren. Tools wie ML Kit, LiteRT und MediaPipe von Google bieten leistungsstarke Funktionen, die auf diese nicht generativen Anwendungsfälle zugeschnitten sind, insbesondere in mobilen und Edge-Computing-Umgebungen.

Machine-Learning-Integration mit ML Kit beschleunigen

ML Kit bietet produktionsreife, für Mobilgeräte optimierte Lösungen für gängige Aufgaben im Bereich maschinelles Lernen, für die keine ML-Vorkenntnisse erforderlich sind. Mit diesem benutzerfreundlichen mobilen SDK können Sie die ML-Expertise von Google direkt in Ihre Android- und iOS-Apps einbinden. So können Sie sich auf die Entwicklung von Funktionen konzentrieren, anstatt Modelle zu trainieren und zu optimieren. ML Kit bietet vorgefertigte APIs und einsatzbereite Modelle für Funktionen wie Barcode-Scanning, Texterkennung (OCR), Gesichtserkennung, Bildbeschriftung, Objekterkennung und ‑tracking, Spracherkennung und intelligente Antworten.

Diese Modelle sind in der Regel für die Ausführung auf dem Gerät optimiert und sorgen für geringe Latenz, Offline-Funktionen und einen besseren Datenschutz, da die Daten oft auf dem Gerät verbleiben. Mit ML Kit können Sie Ihrer mobilen App schnell etablierte ML-Funktionen hinzufügen, ohne Modelle trainieren zu müssen oder generative Ausgaben zu benötigen. Sie eignet sich ideal, um Apps mit den optimierten Modellen von Google oder durch die Bereitstellung benutzerdefinierter TensorFlow Lite-Modelle effizient mit „intelligenten“ Funktionen zu erweitern.

Auf der ML Kit-Entwicklerwebsite finden Sie umfassende Anleitungen und Dokumentationen.

Benutzerdefinierte ML-Bereitstellung mit LiteRT

Wenn Sie mehr Kontrolle benötigen oder Ihre eigenen ML-Modelle bereitstellen möchten, verwenden Sie einen benutzerdefinierten ML-Stack, der auf LiteRT und Google Play-Diensten basiert. Dieser Stack bietet die Grundlagen für die Bereitstellung leistungsstarker ML-Funktionen. LiteRT ist ein Toolkit, das für die effiziente Ausführung von TensorFlow-Modellen auf ressourcenbeschränkten mobilen, eingebetteten und Edge-Geräten optimiert ist. Damit können Sie deutlich kleinere und schnellere Modelle ausführen, die weniger Arbeitsspeicher, Strom und Speicherplatz benötigen. Die LiteRT-Laufzeit ist für verschiedene Hardwarebeschleuniger (GPUs, DSPs, NPUs) auf Edge-Geräten optimiert und ermöglicht Inferenz mit niedriger Latenz.

Wählen Sie LiteRT aus, wenn Sie trainierte ML-Modelle (in der Regel für Klassifizierung, Regression oder Erkennung) effizient auf Geräten mit begrenzter Rechenleistung oder Akkulaufzeit wie Smartphones, IoT-Geräten oder Mikrocontrollern bereitstellen müssen. Sie ist die bevorzugte Lösung für die Bereitstellung benutzerdefinierter oder standardmäßiger Vorhersagemodelle am Edge, wo Geschwindigkeit und Ressourcenschonung von größter Bedeutung sind.

Weitere Informationen zur ML-Bereitstellung mit LiteRT

Echtzeit-Wahrnehmung in Ihre Apps einbauen mit MediaPipe

MediaPipe bietet Open-Source-, plattformübergreifende und anpassbare Lösungen für maschinelles Lernen, die für Live- und Streamingmedien entwickelt wurden. Sie profitieren von optimierten, vorgefertigten Tools für komplexe Aufgaben wie Hand-Tracking, Schätzung der Körperhaltung, Erkennung von Gesichts-Mesh und Objekterkennung. So ist eine leistungsstarke Echtzeitinteraktion auch auf Mobilgeräten möglich.

Die auf Graphen basierenden Pipelines von MediaPipe sind hochgradig anpassbar und ermöglichen es Ihnen, Lösungen für Android-, iOS-, Web-, Desktop- und Backend-Anwendungen zu entwickeln. Wählen Sie MediaPipe aus, wenn Ihre Anwendung Live-Sensordaten, insbesondere Videostreams, sofort verstehen und darauf reagieren muss, z. B. für Anwendungsfälle wie Gestenerkennung, AR-Effekte, Fitness-Tracking oder Avatar-Steuerung. Dabei geht es immer darum, Eingaben zu analysieren und zu interpretieren.

Sehen Sie sich die Lösungen an und beginnen Sie mit der Entwicklung mit MediaPipe.

Ansatz auswählen: Auf dem Gerät oder in der Cloud

Wenn Sie KI-/ML-Funktionen in Ihre Android-App einbinden, müssen Sie frühzeitig entscheiden, ob die Verarbeitung direkt auf dem Gerät des Nutzers oder in der Cloud erfolgen soll. Tools wie ML Kit, Gemini Nano und TensorFlow Lite ermöglichen Funktionen auf dem Gerät, während die Gemini Cloud APIs mit Firebase AI Logic eine leistungsstarke cloudbasierte Verarbeitung bieten können. Die richtige Wahl hängt von einer Reihe von Faktoren ab, die für Ihren Anwendungsfall und die Bedürfnisse Ihrer Nutzer spezifisch sind.

Berücksichtigen Sie die folgenden Aspekte, um eine Entscheidung zu treffen:

  • Konnektivität und Offline-Funktionalität: Wenn Ihre Anwendung zuverlässig ohne Internetverbindung funktionieren muss, sind On-Device-Lösungen wie Gemini Nano ideal. Für die cloudbasierte Verarbeitung ist naturgemäß ein Netzwerkzugriff erforderlich.
  • Datenschutz: Bei Anwendungsfällen, in denen Nutzerdaten aus Datenschutzgründen auf dem Gerät verbleiben müssen, bietet die Verarbeitung auf dem Gerät einen deutlichen Vorteil, da vertrauliche Informationen lokal gespeichert werden.
  • Modellfunktionen und Aufgabenkomplexität: Cloudbasierte Modelle sind oft deutlich größer, leistungsstärker und werden häufiger aktualisiert. Daher eignen sie sich für hochkomplexe KI-Aufgaben oder für die Verarbeitung größerer Eingaben, bei denen eine höhere Ausgabequalität und umfangreiche Funktionen von größter Bedeutung sind. Einfachere Aufgaben können von On-Device-Modellen gut erledigt werden.
  • Kosten: Für Cloud-APIs gilt in der Regel eine nutzungsbasierte Preisgestaltung. Die Kosten können also mit der Anzahl der Inferenzen oder der Menge der verarbeiteten Daten steigen. Die Inferenz auf dem Gerät ist zwar in der Regel kostenlos, verursacht aber Entwicklungskosten und kann sich auf Geräteressourcen wie die Akkulaufzeit und die Gesamtleistung auswirken.
  • Geräteressourcen: On-Device-Modelle belegen Speicherplatz auf dem Gerät des Nutzers. Außerdem ist es wichtig, die Gerätekompatibilität bestimmter On-Device-Modelle wie Gemini Nano zu berücksichtigen, damit Ihre Zielgruppe die Funktionen nutzen kann.
  • Feinabstimmung und Anpassung: Wenn Sie Modelle für Ihren spezifischen Anwendungsfall feinabstimmen möchten, bieten cloudbasierte Lösungen in der Regel mehr Flexibilität und umfangreichere Anpassungsoptionen.
  • Plattformübergreifende Konsistenz: Wenn konsistente KI-Funktionen auf mehreren Plattformen, einschließlich iOS, wichtig sind, sollten Sie bedenken, dass einige On-Device-Lösungen wie Gemini Nano möglicherweise noch nicht auf allen Betriebssystemen verfügbar sind.

Wenn Sie die Anforderungen Ihres Anwendungsfalls und die verfügbaren Optionen sorgfältig berücksichtigen, können Sie die perfekte KI‑/ML‑Lösung finden, um Ihre Android-App zu optimieren und Ihren Nutzern intelligente und personalisierte Funktionen zu bieten.


Leitfaden zu KI-/ML-Lösungen

Dieser Lösungsleitfaden kann Ihnen helfen, die geeigneten Entwicklertools für die Integration von KI-/ML-Technologien in Ihre Android-Projekte zu finden.

Was ist das Hauptziel der KI-Funktion?

  • A) Neue Inhalte (Text, Bildbeschreibungen) generieren oder einfache Textverarbeitung (Zusammenfassen, Korrekturlesen oder Umschreiben von Text) durchführen? → Generative KI
  • B) Bestehende Daten/Eingaben für Vorhersage, Klassifizierung, Erkennung, Mustererkennung oder Verarbeitung von Echtzeitstreams (z. B. Video/Audio) analysieren? → Traditionelles maschinelles Lernen und Wahrnehmung

Herkömmliches maschinelles Lernen und Wahrnehmung

Sie müssen Eingaben analysieren, Features identifizieren oder Vorhersagen auf Grundlage erlernter Muster treffen, anstatt völlig neue Ausgaben zu generieren.

Welche Aufgabe führen Sie gerade aus?

  • A) Sie benötigen eine schnelle Integration von vorgefertigten, gängigen Mobile ML-Funktionen? (z.B. Barcode-Scanning, Texterkennung (OCR), Gesichtserkennung, Bildkennzeichnung, Objekterkennung und ‑tracking, Spracherkennung, einfache Smart Reply)
    • → Verwendung: ML Kit (herkömmliche APIs)
    • Grund: Einfachste Integration für etablierte mobile ML-Aufgaben, die häufig für die Verwendung auf dem Gerät optimiert sind (geringe Latenz, Offline, Datenschutz).
  • B) Müssen Sie Streamingdaten in Echtzeit (z. B. Video oder Audio) für Wahrnehmungsaufgaben verarbeiten? z.B. Hand-Tracking, Haltungsschätzung, Gesichts-Mesh, Objekterkennung und ‑segmentierung in Echtzeit in Videos)
    • → Verwenden: MediaPipe
    • Warum: Framework, das auf leistungsstarke Echtzeit-Wahrnehmungspipelines auf verschiedenen Plattformen spezialisiert ist.
  • C) Sie müssen Ihr eigenes benutzerdefiniert trainiertes ML-Modell (z. B. für Klassifizierung, Regression, Erkennung) effizient auf dem Gerät ausführen und dabei Leistung und geringen Ressourcenverbrauch priorisieren.
    • → Verwendung: LiteRT (TensorFlow Lite Runtime)
    • Warum: Optimierte Laufzeit für die effiziente Bereitstellung benutzerdefinierter Modelle auf Mobilgeräten und Edge-Geräten (kleine Größe, schnelle Inferenz, Hardwarebeschleunigung).
  • D) Sie müssen ein eigenes benutzerdefiniertes ML-Modell für eine bestimmte Aufgabe trainieren?
    • → Verwendung: LiteRT (TensorFlow Lite Runtime) + benutzerdefiniertes Modelltraining
    • Erläuterung: Bietet die Tools zum Trainieren und Bereitstellen benutzerdefinierter Modelle, die für Mobilgeräte und Edge-Geräte optimiert sind.
  • E) Benötigen Sie eine erweiterte Contentklassifizierung, Sentimentanalyse oder Übersetzung in viele Sprachen mit hoher Nuance?
    • Überlegen Sie, ob herkömmliche ML-Modelle (die möglicherweise mit LiteRT oder in der Cloud bereitgestellt werden) geeignet sind oder ob für die erweiterte NLU generative Modelle erforderlich sind (zurück zum Start, Option A auswählen). Für cloudbasierte Klassifizierung, Sentimentanalyse oder Übersetzung:
    • → Verwenden Sie cloudbasierte Lösungen (z.B. Google Cloud Natural Language API, Google Cloud Translation API, die möglicherweise über ein benutzerdefiniertes Backend oder Vertex AI aufgerufen wird. (Geringere Priorität als Optionen auf dem Gerät, wenn Offline- oder Datenschutzfunktionen wichtig sind)
    • Grund: Cloud-Lösungen bieten leistungsstarke Modelle und umfangreiche Sprachunterstützung, erfordern jedoch eine Verbindung und können Kosten verursachen.

Generative KI

Sie müssen neue Inhalte erstellen, zusammenfassen, umschreiben oder komplexe Aufgaben zum Verstehen oder zur Interaktion ausführen.

Soll die KI offline funktionieren, benötigen Sie maximalen Datenschutz (Nutzerdaten werden auf dem Gerät gespeichert) oder möchten Sie Kosten für die Cloud-Inferenz vermeiden?

  • A) Ja, Offline-Funktionen, maximaler Datenschutz oder keine Cloud-Kosten sind wichtig.
  • B) Nein: Die Konnektivität ist verfügbar und akzeptabel, Cloud-Funktionen und Skalierbarkeit sind wichtiger oder für bestimmte Funktionen ist die Cloud erforderlich.

Generative KI auf dem Gerät (mit Gemini Nano)

Einschränkungen: Kompatible Android-Geräte erforderlich, eingeschränkte iOS-Unterstützung, spezifische Token-Limits (1.024 Prompts, 4.096 Kontext), Modelle sind weniger leistungsstark als Cloud-Pendants.

Entspricht Ihr Anwendungsfall genau den optimierten Aufgaben, die von den ML Kit GenAI-APIs angeboten werden? (Text zusammenfassen, Text korrigieren, Text neu schreiben, Bildbeschreibungen generieren oder Spracherkennung durchführen) UND sind die Token-Limits ausreichend?

  • A) Ja:
    • → Verwendung: ML Kit GenAI-APIs (basierend auf Gemini Nano)
    • Warum: Einfachste Möglichkeit, bestimmte, häufige generative Aufgaben auf dem Gerät zu integrieren. Höchste Priorität für die On-Device-Lösung.
  • B) Nein: Sie benötigen flexiblere Prompts oder Aufgaben, die über die spezifischen GenAI-APIs von ML Kit hinausgehen, möchten aber trotzdem die Ausführung auf dem Gerät innerhalb der Nano-Funktionen nutzen:
    • → Gemini Nano Experimental Access verwenden
    • Warum: Bietet offene Prompting-Funktionen auf dem Gerät für Anwendungsfälle, die über die strukturierten ML Kit GenAI-APIs hinausgehen, wobei die Einschränkungen von Nano berücksichtigt werden.

Generative KI in der Cloud

Es werden leistungsstärkere Modelle verwendet, eine Verbindung ist erforderlich, in der Regel fallen Inferenzkosten an, es ist eine größere Geräteabdeckung möglich und die plattformübergreifende (Android und iOS) Konsistenz ist einfacher.

Was ist Ihnen wichtiger: eine einfache Integration in Firebase ODER maximale Flexibilität/Kontrolle?

  • A) Sie bevorzugen eine einfache Integration und eine verwaltete API und verwenden wahrscheinlich bereits Firebase?
  • B) Sie benötigen maximale Flexibilität, Zugriff auf die größte Auswahl an Modellen (einschließlich Drittanbieter-/benutzerdefinierter Modelle) und erweitertes Fine-Tuning und sind bereit, Ihre eigene Backend-Integration zu verwalten (komplexer)?
    • → Verwendung: Gemini API mit einem benutzerdefinierten Cloud-Back-End (mit Google Cloud Platform)
    • Vorteile: Bietet die größte Kontrolle, den breitesten Modellzugriff und benutzerdefinierte Trainingsoptionen, erfordert jedoch einen erheblichen Backend-Entwicklungsaufwand. Geeignet für komplexe, umfangreiche oder stark angepasste Anforderungen.

(Sie haben das Firebase AI Logic SDK ausgewählt) Welche Art von generativer Aufgabe und welches Leistungsprofil benötigen Sie?

  • A) Sie benötigen ein ausgewogenes Verhältnis zwischen Leistung und Kosten, das sich für die allgemeine Texterstellung, Zusammenfassung oder Chatanwendungen eignet, bei denen Geschwindigkeit wichtig ist?
  • B) Sie benötigen eine höhere Qualität und Leistungsfähigkeit für die komplexe Textgenerierung, das Treffen von Schlussfolgerungen, die erweiterte Verarbeitung natürlicher Sprache oder das Befolgen von Anweisungen?
  • C) Benötigen Sie eine ausgefeilte Bildgenerierung oder eine erweiterte Bildanalyse oder ‑bearbeitung auf der Grundlage von Text-Prompts?