Die Gemini Live API bietet eine umfassende Lösung für die Implementierung von Konversationsschnittstellen mit Ihren Nutzern. Wenn Sie für Android XR entwickeln, können Sie die Gemini Live API über Firebase AI Logic einbinden. Im Gegensatz zur Verwendung von Text-to-Speech (TTS) und automatischer Spracherkennung (ASR) verarbeitet die Gemini Live API sowohl Audioeingaben als auch ‑ausgaben nahtlos. Die Gemini Live API erfordert eine dauerhafte Internetverbindung, verursacht Kosten, unterstützt eine begrenzte Anzahl gleichzeitiger Verbindungen pro Projekt und ist möglicherweise nicht ideal für die Verarbeitung von Fehlerbedingungen oder anderer wichtiger Nutzerkommunikation, insbesondere auf KI-Brillen ohne Display.
Neben der Unterstützung von Audio-Schnittstellen können Sie mit der Gemini Live API auch Agent-basierte Lösungen entwickeln.
Eine Einführung in die Gemini Live API finden Sie in der Anleitung zur Gemini Live API. Darin wird beschrieben, wie Sie eine LiveGenerativeModel instanziieren und konfigurieren, eine LiveSession einrichten und benutzerdefinierte FunctionDeclaration-Instanzen erstellen, damit Ihre App Anfragen von Gemini verarbeiten kann.