混合式推論

Google 提供多種領先業界的 AI 模型和 API,適用於雲端和裝置端推論。混合式推論功能可讓您在本地裝置和雲端之間順暢平衡 AI 工作負載,進而提升效能、降低成本及提高可用性。

混合式推論可為 Android 應用程式帶來兩大優勢:

  • 盡量提高觸及:如果裝置硬體或 OS 限制導致 Gemini Nano 等裝置端模型無法使用,雲端模型就能做為重要的備援方案。確保 AI 功能在各種使用者裝置上都能正常運作。
  • 成本和離線功能:裝置端模型可確保 AI 功能在使用者離線時也能順暢運作。此外,將例行工作卸載至本機裝置,有助於降低雲端推論成本。
圖表:說明裝置端推論與雲端推論的原理。
圖 1:裝置端推論和雲端推論的優點。

導入選項

您可以透過下列方法實作混合推論:

Firebase AI Logic Hybrid API

Firebase AI Logic Hybrid API 提供單一整合式介面,可在雲端和裝置端環境之間分割推論。

其中包含 onDeviceConfig 參數,可提供簡單的控制項來定義推論模式及管理路徑:

  • PREFER_ON_DEVICE:嘗試使用裝置端模型,如果裝置端模型無法使用或不支援要求,則自動改用雲端代管模型。
  • PREFER_IN_CLOUD:裝置連線且模型可用時,系統會嘗試使用雲端託管模型,只有在裝置離線時才會改用裝置端模型。
  • ONLY_ON_DEVICE:嘗試使用裝置端模型,但如果模型無法使用或不支援要求,則會擲回例外狀況。
  • ONLY_IN_CLOUD:嘗試在裝置連線且模型可用時使用雲端託管模型,否則會擲回例外狀況。
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

如要瞭解實作方式,請參閱 Firebase 說明文件,並探索 AI 目錄中的混合式 AI 範例

自訂路徑

如果應用程式有特定的業務或 UX 需求,您也可以實作自訂的路由邏輯。您可以根據即時因素 (例如:) 動態決定推論路徑:

  • 網路延遲
  • 裝置系統健康狀態 (例如電池電量和處理器負載)
  • 使用者查詢複雜度

許多頂尖應用程式都採用這種自訂混合推論方法,並實作自己的自訂轉送,提供可靠的 AI 體驗,包括:

  • Gboard: Gboard 使用自訂混合推論技術,提供校對和改寫等撰寫工具。

  • Kakao Mobility: Kakao Mobility 為包裹遞送服務建構實體擷取工具,使用自訂混合推論, 可從自然語言訊息自動擷取收件者姓名、地址和電話號碼,簡化訂單表單。