產品新訊

運用 Android Bench 提升 AI 輔助 Android 開發體驗,並改善 LLM

2 分鐘閱讀
Matthew McCullough
Android 開發人員產品管理副總裁

我們希望您能更快速輕鬆地建構優質 Android 應用程式,而其中一種方法就是提供 AI 輔助功能,協助您提升工作效率。我們瞭解您需要真正瞭解 Android 平台細微差異的 AI,因此我們一直在評估 LLM 執行 Android 開發工作的成效。我們今天推出了第一版 Android Bench,這是 Android 開發專用的官方 LLM 排行榜。

我們的目標是為模型建立者提供基準,以評估 LLM 在 Android 開發方面的能力。我們為優質 Android 開發作業建立明確可靠的基準,協助模型建立者找出缺口並加快改善速度,進而讓開發人員能更有效率地工作,並從更多實用模型中選擇 AI 輔助功能,最終在 Android 生態系統中打造更高品質的應用程式。

以實際的 Android 開發工作為設計依據

我們針對一系列常見的 Android 開發領域,精心挑選了一組工作,並以此建立基準。這些挑戰的難度各異,且皆來自公開的 GitHub Android 存放區。例如解決 Android 版本間的重大變更、處理特定領域的工作 (例如穿戴式裝置的網路連線),以及遷移至最新版 Jetpack Compose 等。

每次評估都會嘗試讓 LLM 修正工作回報的問題,然後我們使用單元或檢測設備測試進行驗證。這種與模型無關的方法可讓我們評估模型導覽複雜程式碼集、瞭解依附元件,以及解決您每天遇到的問題。

我們與 JetBrains 等多家 LLM 製作公司驗證了這項方法。

評估 AI 對 Android 的影響是一項艱鉅的挑戰,因此我們很高興看到如此健全且實際的架構。我們積極進行基準測試,而 Android Bench 是一項獨特且值得歡迎的工具。這正是 Android 開發人員目前需要的嚴格評估方法。」 
- JetBrains AI 整合部門主管 Kirill Smelov。

第一個 Android Bench 結果

在這次的初步發布中,我們希望純粹評估模型效能,而非著重於代理或工具使用。模型能順利完成 16% 至 72% 的工作。這個範圍很廣,顯示部分大型語言模型已具備 Android 知識的強大基礎,其他模型則有更多進步空間。無論模型目前的狀態如何,我們都預期會持續改善,因為我們鼓勵 LLM 製作工具提升模型,以利 Android 開發作業。

在首發版本中,Gemini 3.1 Pro 的平均分數最高,緊隨其後的是 Claude Opus 4.6。在最新穩定版的 Android Studio 中使用 API 金鑰,即可試用我們評估的所有模型,為 Android 專案提供 AI 輔助功能。

androidBench2.png

向開發人員和 LLM 製作方提供透明度資訊

我們重視公開透明的做法,因此已在 GitHub 上公開我們的評估方法、資料集和測試架構。

任何公開基準的挑戰之一,就是資料汙染的風險,也就是模型在訓練過程中可能看過評估工作。我們已採取多項措施,確保結果反映的是真實推論,而非記憶或猜測,包括徹底手動審查代理路徑,或整合 Canary 字串來阻止訓練。

展望未來,我們將持續發展方法,確保資料集完整性,同時改善基準的後續版本,例如增加工作數量和複雜度。

我們期待 Android Bench 能長期提升 AI 輔助功能。我們的願景是縮短概念與優質程式碼之間的差距。我們正在為未來奠定基礎,讓您在 Android 上實現任何想像。

撰寫者:

繼續閱讀