Google は、高品質の Android アプリをより迅速かつ簡単に構築できるようにしたいと考えています。生産性を高めるための方法の一つとして、AI を活用しています。Google は、Android プラットフォームのニュアンスを真に理解する AI を求めていることを認識しています。そのため、LLM が Android 開発タスクをどの程度実行できるかを測定してきました。本日、Android 開発向けの LLM の公式リーダーボードである Android Bench の最初のバージョンをリリースしました。
Google の目標は、モデル作成者に Android 開発用の LLM の機能を評価するためのベンチマークを提供することです。高品質な Android 開発の明確で信頼性の高いベースラインを確立することで、モデル作成者がギャップを特定して改善を加速できるよう支援します。これにより、デベロッパーは AI アシスタンスに役立つ幅広いモデルを選択して、より効率的に作業できるようになります。最終的には、Android エコシステム全体でアプリの品質が向上します。
実際の Android 開発タスクを想定して設計
ベンチマークは、Android 開発の幅広い一般的領域を対象としたタスクセットをキュレートして作成しました。これは、GitHub の公開 Android リポジトリから取得した、難易度の異なる実際の課題で構成されています。シナリオには、Android リリース間の破壊的変更の解決、ウェアラブルのネットワーキングなどのドメイン固有のタスク、Jetpack Compose の最新バージョンへの移行などがあります。
各評価では、LLM がタスクで報告された問題を修正しようとし、その結果を単体テストまたは計測テストで検証します。このモデルに依存しないアプローチにより、複雑なコードベースをナビゲートし、依存関係を理解し、日常的に発生する問題を解決するモデルの能力を測定できます。
この手法は、JetBrains を含む複数の LLM メーカーによって検証されています。
「Android における AI の影響を測定することは非常に困難なため、このような健全で現実的なフレームワークが提供されることは素晴らしいことです。Google はベンチマークを積極的に実施していますが、Android Bench はユニークで歓迎すべき追加です。この手法は、まさに今 Android デベロッパーが必要としている厳密な評価です。」
- JetBrains、AI 統合責任者、Kirill Smelov 氏。
最初の Android Bench の結果
今回の初回リリースでは、モデルのパフォーマンスを純粋に測定し、エージェントやツールの使用に焦点を当てないようにしました。モデルはタスクの 16 ~ 72% を正常に完了できました。この範囲は広く、一部の LLM はすでに Android の知識に関する強力なベースラインを備えている一方、改善の余地が大きいものもあることを示しています。モデルの現状に関係なく、LLM メーカーに Android 開発用のモデルの強化を促すことで、継続的な改善が期待されます。
この最初のリリースで最も高い平均スコアを獲得した LLM は Gemini 3.1 Pro で、Claude Opus 4.6 がそれに続いています。Android Studio の最新の安定版で API キーを使用すると、Android プロジェクトの AI アシスタンス用に評価したすべてのモデルを試すことができます。
デベロッパーと LLM メーカーに透明性を提供
Google はオープンで透明性の高いアプローチを重視しているため、Google の手法、データセット、テストハーネスを GitHub で一般公開しています。
公開ベンチマークの課題の一つは、データ汚染のリスクです。モデルがトレーニング プロセス中に評価タスクを認識している可能性があります。エージェントの軌跡の徹底的な手動審査や、トレーニングを抑制するためのカナリア文字列の統合など、結果が暗記や推測ではなく、真の推論を反映するように対策を講じています。
今後も、データセットの完全性を維持しながら、ベンチマークの将来のリリースに向けて、タスクの量と複雑さを増やすなど、方法論を進化させていきます。
Android Bench が AI アシスタントの長期的な改善にどのように貢献するかを楽しみにしています。私たちのビジョンは、コンセプトと高品質なコードのギャップを埋めることです。Android は、思い描いたものを何でも構築できる未来の基盤を構築しています。
続きを読む
-
プロダクト ニュース
Google I/O '26 では、エージェント主導の生産性、UI 標準としての Compose First、拡大するエコシステム向けの高性能メディアと適応型開発に焦点を当てた、Android デベロッパー向けの 17 個の重要な発表が行われました。
Matthew McCullough • 所要時間: 8 分
-
プロダクト ニュース
本日、The Android Show で発表されたように、Android はオペレーティング システムからインテリジェンス システムへと移行し、アプリのエンゲージメントを高める機会を増やしています。
Matthew McCullough • 所要時間: 4 分
-
プロダクト ニュース
本日、複雑な推論と自律的なツール呼び出し機能を備えた最新の最先端オープンモデルである Gemma 4 を使用して、Android 開発を強化します。
Matthew McCullough • 所要時間: 2 分
最新情報の入手
Android 開発に関する最新の分析情報を毎週メールでお届けします。