Android Bench की मदद से, एआई की मदद से Android ऐप्लिकेशन बनाने की प्रोसेस को बेहतर बनाना और एलएलएम को बेहतर बनाना

पढ़ने में दो मिनट लगेंगे

05 मार्च 2026

Matthew McCullough वाइस प्रेसिडेंट, प्रॉडक्ट मैनेजमेंट, Android डेवलपर

हम चाहते हैं कि आप अच्छी क्वालिटी वाले Android ऐप्लिकेशन को तेज़ी से और आसानी से बना सकें. हम एआई को आपके लिए उपलब्ध करा रहे हैं, ताकि आप ज़्यादा से ज़्यादा काम कर सकें. हम जानते हैं कि आपको ऐसा एआई चाहिए जो Android प्लैटफ़ॉर्म की बारीकियों को समझता हो. इसलिए, हम यह मेज़र कर रहे हैं कि एलएलएम, Android डेवलपमेंट के टास्क कैसे पूरे करते हैं. आज हमने Android Bench का पहला वर्शन रिलीज़ किया है. यह Android डेवलपमेंट के लिए, LLM का आधिकारिक लीडरबोर्ड है.

हमारा लक्ष्य, मॉडल क्रिएटर्स को एक ऐसा बेंचमार्क उपलब्ध कराना है जिससे वे Android ऐप्लिकेशन बनाने के लिए, एलएलएम की क्षमताओं का आकलन कर सकें. Android ऐप्लिकेशन बनाने के लिए, क्वालिटी के एक भरोसेमंद स्टैंडर्ड को तय करके, हम मॉडल बनाने वालों को कमियों का पता लगाने और उन्हें बेहतर बनाने में मदद कर रहे हैं. इससे डेवलपर को एआई की मदद के लिए, ज़्यादा मददगार मॉडल के साथ ज़्यादा कुशलता से काम करने में मदद मिलती है. इससे Android इकोसिस्टम में, बेहतर क्वालिटी वाले ऐप्लिकेशन उपलब्ध कराए जा सकेंगे.

इसे Android डेवलपमेंट के असल टास्क के हिसाब से डिज़ाइन किया गया है

हमने बेंचमार्क को, Android डेवलपमेंट के अलग-अलग सामान्य पहलुओं के हिसाब से टास्क सेट करके बनाया है. इसमें अलग-अलग मुश्किल लेवल की असली चुनौतियां शामिल हैं. इन्हें सार्वजनिक GitHub Android रिपॉज़िटरी से लिया गया है. इनमें Android के अलग-अलग वर्शन में होने वाले बड़े बदलावों को ठीक करना, डोमेन से जुड़े टास्क (जैसे, पहनने लायक डिवाइसों पर नेटवर्किंग) करना, और Jetpack Compose के नए वर्शन पर माइग्रेट करना शामिल है.

हर आकलन में, एलएलएम से टास्क में बताई गई समस्या को ठीक करने के लिए कहा जाता है. इसके बाद, हम यूनिट या इंस्ट्रूमेंटेशन टेस्ट का इस्तेमाल करके इसकी पुष्टि करते हैं. इस मॉडल-अग्नोस्टिक अप्रोच से, हमें यह पता चलता है कि कोई मॉडल, मुश्किल कोडबेस को नेविगेट करने, डिपेंडेंसी को समझने, और रोज़मर्रा की समस्याओं को हल करने में कितना सक्षम है.

हमने इस तरीके की पुष्टि, एलएलएम बनाने वाली कई कंपनियों के साथ की है. इनमें JetBrains भी शामिल है.

“Android पर एआई के असर को मेज़र करना एक बड़ी चुनौती है. इसलिए, इस तरह के फ़्रेमवर्क को देखना बहुत अच्छा है, जो भरोसेमंद और व्यावहारिक है. हम खुद को बेंचमार्क करने के लिए लगातार काम कर रहे हैं. ऐसे में, Android Bench एक यूनीक और बेहतरीन प्लैटफ़ॉर्म है. यह तरीका, Android डेवलपर के लिए काफ़ी मददगार है.”
- किरिल स्मेलोव, JetBrains में एआई इंटिग्रेशन के हेड.

Android Bench के पहले नतीजे

इस शुरुआती रिलीज़ के लिए, हम सिर्फ़ मॉडल की परफ़ॉर्मेंस को मेज़र करना चाहते थे. हमारा फ़ोकस, एजेंटिक या टूल के इस्तेमाल पर नहीं था. मॉडल, 16 से 72% टास्क को पूरा कर पाए. यह एक बड़ी रेंज है. इससे पता चलता है कि कुछ एलएलएम के पास Android के बारे में पहले से ही अच्छी जानकारी है, जबकि अन्य एलएलएम को इस बारे में और जानकारी देने की ज़रूरत है. फ़िलहाल, मॉडल की परफ़ॉर्मेंस कैसी भी हो, हमें उम्मीद है कि इसमें लगातार सुधार होता रहेगा. ऐसा इसलिए, क्योंकि हम एलएलएम बनाने वाली कंपनियों को Android डेवलपमेंट के लिए अपने मॉडल को बेहतर बनाने के लिए बढ़ावा दे रहे हैं.

पहली रिलीज़ के लिए, सबसे ज़्यादा औसत स्कोर वाला एलएलएम Gemini 3.1 Pro है. इसके बाद, Claude Opus 4.6 का स्कोर सबसे ज़्यादा है. हमने Android प्रोजेक्ट के लिए, एआई की मदद से काम करने वाले जिन मॉडल का आकलन किया है उन्हें आज़माया जा सकता है. इसके लिए, Android Studio के नए स्टेबल वर्शन में एपीआई पासकोड का इस्तेमाल करें.

डेवलपर और एलएलएम बनाने वालों को पारदर्शिता के साथ जानकारी देना

हम खुले और पारदर्शी तरीके को अहमियत देते हैं. इसलिए, हमने अपनी कार्यप्रणाली, डेटासेट, और टेस्ट हार्नेस को GitHub पर सार्वजनिक तौर पर उपलब्ध कराया है.

किसी भी सार्वजनिक बेंचमार्क के लिए, डेटा में गड़बड़ी होने का खतरा एक चुनौती है. ऐसा इसलिए, क्योंकि ट्रेनिंग के दौरान मॉडल ने आकलन के टास्क देखे हो सकते हैं. हमने यह पक्का करने के लिए कई कदम उठाए हैं कि हमारे नतीजे, रटने या अनुमान लगाने के बजाय असली गहराई से विश्लेषण को दिखाएं. इनमें एजेंट के जवाबों की मैन्युअल तरीके से पूरी समीक्षा करना या ट्रेनिंग को हतोत्साहित करने के लिए कैनरी स्ट्रिंग को इंटिग्रेट करना शामिल है.

हम आने वाले समय में, डेटासेट की अखंडता को बनाए रखने के लिए, अपनी कार्यप्रणाली को बेहतर बनाते रहेंगे. साथ ही, बेंचमार्क के आने वाले वर्शन में सुधार करते रहेंगे. उदाहरण के लिए, टास्क की संख्या और जटिलता को बढ़ाना.

हम यह देखने के लिए उत्सुक हैं कि Android Bench, एआई की मदद से काम करने वाली सुविधाओं को लंबे समय तक कैसे बेहतर बना सकता है. हमारा लक्ष्य, कॉन्सेप्ट और अच्छी क्वालिटी के कोड के बीच के अंतर को कम करना है. हम आने वाले समय के लिए, Android को इस तरह से तैयार कर रहे हैं कि आप जो भी चाहें उसे Android पर बना सकें.

लेखक:

Matthew McCullough

वाइस प्रेसिडेंट, प्रॉडक्ट मैनेजमेंट, Android डेवलपर

read_more प्रोफ़ाइल देखें

पढ़ना जारी रखें

19 मई 2026

19 मई 2026

प्रॉडक्ट से जुड़ी खबरें

Google I/O में Android डेवलपर के लिए 17 ज़रूरी बातें!

arrow_forward

Google I/O '26 में, Android डेवलपर के लिए 17 अहम घोषणाएं की गई हैं. इनमें एजेंट की मदद से काम करने की क्षमता, यूज़र इंटरफ़ेस (यूआई) के स्टैंडर्ड के तौर पर Compose First, और बढ़ते हुए इकोसिस्टम के लिए हाई-परफ़ॉर्मेंस मीडिया और अडैप्टिव डेवलपमेंट पर फ़ोकस किया गया है.
Matthew McCullough • 8 मिनट में पढ़ा जा सकता है
- #Google I/O
12 मई 2026

12 मई 2026

प्रॉडक्ट से जुड़ी खबरें

Android पर इंटेलिजेंस सिस्टम बनाना

arrow_forward

आज The Android Show के दौरान यह एलान किया गया कि Android, ऑपरेटिंग सिस्टम से इंटेलिजेंस सिस्टम में बदल रहा है. इससे आपके ऐप्लिकेशन के साथ लोगों की दिलचस्पी बढ़ाने के ज़्यादा अवसर मिलेंगे.
Matthew McCullough • पढ़ने में 4 मिनट लगेंगे
- #Android
02 Apr 2026

02 Apr 2026

प्रॉडक्ट से जुड़ी खबरें

Gemma 4: Android पर लोकल एजेंटिक इंटेलिजेंस के लिए नया स्टैंडर्ड

arrow_forward

आज हम Android डेवलपमेंट को बेहतर बनाने के लिए, Gemma 4 को लॉन्च कर रहे हैं. यह हमारा सबसे नया और बेहतरीन ओपन मॉडल है. इसे जटिल तर्कों को समझने और टूल को अपने-आप कॉल करने की सुविधाओं के साथ डिज़ाइन किया गया है.
Matthew McCullough • दो मिनट में पढ़ें
- #Android Studio

इसे Android डेवलपमेंट के असल टास्क के हिसाब से डिज़ाइन किया गया है

Android Bench के पहले नतीजे

डेवलपर और एलएलएम बनाने वालों को पारदर्शिता के साथ जानकारी देना

Matthew McCullough

वाइस प्रेसिडेंट, प्रॉडक्ट मैनेजमेंट, Android डेवलपर

Google I/O में Android डेवलपर के लिए 17 ज़रूरी बातें!

Android पर इंटेलिजेंस सिस्टम बनाना

Gemma 4: Android पर लोकल एजेंटिक इंटेलिजेंस के लिए नया स्टैंडर्ड