इस गाइड को इस तरह से डिज़ाइन किया गया है कि इससे आपको Google के जनरेटिव आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग (एआई/एमएल) समाधानों को अपने ऐप्लिकेशन में इंटिग्रेट करने में मदद मिल सके. यह आपको उपलब्ध अलग-अलग आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग समाधानों के बारे में जानकारी देता है. साथ ही, यह तय करने में मदद करता है कि आपकी ज़रूरतों के हिसाब से कौनसा समाधान सबसे सही है. इस दस्तावेज़ का मकसद, आपकी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, यह तय करने में आपकी मदद करना है कि आपको कौनसा टूल इस्तेमाल करना चाहिए और क्यों.
आपकी ज़रूरतों के हिसाब से सबसे सही एआई/एमएल सलूशन चुनने में आपकी मदद करने के लिए, इस दस्तावेज़ में सलूशन गाइड शामिल है. यह गाइड, आपके प्रोजेक्ट के लक्ष्यों और सीमाओं के बारे में सवालों की एक सीरीज़ के जवाब देती है. इससे आपको सबसे सही टूल और टेक्नोलॉजी के बारे में जानकारी मिलती है.
इस गाइड की मदद से, अपने ऐप्लिकेशन के लिए सबसे सही एआई समाधान चुना जा सकता है. इन बातों का ध्यान रखें: डेटा का टाइप (टेक्स्ट, इमेज, ऑडियो, वीडियो), टास्क की जटिलता (सामान्य जानकारी से लेकर खास जानकारी वाले मुश्किल टास्क तक), और डेटा का साइज़ (छोटे इनपुट बनाम बड़े दस्तावेज़). इससे आपको यह तय करने में मदद मिलेगी कि आपको अपने डिवाइस पर Gemini Nano का इस्तेमाल करना है या Firebase के क्लाउड-आधारित एआई (Gemini Flash या Gemini Pro) का.
उपयोगकर्ता के डिवाइस पर अनुमान लगाने की सुविधा का इस्तेमाल करना
अपने Android ऐप्लिकेशन में एआई और एमएल की सुविधाएं जोड़ते समय, उन्हें डिलीवर करने के लिए अलग-अलग तरीके चुने जा सकते हैं. जैसे, डिवाइस पर या क्लाउड का इस्तेमाल करके.
Gemini Nano जैसे उपयोगकर्ता के डिवाइस पर समाधानों से, बिना किसी अतिरिक्त शुल्क के नतीजे मिलते हैं. साथ ही, उपयोगकर्ता की निजता को बेहतर सुरक्षा मिलती है. इसके अलावा, ऑफ़लाइन होने पर भी भरोसेमंद तरीके से काम किया जा सकता है, क्योंकि इनपुट डेटा को स्थानीय तौर पर प्रोसेस किया जाता है. ये फ़ायदे, कुछ इस्तेमाल के उदाहरणों के लिए बहुत अहम हो सकते हैं. जैसे, मैसेज की खास जानकारी तैयार करना. साथ ही, सही समाधान चुनते समय, उपयोगकर्ता के डिवाइस पर मौजूद डेटा को प्राथमिकता देना.
Gemini Nano की मदद से, Android डिवाइस पर सीधे तौर पर अनुमान लगाया जा सकता है. अगर आपको टेक्स्ट, इमेज या ऑडियो के साथ काम करना है, तो ML Kit के GenAI API का इस्तेमाल करें. इससे आपको तुरंत समाधान मिल जाएंगे. ML Kit GenAI API, Gemini Nano की मदद से काम करते हैं. ये AICore का इस्तेमाल, सिस्टम सर्विस के तौर पर करते हैं. साथ ही, इन्हें उपयोगकर्ता के डिवाइस पर मौजूद कुछ खास टास्क के लिए फ़ाइन-ट्यून किया जाता है. ML Kit के GenAI API, आपके ऐप्लिकेशन के लिए प्रोडक्शन का सबसे सही तरीका है. इसकी वजह यह है कि इनका इंटरफ़ेस बेहतर होता है और इन्हें आसानी से बढ़ाया जा सकता है. इन एपीआई की मदद से, टेक्स्ट और इमेज, दोनों तरह के इनपुट के साथ नैचुरल लैंग्वेज में अनुरोध भेजे जा सकते हैं. इससे इमेज की बारीक़ी से पहचान, छोटे-छोटे वाक्यों का अनुवाद करने, गाइड के साथ खास जानकारी देने जैसे कई काम किए जा सकते हैं.
मशीन लर्निंग के सामान्य कामों के लिए, आपके पास अपने कस्टम मॉडल लागू करने का विकल्प होता है. हम आपको ML Kit, MediaPipe, LiteRT, और Google Play की डिलीवरी सुविधाओं जैसे बेहतरीन टूल उपलब्ध कराते हैं, ताकि आप डेवलपमेंट की प्रोसेस को आसानी से पूरा कर सकें.
जिन ऐप्लिकेशन के लिए खास समाधानों की ज़रूरत होती है उनके लिए, अपने हिसाब से बनाए गए कस्टम मॉडल का इस्तेमाल किया जा सकता है. जैसे, Gemma या कोई ऐसा मॉडल जो आपके इस्तेमाल के खास उदाहरण के हिसाब से बनाया गया हो. LiteRT की मदद से, अपने मॉडल को सीधे तौर पर उपयोगकर्ता के डिवाइस पर चलाएं. यह बेहतर परफ़ॉर्मेंस के लिए, पहले से डिज़ाइन किए गए मॉडल आर्किटेक्चर उपलब्ध कराता है.
आपके पास, उपयोगकर्ता के डिवाइस पर मौजूद और क्लाउड मॉडल, दोनों का इस्तेमाल करके हाइब्रिड समाधान बनाने का विकल्प भी है.
मोबाइल ऐप्लिकेशन, आम तौर पर छोटे टेक्स्ट डेटा के लिए लोकल मॉडल का इस्तेमाल करते हैं. जैसे, चैट की बातचीत या ब्लॉग लेख. हालांकि, बड़े डेटा सोर्स (जैसे कि PDF) के लिए या जब ज़्यादा जानकारी की ज़रूरत हो, तो ज़्यादा बेहतर Gemini मॉडल के साथ क्लाउड-आधारित समाधान की ज़रूरत पड़ सकती है.
Gemini के ऐडवांस मॉडल इंटिग्रेट करना
Android डेवलपर, Firebase AI Logic SDK का इस्तेमाल करके, Google की जनरेटिव एआई की बेहतर सुविधाओं को अपने ऐप्लिकेशन में इंटिग्रेट कर सकते हैं. इनमें Gemini Pro और Gemini Flash जैसे बेहतरीन मॉडल शामिल हैं. इस एसडीके को ज़्यादा डेटा की ज़रूरतों को पूरा करने के लिए डिज़ाइन किया गया है. यह इन बेहतर परफ़ॉर्म करने वाले, मल्टीमॉडल एआई मॉडल का ऐक्सेस देकर, ज़्यादा सुविधाएं और अडैप्टेबिलिटी उपलब्ध कराता है.
Firebase AI Logic SDK की मदद से डेवलपर, Google के एआई मॉडल को क्लाइंट-साइड कॉल कर सकते हैं. इसके लिए, उन्हें बहुत कम मेहनत करनी पड़ती है. ये मॉडल, जैसे कि Gemini Pro और Gemini Flash, क्लाउड में इन्फ़रेंस चलाते हैं. साथ ही, Android ऐप्लिकेशन को इमेज, ऑडियो, वीडियो, और टेक्स्ट जैसे कई तरह के इनपुट प्रोसेस करने की सुविधा देते हैं. Gemini Pro, मुश्किल समस्याओं को गहराई से विश्लेषण करने और बड़े डेटा का विश्लेषण करने में माहिर है. वहीं, Gemini Flash सीरीज़ के मॉडल, तेज़ी से काम करते हैं और इनकी कॉन्टेक्स्ट विंडो इतनी बड़ी होती है कि ज़्यादातर टास्क पूरे किए जा सकते हैं.
ट्रेडिशनल मशीन लर्निंग का इस्तेमाल कब करना चाहिए
जनरेटिव एआई, टेक्स्ट, इमेज, और कोड जैसे कॉन्टेंट को बनाने और उसमें बदलाव करने के लिए मददगार है. हालांकि, असल दुनिया की कई समस्याओं को मशीन लर्निंग (एमएल) की पारंपरिक तकनीकों का इस्तेमाल करके बेहतर तरीके से हल किया जा सकता है. ये तरीके, अनुमान लगाने, क्लासिफ़िकेशन करने, पहचान करने, और मौजूदा डेटा में पैटर्न समझने जैसे कामों में बेहतर होते हैं. साथ ही, ये जनरेटिव मॉडल की तुलना में ज़्यादा असरदार होते हैं. इनमें कंप्यूटेशनल लागत कम लगती है और इन्हें लागू करना आसान होता है.
पारंपरिक एमएल फ़्रेमवर्क, इनपुट का विश्लेषण करने, सुविधाओं की पहचान करने या सीखे गए पैटर्न के आधार पर अनुमान लगाने पर फ़ोकस करने वाले ऐप्लिकेशन के लिए, बेहतर, ऑप्टिमाइज़ किए गए, और अक्सर ज़्यादा व्यावहारिक समाधान उपलब्ध कराते हैं. ये फ़्रेमवर्क, पूरी तरह से नया आउटपुट जनरेट करने के बजाय, इन कामों पर फ़ोकस करते हैं. Google के ML Kit, LiteRT, और MediaPipe जैसे टूल, जनरेटिव एआई के इस्तेमाल से जुड़े इन उदाहरणों के लिए, खास तौर पर तैयार की गई बेहतर सुविधाएं देते हैं. ये सुविधाएं, मोबाइल और एज कंप्यूटिंग एनवायरमेंट में खास तौर पर काम आती हैं.
एमएल किट की मदद से, मशीन लर्निंग इंटिग्रेशन शुरू करना
एमएल किट, मशीन लर्निंग के सामान्य टास्क के लिए, प्रोडक्शन-रेडी और मोबाइल के लिए ऑप्टिमाइज़ किए गए समाधान उपलब्ध कराता है. इसके लिए, एमएल के बारे में पहले से जानकारी होना ज़रूरी नहीं है. इस मोबाइल SDK का इस्तेमाल करना आसान है. यह Google की एमएल से जुड़ी विशेषज्ञता को सीधे तौर पर आपके Android और iOS ऐप्लिकेशन में लाता है. इससे आपको मॉडल ट्रेनिंग और ऑप्टिमाइज़ेशन के बजाय, सुविधा डेवलपमेंट पर फ़ोकस करने में मदद मिलती है. ML Kit, बारकोड स्कैनिंग, टेक्स्ट की पहचान (ओसीआर), चेहरे की पहचान, इमेज लेबलिंग, ऑब्जेक्ट का पता लगाने और उसे ट्रैक करने, भाषा की पहचान करने, और स्मार्ट जवाब देने जैसी सुविधाओं के लिए, पहले से बने एपीआई और इस्तेमाल के लिए तैयार मॉडल उपलब्ध कराता है.
इन मॉडल को आम तौर पर उपयोगकर्ता के डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया जाता है. इससे यह पक्का होता है कि ये मॉडल कम इंतज़ार के समय में काम करें, ऑफ़लाइन काम करें, और उपयोगकर्ता की निजता को बेहतर तरीके से सुरक्षित रखें. ऐसा इसलिए, क्योंकि डेटा अक्सर डिवाइस पर ही रहता है. अपने मोबाइल ऐप्लिकेशन में एमएल की पहले से मौजूद सुविधाओं को तुरंत जोड़ने के लिए, एमएल किट चुनें. इसके लिए, आपको मॉडल को ट्रेन करने या जनरेटिव आउटपुट की ज़रूरत नहीं होगी. यह Google के ऑप्टिमाइज़ किए गए मॉडल का इस्तेमाल करके या कस्टम TensorFlow Lite मॉडल डिप्लॉय करके, ऐप्लिकेशन को "स्मार्ट" सुविधाओं के साथ बेहतर बनाने के लिए सबसे सही है.
ML Kit की डेवलपर साइट पर जाकर, ज़्यादा जानकारी देने वाली हमारी गाइड और दस्तावेज़ देखें.
LiteRT की मदद से, पसंद के मुताबिक मशीन लर्निंग मॉडल डिप्लॉय करना
ज़्यादा कंट्रोल पाने या अपने एमएल मॉडल डिप्लॉय करने के लिए, LiteRT और Google Play services पर बनाए गए कस्टम एमएल स्टैक का इस्तेमाल करें. इस स्टैक में, बेहतर परफ़ॉर्मेंस वाली एमएल सुविधाओं को डिप्लॉय करने के लिए ज़रूरी चीज़ें शामिल होती हैं. LiteRT एक टूलकिट है. इसे कम संसाधनों वाले मोबाइल, एम्बेड किए गए, और एज डिवाइसों पर TensorFlow मॉडल को बेहतर तरीके से चलाने के लिए ऑप्टिमाइज़ किया गया है. इससे आपको छोटे और तेज़ मॉडल चलाने की सुविधा मिलती है. ये मॉडल कम मेमोरी, पावर, और स्टोरेज का इस्तेमाल करते हैं. LiteRT रनटाइम को, एज डिवाइसों पर मौजूद अलग-अलग हार्डवेयर ऐक्सलरेटर (GPU, DSP, NPU) के लिए ऑप्टिमाइज़ किया गया है. इससे कम समय में अनुमान लगाने में मदद मिलती है.
ट्रेन किए गए एमएल मॉडल को कम कंप्यूटेशनल पावर या बैटरी लाइफ़ वाले डिवाइसों पर आसानी से डिप्लॉय करने के लिए, LiteRT को चुनें. जैसे, स्मार्टफ़ोन, IoT डिवाइस या माइक्रोकंट्रोलर. आम तौर पर, इसका इस्तेमाल क्लासिफ़िकेशन, रिग्रेशन या डिटेक्शन के लिए किया जाता है. यह एज पर कस्टम या स्टैंडर्ड अनुमान लगाने वाले मॉडल को डिप्लॉय करने के लिए सबसे अच्छा समाधान है. एज पर, तेज़ी से काम करना और संसाधनों को बचाना सबसे ज़रूरी होता है.
LiteRT के साथ एमएल डिप्लॉयमेंट के बारे में ज़्यादा जानें.
MediaPipe की मदद से, अपने ऐप्लिकेशन में रीयल-टाइम परसेप्शन की सुविधा जोड़ना
MediaPipe, लाइव और स्ट्रीमिंग मीडिया के लिए डिज़ाइन किए गए, ओपन-सोर्स, क्रॉस-प्लैटफ़ॉर्म, और पसंद के मुताबिक बनाए जा सकने वाले मशीन लर्निंग समाधान उपलब्ध कराता है. हाथ ट्रैक करने की सुविधा, पोज़ का अनुमान लगाने, चेहरे के मेश का पता लगाने, और ऑब्जेक्ट का पता लगाने की सुविधा जैसे मुश्किल कामों के लिए, ऑप्टिमाइज़ किए गए और पहले से बनाए गए टूल का फ़ायदा पाएं. ये सभी टूल, मोबाइल डिवाइसों पर भी बेहतर परफ़ॉर्मेंस और रीयल-टाइम इंटरैक्शन को चालू करते हैं.
MediaPipe की ग्राफ़ पर आधारित पाइपलाइन को अपनी ज़रूरत के हिसाब से बनाया जा सकता है. इससे आपको Android, iOS, वेब, डेस्कटॉप, और बैकएंड ऐप्लिकेशन के लिए समाधान तैयार करने में मदद मिलती है. अगर आपके ऐप्लिकेशन को लाइव सेंसर डेटा को तुरंत समझना और उस पर प्रतिक्रिया देनी है, तो MediaPipe को चुनें. खास तौर पर, वीडियो स्ट्रीम के लिए. इसका इस्तेमाल हाथ के जेस्चर पहचानने, एआर इफ़ेक्ट, फ़िटनेस ट्रैकिंग या अवतार कंट्रोल जैसे कामों के लिए किया जा सकता है. इन सभी का मकसद, इनपुट का विश्लेषण करना और उसकी व्याख्या करना है.
समाधानों के बारे में जानें और MediaPipe का इस्तेमाल शुरू करें.
अपने ऐप्लिकेशन को डिवाइस असिस्टेंट के साथ इंटिग्रेट करना
एआई को इंटिग्रेट करने के पारंपरिक तरीके में, "अपने ऐप्लिकेशन में एआई को शामिल करने" पर फ़ोकस किया जाता है. हालांकि, "अपने ऐप्लिकेशन को एआई में शामिल" भी किया जा सकता है. सिस्टम एआई की सुविधाओं में अपने ऐप्लिकेशन की सुविधाएँ जोड़कर, सिस्टम-लेवल के असिस्टेंट (जैसे, Gemini) को अपने ऐप्लिकेशन की सुविधाएँ खोजने और उन्हें एजेंट के तौर पर इस्तेमाल करने की अनुमति दी जाती है. AppFunctions इस इंटिग्रेशन को पूरा करने का मुख्य तरीका है. इससे आपका ऐप्लिकेशन, Android के एआई से जुड़े बड़े इकोसिस्टम में शामिल हो पाता है.
कोई तरीका चुनें
अपने Android ऐप्लिकेशन को बेहतर बनाने के लिए एआई को शामिल करते समय, आपको तीन मुख्य तरीकों पर विचार करना चाहिए: उपयोगकर्ता के डिवाइस पर प्रोसेसिंग करना, क्लाउड-आधारित मॉडल का इस्तेमाल करना या सिस्टम-लेवल के एआई में अपने ऐप्लिकेशन की सुविधा जोड़ना. ML Kit, Gemini Nano, और LiteRT जैसे टूल, उपयोगकर्ता के डिवाइस पर काम करने वाली सुविधाएं उपलब्ध कराते हैं. वहीं, Firebase AI Logic के साथ Gemini Cloud API, क्लाउड पर आधारित प्रोसेसिंग की सुविधा देते हैं. AppFunctions, तीसरा तरीका है. इसकी मदद से, अपने ऐप्लिकेशन को "एआई में शामिल किया जा सकता है". इसके लिए, आपको सिस्टम के लिए, ऐप्लिकेशन की सुविधाओं को एजेंट के तौर पर उपलब्ध कराना होगा.
अपनी रणनीति चुनते समय, इन बातों का ध्यान रखें:
| फ़ैक्टर | उपयोगकर्ता के डिवाइस पर उपलब्ध समाधान | क्लाउड सलूशन |
|---|---|---|
| कनेक्टिविटी और ऑफ़लाइन सुविधा | ऑफ़लाइन इस्तेमाल के लिए सबसे सही; नेटवर्क कनेक्शन के बिना काम करता है. | रिमोट सर्वर से कम्यूनिकेट करने के लिए, नेटवर्क कनेक्शन ज़रूरी है. |
| डेटा की निजता | यह कुकी, संवेदनशील डेटा को डिवाइस पर प्रोसेस करती है और उसे सेव करती है. | डेटा को क्लाउड पर ट्रांसमिट किया जाता है. इसलिए, सेवा देने वाली कंपनी की सुरक्षा पर भरोसा करना ज़रूरी है. |
| कॉन्टेंट को आसानी से खोजने लायक बनाना और पहुंच बढ़ाना | ओएस के साथ सीधे तौर पर इंटिग्रेट होने की सुविधा (AppFunctions) की मदद से, Assistant को सुविधाओं के बारे में पता चलता है. | आम तौर पर, डिस्कवरी की सुविधा ऐप्लिकेशन के इंटरनल यूज़र इंटरफ़ेस (यूआई) या खास एपीआई इंटिग्रेशन तक ही सीमित होती है. |
| मॉडल की क्षमताएं | इसे कम इंतज़ार के समय और खास, कम इंटेंसिव टास्क के लिए ऑप्टिमाइज़ किया गया है. | बेहतरीन मॉडल, जो मुश्किल सवालों और बड़े इनपुट को हैंडल कर सकते हैं. |
| सदस्यता शुल्क और इसके फ़ायदों का ध्यान रखते हुए नए ऐप्लिकेशन पर स्विच करना | हर बार इस्तेमाल करने पर कोई शुल्क नहीं लगता. यह मौजूदा डिवाइस के हार्डवेयर का इस्तेमाल करता है. | आम तौर पर, इसमें इस्तेमाल के हिसाब से तय की गई कीमत या मौजूदा सदस्यता की लागत शामिल होती है. |
| डिवाइस के संसाधन | यह लोकल स्टोरेज, रैम, और बैटरी लाइफ़ का इस्तेमाल करता है. | स्थानीय स्तर पर कम असर पड़ता है. ज़्यादातर काम सर्वर पर होता है. |
| फ़ाइन-ट्यूनिंग | इसमें बदलाव करने की सुविधा सीमित होती है. यह स्थानीय हार्डवेयर की क्षमताओं पर निर्भर करता है. | बड़े पैमाने पर ट्यूनिंग और पसंद के मुताबिक बड़े पैमाने पर बदलाव करने के लिए ज़्यादा विकल्प. |
| क्रॉस-प्लैटफ़ॉर्म पर एक जैसा डेटा | इस सुविधा की उपलब्धता, ओएस और हार्डवेयर के हिसाब से अलग-अलग हो सकती है. | इंटरनेट ऐक्सेस करने वाले किसी भी प्लैटफ़ॉर्म पर एक जैसा अनुभव. |
इस्तेमाल के उदाहरण से जुड़ी अपनी ज़रूरतों और उपलब्ध विकल्पों पर ध्यान से विचार करके, आपको एआई/एमएल का सबसे सही समाधान मिल सकता है. इससे अपने Android ऐप्लिकेशन को बेहतर बनाया जा सकता है. साथ ही, उपयोगकर्ताओं को उनकी दिलचस्पी के हिसाब से बेहतर अनुभव दिया जा सकता है.
एआई/एमएल सलूशन के बारे में गाइड
इस समाधान गाइड की मदद से, आपको अपने Android प्रोजेक्ट में एआई/एमएल टेक्नोलॉजी को इंटिग्रेट करने के लिए, सही डेवलपर टूल चुनने में मदद मिल सकती है.
एआई की सुविधा का मुख्य मकसद क्या है?
- A) नया कॉन्टेंट (टेक्स्ट, इमेज के ब्यौरे) जनरेट करना या टेक्स्ट को प्रोसेस करने से जुड़ी सामान्य कार्रवाइयां (टेक्स्ट की खास जानकारी देना, अशुद्धियां ठीक करना या टेक्स्ट को फिर से लिखना)? → जनरेटिव एआई पर जाएं
- B) क्या मौजूदा डेटा/इनपुट का इस्तेमाल, अनुमान लगाने, क्लासिफ़िकेशन, पहचान करने, पैटर्न समझने या रीयल-टाइम स्ट्रीम (जैसे कि वीडियो/ऑडियो) को प्रोसेस करने के लिए किया जाता है? → परंपरागत एमएल और परसेप्शन पर जाएं
- C) सिस्टम में मौजूद एआई की सुविधाओं के साथ इंटिग्रेट करने के लिए, अपने ऐप्लिकेशन की सुविधाओं को बेहतर बनाना (अपने ऐप्लिकेशन में एआई की सुविधाएं जोड़ना)? → अपने ऐप्लिकेशन को एआई में शामिल करना पर जाएं
ट्रेडिशनल एमएल और परसेप्शन
आपको इनपुट का विश्लेषण करना है, सुविधाओं की पहचान करनी है या सीखे गए पैटर्न के आधार पर अनुमान लगाने हैं. इसके बजाय, पूरी तरह से नया आउटपुट जनरेट नहीं करना है.
आपको कौनसी कार्रवाई करनी है?
- A) क्या आपको पहले से बनी हुई, मोबाइल एमएल की सामान्य सुविधाओं को तुरंत इंटिग्रेट करना है?
(जैसे, बारकोड स्कैन करना, टेक्स्ट की पहचान करना (ओसीआर), चेहरे की पहचान, इमेज लेबल करना, ऑब्जेक्ट का पता लगाने की सुविधा और उसे ट्रैक करना, भाषा की पहचान करना, स्मार्ट जवाब की बुनियादी सुविधा)
- → इस्तेमाल करें: ML Kit (पारंपरिक एपीआई)
- क्यों: मोबाइल पर एमएल से जुड़े कामों के लिए, इसे आसानी से इंटिग्रेट किया जा सकता है. साथ ही, इसे अक्सर उपयोगकर्ता के डिवाइस पर इस्तेमाल करने के लिए ऑप्टिमाइज़ किया जाता है. जैसे, कम इंतज़ार का समय, ऑफ़लाइन काम करना, और निजता बनाए रखना.
- B) क्या आपको रीयल-टाइम स्ट्रीमिंग डेटा (जैसे कि वीडियो या ऑडियो) को प्रोसेस करने की ज़रूरत है, ताकि
परसेप्शन से जुड़े टास्क पूरे किए जा सकें? (जैसे, हाथ ट्रैक करने की सुविधा, पोज़ का अनुमान लगाना, चेहरे की पहचान करना, वीडियो में रीयल-टाइम में ऑब्जेक्ट का पता लगाने की सुविधा और उसे सेगमेंट करना)
- → इस्तेमाल करें: MediaPipe
- क्यों: यह फ़्रेमवर्क, अलग-अलग प्लैटफ़ॉर्म पर रीयल-टाइम में परफ़ॉर्म करने वाली पाइपलाइन के लिए खास तौर पर बनाया गया है.
- C) क्या आपको डिवाइस पर, कस्टम तौर पर ट्रेन किए गए एमएल मॉडल को बेहतर तरीके से चलाना है? जैसे, क्लासिफ़िकेशन, रिग्रेशन, और पहचान के लिए. साथ ही, परफ़ॉर्मेंस और कम संसाधन इस्तेमाल करने को प्राथमिकता देनी है?
- → इस्तेमाल करें: LiteRT (TensorFlow लाइट रनटाइम)
- क्यों: मोबाइल और एज डिवाइसों पर कस्टम मॉडल को असरदार तरीके से डिप्लॉय करने के लिए, ऑप्टिमाइज़ किया गया रनटाइम (छोटा साइज़, तेज़ इन्फ़रेंस, हार्डवेयर ऐक्सलरेशन).
- D) क्या आपको किसी खास टास्क के लिए, अपने कस्टम एमएल मॉडल को ट्रेन करना है?
- → इस्तेमाल करें: LiteRT (TensorFlow लाइट Runtime) + कस्टम मॉडल ट्रेनिंग
- क्यों: इसमें कस्टम मॉडल को ट्रेन करने और डिप्लॉय करने के लिए टूल मिलते हैं. ये टूल, मोबाइल और एज डिवाइसों के लिए ऑप्टिमाइज़ किए गए हैं.
- E) क्या आपको कॉन्टेंट को बेहतर तरीके से कैटगरी में बांटने, भावना का विश्लेषण करने या कई भाषाओं में अनुवाद करने की ज़रूरत है?
- देखें कि क्या पारंपरिक एमएल मॉडल (LiteRT या क्लाउड का इस्तेमाल करके डिप्लॉय किए गए) काम करेंगे या बेहतर एनएलयू के लिए जनरेटिव मॉडल की ज़रूरत है (स्टार्ट पर वापस जाएं और A चुनें). क्लाउड पर आधारित क्लासिफ़िकेशन, भावना, या अनुवाद के लिए:
- → इस्तेमाल करें: क्लाउड पर आधारित समाधान (जैसे, Google Cloud Natural Language API, Google Cloud Translation API, कस्टम बैकएंड या Vertex AI का इस्तेमाल करके ऐक्सेस किया जा सकता है). (अगर डिवाइस ऑफ़लाइन है या निजता सबसे अहम है, तो उपयोगकर्ता के डिवाइस पर मौजूद विकल्पों की तुलना में कम प्राथमिकता दी जाती है).
- क्यों: क्लाउड सलूशन में, असरदार मॉडल और कई भाषाओं के लिए सहायता उपलब्ध होती है. हालांकि, इसके लिए इंटरनेट कनेक्शन की ज़रूरत होती है और इसके लिए शुल्क भी देना पड़ सकता है.
जनरेटिव एआई
आपको नया कॉन्टेंट बनाना है, खास जानकारी देनी है, कॉन्टेंट को फिर से लिखना है या मुश्किल सवालों के जवाब देने हैं या इंटरैक्शन से जुड़े टास्क पूरे करने हैं.
क्या आपको एआई को ऑफ़लाइन इस्तेमाल करना है, डेटा की निजता को ज़्यादा से ज़्यादा सुरक्षित रखना है (उपयोगकर्ता के डेटा को डिवाइस पर ही सेव रखना है) या क्लाउड इन्फ़्रेंस की लागत से बचना है?
- A) हां, ऑफ़लाइन, ज़्यादा से ज़्यादा निजता या क्लाउड का कोई शुल्क नहीं होना ज़रूरी है.
- B) नहीं, कनेक्टिविटी उपलब्ध है और स्वीकार्य है, क्लाउड की सुविधाएं और स्केलेबिलिटी ज़्यादा ज़रूरी है या कुछ सुविधाओं के लिए क्लाउड की ज़रूरत है.
- → Cloud जनरेटिव एआई पर जाएं
उपयोगकर्ता के डिवाइस पर जनरेटिव एआई (Gemini Nano का इस्तेमाल करके)
चेतावनी: इसके लिए, Android डिवाइसों के साथ काम करने वाले डिवाइस ज़रूरी हैं. यह सुविधा iOS पर सीमित तौर पर उपलब्ध है. साथ ही, डिवाइस पर मौजूद मॉडल, क्लाउड पर मौजूद मॉडल की तुलना में कम शक्तिशाली होते हैं.
ML Kit के Prompt API की मदद से, नैचुरल लैंग्वेज में अनुरोध भेजे जा सकते हैं. इसके लिए, सिर्फ़ टेक्स्ट या टेक्स्ट और इमेज, दोनों का इस्तेमाल किया जा सकता है. इसका इस्तेमाल कई कामों के लिए किया जा सकता है. जैसे, इमेज की बारीक़ी से पहचान, छोटे-छोटे अनुवाद करना, और गाइड के साथ खास जानकारी देना. अगर आपके इस्तेमाल के उदाहरणों के लिए टोकन की इन सीमाओं का पालन किया जा सकता है, तो उपयोगकर्ता के डिवाइस पर जनरेटिव एआई की सुविधा के लिए, ML Kit GenAI API सबसे अच्छा विकल्प है. ML Kit, खास जानकारी देने और स्मार्ट जवाब देने जैसे सामान्य कामों के लिए, बेहतर एपीआई भी उपलब्ध कराता है.
- → इस्तेमाल करें: ML Kit GenAI API (Gemini Nano की मदद से काम करते हैं)
- वजह: नैचुरल लैंग्वेज में प्रॉम्प्ट देकर, उपयोगकर्ता के डिवाइस पर जनरेटिव एआई के टास्क को इंटिग्रेट करने का सबसे आसान तरीका. उपयोगकर्ता के डिवाइस पर मौजूद समाधान को सबसे ज़्यादा प्राथमिकता दी जाती है.
Cloud में जनरेटिव एआई
ज़्यादा बेहतर मॉडल का इस्तेमाल करता है. इसके लिए, इंटरनेट कनेक्शन ज़रूरी होता है. आम तौर पर, इसमें अनुमान लगाने की लागत शामिल होती है. यह ज़्यादा डिवाइसों पर उपलब्ध होता है और अलग-अलग प्लैटफ़ॉर्म (Android और iOS) पर एक जैसा अनुभव देता है.
आपकी प्राथमिकता क्या है: Firebase में आसानी से इंटिग्रेट करना या ज़्यादा से ज़्यादा लचीलापन/कंट्रोल?
- A) क्या आपको आसानी से इंटिग्रेट करने की सुविधा, मैनेज किया गया एपीआई अनुभव चाहिए, और क्या आपने पहले से ही Firebase का इस्तेमाल शुरू कर दिया है?
- → इस्तेमाल करें: Firebase AI Logic SDK → Firebase AI Logic पर जाएं
- B) क्या आपको ज़्यादा से ज़्यादा फ़्लेक्सिबिलिटी, सबसे ज़्यादा मॉडल का ऐक्सेस (इसमें तीसरे पक्ष/कस्टम मॉडल शामिल हैं), ऐडवांस फ़ाइन-ट्यूनिंग की सुविधा चाहिए? साथ ही, क्या आपको अपना बैकएंड इंटिग्रेशन (ज़्यादा मुश्किल) मैनेज करना है?
- → इस्तेमाल करें: Google Cloud Platform का इस्तेमाल करके, कस्टम क्लाउड बैकएंड के साथ Gemini API
- क्यों: इससे आपको सबसे ज़्यादा कंट्रोल मिलता है. साथ ही, मॉडल के ऐक्सेस और कस्टम ट्रेनिंग के विकल्प भी मिलते हैं. हालांकि, इसके लिए बैकएंड डेवलपमेंट पर काफ़ी मेहनत करनी पड़ती है. यह जटिल, बड़े पैमाने पर या ज़रूरत के हिसाब से बनाई गई सुविधाओं के लिए सही है.
(आपने Firebase AI Logic SDK चुना है) आपको किस तरह का जनरेटिव टास्क और परफ़ॉर्मेंस प्रोफ़ाइल चाहिए?
- A) क्या आपको परफ़ॉर्मेंस और लागत के बीच संतुलन चाहिए? क्या आपको सामान्य टेक्स्ट जनरेट करने, खास जानकारी देने या चैट ऐप्लिकेशन के लिए ऐसा मॉडल चाहिए जिसमें तेज़ी से जवाब देना ज़रूरी हो?
- → इस्तेमाल करें: Gemini Flash के साथ Firebase AI Logic SDK
- क्यों: इसे Vertex AI के मैनेज किए गए एनवायरमेंट में, स्पीड और बेहतर परफ़ॉर्मेंस के लिए ऑप्टिमाइज़ किया गया है.
- B) क्या आपको जटिल टेक्स्ट जनरेट करने, तर्क देने, बेहतर एनएलयू या निर्देशों का पालन करने के लिए, बेहतर क्वालिटी और क्षमता वाले मॉडल की ज़रूरत है?
- → इस्तेमाल करें: Gemini Pro के साथ Firebase AI Logic SDK
- क्यों: यह टेक्स्ट मॉडल, मुश्किल टास्क के लिए ज़्यादा बेहतर है. इसे Firebase के ज़रिए ऐक्सेस किया जा सकता है.
AppFunctions
आपको अपने ऐप्लिकेशन की सुविधाओं को बेहतर बनाना होगा, ताकि उसे सिस्टम के एआई की सुविधाओं के साथ इंटिग्रेट किया जा सके.
- → इस्तेमाल करें: AppFunctions
- वजह: इससे सिस्टम में मौजूद एआई की सुविधाओं को चालू किया जा सकता है. जैसे, Assistant को आपके ऐप्लिकेशन की सुविधाओं का पता लगाने और उन्हें चालू करने की अनुमति देना.