इस गाइड को इस तरह से डिज़ाइन किया गया है कि आपको Google के जनरेटिव आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग (एआई/एमएल) समाधानों को अपने ऐप्लिकेशन में इंटिग्रेट करने में मदद मिल सके. यह आपको उपलब्ध अलग-अलग आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग समाधानों के बारे में जानकारी देता है. साथ ही, यह तय करने में आपकी मदद करता है कि आपकी ज़रूरतों के हिसाब से कौनसा समाधान सबसे सही है. इस दस्तावेज़ का मकसद, आपकी ज़रूरतों और इस्तेमाल के उदाहरणों के हिसाब से, यह तय करने में आपकी मदद करना है कि आपको कौनसे टूल का इस्तेमाल करना चाहिए और क्यों.
आपकी ज़रूरतों के हिसाब से सबसे सही एआई/एमएल सलूशन चुनने में आपकी मदद करने के लिए, इस दस्तावेज़ में सलूशन गाइड शामिल है. यह गाइड, आपके प्रोजेक्ट के लक्ष्यों और सीमाओं के बारे में सवालों की एक सीरीज़ के जवाब देती है. इससे आपको सबसे सही टूल और टेक्नोलॉजी के बारे में जानकारी मिलती है.
इस गाइड की मदद से, अपने ऐप्लिकेशन के लिए सबसे सही एआई समाधान चुना जा सकता है. इन बातों का ध्यान रखें: डेटा का टाइप (टेक्स्ट, इमेज, ऑडियो, वीडियो), टास्क की जटिलता (आसान खास जानकारी से लेकर खास जानकारी की ज़रूरत वाले मुश्किल टास्क तक), और डेटा का साइज़ (छोटे इनपुट बनाम बड़े दस्तावेज़). इससे आपको यह तय करने में मदद मिलेगी कि आपको अपने डिवाइस पर Gemini Nano का इस्तेमाल करना है या Firebase के क्लाउड-आधारित एआई (Gemini Flash, Gemini Pro या Imagen) का.
डिवाइस पर मौजूद डेटा के आधार पर अनुमान लगाने की सुविधा का इस्तेमाल करना
अपने Android ऐप्लिकेशन में एआई और एमएल की सुविधाएं जोड़ते समय, उन्हें डिलीवर करने के अलग-अलग तरीके चुने जा सकते हैं. जैसे, डिवाइस पर या क्लाउड का इस्तेमाल करके.
Gemini Nano जैसे मोबाइल पर इस्तेमाल किए जा सकने वाले समाधानों से, बिना किसी अतिरिक्त शुल्क के नतीजे मिलते हैं. साथ ही, उपयोगकर्ता की निजता को बेहतर सुरक्षा मिलती है. इसके अलावा, ऑफ़लाइन होने पर भी भरोसेमंद तरीके से काम किया जा सकता है, क्योंकि इनपुट डेटा को स्थानीय तौर पर प्रोसेस किया जाता है. ये फ़ायदे, कुछ मामलों में बहुत अहम हो सकते हैं. जैसे, मैसेज की खास जानकारी तैयार करना. इसलिए, सही समाधान चुनते समय, डिवाइस पर मौजूद डेटा को प्राथमिकता दी जाती है.
Gemini Nano की मदद से, Android डिवाइस पर सीधे तौर पर अनुमान लगाया जा सकता है. अगर आपको टेक्स्ट, इमेज या ऑडियो पर काम करना है, तो ML Kit के GenAI API का इस्तेमाल करें. इससे आपको तुरंत समाधान मिल जाएंगे. ML Kit के GenAI API, Gemini Nano की मदद से काम करते हैं. इन्हें डिवाइस पर मौजूद कुछ खास टास्क के लिए फ़ाइन-ट्यून किया गया है. ML Kit के GenAI API, आपके ऐप्लिकेशन के लिए प्रोडक्शन का सबसे सही तरीका है. इसकी वजह यह है कि इनमें बेहतर इंटरफ़ेस और स्केलेबिलिटी होती है. इन एपीआई की मदद से, टेक्स्ट को संक्षिप्त किया जा सकता है, उसकी अशुद्धियां ठीक की जा सकती हैं, और उसे फिर से लिखा जा सकता है. साथ ही, इमेज के बारे में जानकारी जनरेट की जा सकती है और बोले गए शब्दों को पहचाना जा सकता है.
अगर आपको ML Kit GenAI API के बुनियादी इस्तेमाल के उदाहरणों से आगे बढ़ना है, तो Gemini Nano के एक्सपेरिमेंटल ऐक्सेस का इस्तेमाल करें. Gemini Nano Experimental के ऐक्सेस से, Gemini Nano के साथ कस्टम प्रॉम्प्टिंग को सीधे तौर पर ऐक्सेस किया जा सकता है.
मशीन लर्निंग के सामान्य कामों के लिए, अपने हिसाब से कस्टम मॉडल लागू किए जा सकते हैं. हम आपको ML Kit, MediaPipe, LiteRT, और Google Play की डिलीवरी सुविधाओं जैसे बेहतरीन टूल उपलब्ध कराते हैं. इनसे आपको डेवलपमेंट की प्रोसेस को बेहतर बनाने में मदद मिलती है.
जिन ऐप्लिकेशन के लिए खास समाधानों की ज़रूरत होती है उनके लिए, अपने हिसाब से बनाए गए कस्टम मॉडल का इस्तेमाल किया जा सकता है. जैसे, Gemma या कोई ऐसा मॉडल जो आपके इस्तेमाल के खास उदाहरण के हिसाब से बनाया गया हो. LiteRT की मदद से, अपने मॉडल को सीधे तौर पर उपयोगकर्ता के डिवाइस पर चलाएं. यह बेहतर परफ़ॉर्मेंस के लिए, पहले से डिज़ाइन किए गए मॉडल आर्किटेक्चर उपलब्ध कराता है.
आपके पास, डिवाइस पर मौजूद और क्लाउड मॉडल, दोनों का इस्तेमाल करके हाइब्रिड समाधान बनाने का विकल्प भी है.
मोबाइल ऐप्लिकेशन, आम तौर पर छोटे टेक्स्ट डेटा के लिए लोकल मॉडल का इस्तेमाल करते हैं. जैसे, चैट की बातचीत या ब्लॉग लेख. हालांकि, बड़े डेटा सोर्स (जैसे कि PDF) के लिए या जब ज़्यादा जानकारी की ज़रूरत हो, तो ज़्यादा बेहतर Gemini मॉडल के साथ क्लाउड-आधारित समाधान की ज़रूरत पड़ सकती है.
Gemini के ऐडवांस मॉडल इंटिग्रेट करना
Android डेवलपर, Firebase AI Logic SDK का इस्तेमाल करके, Google की जनरेटिव एआई की बेहतर सुविधाओं को अपने ऐप्लिकेशन में इंटिग्रेट कर सकते हैं. इनमें Gemini Pro, Gemini Flash, और Imagen मॉडल शामिल हैं. इस एसडीके को ज़्यादा डेटा की ज़रूरतों को पूरा करने के लिए डिज़ाइन किया गया है. यह इन बेहतरीन परफ़ॉर्म करने वाले, मल्टीमॉडल एआई मॉडल को ऐक्सेस करने की सुविधा देकर, ज़्यादा क्षमताएं और अडैप्टेबिलिटी उपलब्ध कराता है.
Firebase AI Logic SDK की मदद से डेवलपर, क्लाइंट-साइड से Google के एआई मॉडल को कॉल कर सकते हैं. इसके लिए, उन्हें बहुत कम मेहनत करनी पड़ती है. Gemini Pro और Gemini Flash जैसे ये मॉडल, क्लाउड में इन्फ़रेंस चलाते हैं. साथ ही, Android ऐप्लिकेशन को इमेज, ऑडियो, वीडियो, और टेक्स्ट जैसे कई तरह के इनपुट प्रोसेस करने की सुविधा देते हैं. Gemini Pro, मुश्किल समस्याओं को हल करने और बड़े डेटा का विश्लेषण करने में बेहतर है. वहीं, Gemini Flash सीरीज़ के मॉडल, बहुत तेज़ी से काम करते हैं. साथ ही, इनकी कॉन्टेक्स्ट विंडो इतनी बड़ी होती है कि ज़्यादातर टास्क पूरे किए जा सकते हैं.
ट्रेडिशनल मशीन लर्निंग का इस्तेमाल कब करना चाहिए
जनरेटिव एआई, टेक्स्ट, इमेज, और कोड जैसे कॉन्टेंट को बनाने और उसमें बदलाव करने के लिए मददगार है. हालांकि, असल दुनिया की कई समस्याओं को मशीन लर्निंग (एमएल) की पारंपरिक तकनीकों का इस्तेमाल करके बेहतर तरीके से हल किया जा सकता है. ये तरीके, अनुमान लगाने, क्लासिफ़िकेशन करने, पहचान करने, और मौजूदा डेटा में पैटर्न समझने जैसे कामों में बेहतर होते हैं. ये काम, अक्सर जनरेटिव मॉडल की तुलना में ज़्यादा बेहतर तरीके से, कम कंप्यूटेशनल लागत पर, और आसानी से किए जाते हैं.
पारंपरिक एमएल फ़्रेमवर्क, इनपुट का विश्लेषण करने, सुविधाओं की पहचान करने या सीखे गए पैटर्न के आधार पर अनुमान लगाने पर फ़ोकस करने वाले ऐप्लिकेशन के लिए, मज़बूत, ऑप्टिमाइज़ किए गए, और अक्सर ज़्यादा व्यावहारिक समाधान उपलब्ध कराते हैं. ये फ़्रेमवर्क, पूरी तरह से नया आउटपुट जनरेट करने के बजाय, इन कामों पर फ़ोकस करते हैं. Google के ML Kit, LiteRT, और MediaPipe जैसे टूल, इन नॉन-जनरेटिव इस्तेमाल के उदाहरणों के लिए खास तौर पर तैयार की गई बेहतर सुविधाएं देते हैं. ये सुविधाएं, खास तौर पर मोबाइल और एज कंप्यूटिंग एनवायरमेंट में काम आती हैं.
ML Kit की मदद से, मशीन लर्निंग इंटिग्रेशन शुरू करना
एमएल किट, मशीन लर्निंग के सामान्य कामों के लिए, प्रोडक्शन-रेडी और मोबाइल के लिए ऑप्टिमाइज़ किए गए समाधान उपलब्ध कराता है. इसके लिए, एमएल के बारे में पहले से जानकारी होना ज़रूरी नहीं है. इस मोबाइल SDK का इस्तेमाल करना आसान है. यह Google की एमएल विशेषज्ञता को सीधे तौर पर आपके Android और iOS ऐप्लिकेशन में लाता है. इससे आपको मॉडल ट्रेनिंग और ऑप्टिमाइज़ेशन के बजाय, सुविधा डेवलपमेंट पर फ़ोकस करने में मदद मिलती है. ML Kit, बारकोड स्कैन करने, टेक्स्ट की पहचान करने (ओसीआर), चेहरे की पहचान करने, इमेज लेबल करने, ऑब्जेक्ट की पहचान करने और उसे ट्रैक करने, भाषा की पहचान करने, और स्मार्ट जवाब देने जैसी सुविधाओं के लिए, पहले से बने एपीआई और इस्तेमाल के लिए तैयार मॉडल उपलब्ध कराता है.
इन मॉडल को आम तौर पर डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया जाता है. इससे यह पक्का किया जाता है कि ये मॉडल कम समय में काम करें, ऑफ़लाइन काम करें, और उपयोगकर्ता की निजता को बेहतर तरीके से सुरक्षित रखें. ऐसा इसलिए, क्योंकि डेटा अक्सर डिवाइस पर ही रहता है. अपने मोबाइल ऐप्लिकेशन में, एमएल की पहले से मौजूद सुविधाओं को तुरंत जोड़ने के लिए, एमएल किट चुनें. इसके लिए, आपको मॉडल को ट्रेन करने या जनरेटिव आउटपुट की ज़रूरत नहीं होगी. यह Google के ऑप्टिमाइज़ किए गए मॉडल का इस्तेमाल करके या कस्टम TensorFlow Lite मॉडल डिप्लॉय करके, ऐप्लिकेशन को "स्मार्ट" सुविधाओं के साथ बेहतर बनाने के लिए सबसे सही है.
ML Kit की डेवलपर साइट पर जाकर, हमारी ज़्यादा जानकारी वाली गाइड और दस्तावेज़ देखें.
LiteRT की मदद से, कस्टम एमएल मॉडल डिप्लॉय करना
ज़्यादा कंट्रोल पाने या अपने एमएल मॉडल डिप्लॉय करने के लिए, LiteRT और Google Play services पर आधारित कस्टम एमएल स्टैक का इस्तेमाल करें. इस स्टैक में, बेहतर परफ़ॉर्मेंस वाली एमएल सुविधाओं को डिप्लॉय करने के लिए ज़रूरी चीज़ें शामिल होती हैं. LiteRT एक टूलकिट है. इसे कम संसाधनों वाले मोबाइल, एम्बेड किए गए, और एज डिवाइसों पर TensorFlow मॉडल को बेहतर तरीके से चलाने के लिए ऑप्टिमाइज़ किया गया है. इससे आपको छोटे और तेज़ मॉडल चलाने की सुविधा मिलती है. ये मॉडल कम मेमोरी, पावर, और स्टोरेज का इस्तेमाल करते हैं. LiteRT रनटाइम को, एज डिवाइसों पर मौजूद अलग-अलग हार्डवेयर ऐक्सलरेटर (GPU, DSP, NPU) के लिए बेहतर तरीके से ऑप्टिमाइज़ किया गया है. इससे कम समय में अनुमान लगाने में मदद मिलती है.
ट्रेन किए गए एमएल मॉडल को कम कंप्यूटेशनल पावर या बैटरी लाइफ़ वाले डिवाइसों पर आसानी से डिप्लॉय करने के लिए, LiteRT को चुनें. जैसे, स्मार्टफ़ोन, IoT डिवाइस या माइक्रोकंट्रोलर. आम तौर पर, इसका इस्तेमाल क्लासिफ़िकेशन, रिग्रेशन या डिटेक्शन के लिए किया जाता है. यह एज पर कस्टम या स्टैंडर्ड अनुमान लगाने वाले मॉडल को डिप्लॉय करने के लिए सबसे अच्छा समाधान है. यहां तेज़ी से काम करना और संसाधनों को बचाना सबसे ज़रूरी होता है.
LiteRT के साथ एमएल डिप्लॉयमेंट के बारे में ज़्यादा जानें.
MediaPipe की मदद से, अपने ऐप्लिकेशन में रीयल-टाइम में काम करने की सुविधा जोड़ना
MediaPipe, लाइव और स्ट्रीमिंग मीडिया के लिए डिज़ाइन किए गए, ओपन-सोर्स, क्रॉस-प्लैटफ़ॉर्म, और ज़रूरत के मुताबिक बनाए जा सकने वाले मशीन लर्निंग समाधान उपलब्ध कराता है. हाथों की गतिविधियों को ट्रैक करने, पोज़ का अनुमान लगाने, चेहरे के मेश का पता लगाने, और ऑब्जेक्ट की पहचान करने जैसे मुश्किल कामों के लिए, ऑप्टिमाइज़ किए गए और पहले से बनाए गए टूल का फ़ायदा पाएं. ये सभी टूल, मोबाइल डिवाइसों पर भी बेहतर परफ़ॉर्मेंस और रीयल-टाइम इंटरैक्शन को चालू करते हैं.
MediaPipe की ग्राफ़ पर आधारित पाइपलाइन को अपनी ज़रूरत के हिसाब से बनाया जा सकता है. इससे आपको Android, iOS, वेब, डेस्कटॉप, और बैकएंड ऐप्लिकेशन के लिए समाधान तैयार करने में मदद मिलती है. अगर आपके ऐप्लिकेशन को लाइव सेंसर डेटा को तुरंत समझना और उस पर प्रतिक्रिया देनी है, तो MediaPipe को चुनें. खास तौर पर, वीडियो स्ट्रीम के लिए. जैसे, हाथ के जेस्चर को पहचानना, एआर इफ़ेक्ट, फ़िटनेस ट्रैकिंग या अवतार कंट्रोल. इन सभी का फ़ोकस, इनपुट का विश्लेषण करने और उसे समझने पर होता है.
समाधानों के बारे में जानें और MediaPipe का इस्तेमाल शुरू करें.
कोई तरीका चुनें: डिवाइस पर या क्लाउड में
अपने Android ऐप्लिकेशन में एआई/एमएल की सुविधाओं को इंटिग्रेट करते समय, यह तय करना ज़रूरी होता है कि प्रोसेसिंग सीधे तौर पर उपयोगकर्ता के डिवाइस पर की जाए या क्लाउड में. ML Kit, Gemini Nano, और TensorFlow Lite जैसे टूल, डिवाइस पर काम करने वाली सुविधाएं उपलब्ध कराते हैं. वहीं, Firebase AI Logic के साथ Gemini Cloud API, क्लाउड पर आधारित बेहतरीन प्रोसेसिंग उपलब्ध करा सकते हैं. सही विकल्प चुनने के लिए, आपको कई बातों का ध्यान रखना होगा. ये बातें, आपके इस्तेमाल के उदाहरण और उपयोगकर्ता की ज़रूरतों के हिसाब से अलग-अलग हो सकती हैं.
फ़ैसला लेने से पहले, इन बातों का ध्यान रखें:
- कनेक्टिविटी और ऑफ़लाइन काम करने की सुविधा: अगर आपके ऐप्लिकेशन को इंटरनेट कनेक्शन के बिना भी भरोसेमंद तरीके से काम करना है, तो Gemini Nano जैसे डिवाइस पर मौजूद समाधान सबसे सही हैं. क्लाउड पर प्रोसेस करने के लिए, नेटवर्क ऐक्सेस की ज़रूरत होती है.
- डेटा की निजता: इस्तेमाल के ऐसे मामलों में जहां निजता की वजहों से उपयोगकर्ता के डेटा को डिवाइस पर ही रखना ज़रूरी होता है, डिवाइस पर प्रोसेसिंग करने की सुविधा एक खास फ़ायदा देती है. यह संवेदनशील जानकारी को स्थानीय तौर पर सुरक्षित रखती है.
- मॉडल की क्षमताएँ और टास्क की जटिलता: क्लाउड पर आधारित मॉडल अक्सर काफ़ी बड़े होते हैं. साथ ही, ये ज़्यादा शक्तिशाली होते हैं और इन्हें ज़्यादा बार अपडेट किया जाता है. इसलिए, ये एआई के ज़्यादा जटिल टास्क के लिए सही होते हैं. इसके अलावा, ये तब भी सही होते हैं, जब ज़्यादा इनपुट प्रोसेस करने होते हैं. ऐसे में, बेहतर आउटपुट क्वालिटी और ज़्यादा क्षमताओं का होना ज़रूरी होता है. डिवाइस पर मौजूद मॉडल, आसान टास्क को बेहतर तरीके से हैंडल कर सकते हैं.
- लागत से जुड़ी बातें: Cloud API में आम तौर पर, इस्तेमाल के आधार पर कीमत तय की जाती है. इसका मतलब है कि अनुमानों की संख्या या प्रोसेस किए गए डेटा की मात्रा के हिसाब से लागत बढ़ सकती है. आम तौर पर, डिवाइस पर मौजूद एआई का इस्तेमाल करने पर, हर बार के हिसाब से शुल्क नहीं लगता. हालांकि, इसे डेवलप करने में लागत आती है. साथ ही, इससे डिवाइस के संसाधनों पर असर पड़ सकता है. जैसे, बैटरी लाइफ़ और परफ़ॉर्मेंस.
- डिवाइस के संसाधन: डिवाइस पर मौजूद मॉडल, उपयोगकर्ता के डिवाइस पर स्टोरेज की जगह का इस्तेमाल करते हैं. यह भी ज़रूरी है कि आपको डिवाइस पर काम करने वाले कुछ खास मॉडल, जैसे कि Gemini Nano के साथ काम करने वाले डिवाइसों के बारे में पता हो. इससे यह पक्का किया जा सकेगा कि आपकी टारगेट ऑडियंस, सुविधाओं का इस्तेमाल कर पाए.
- मॉडल को अपनी ज़रूरत के हिसाब से बनाना और उसे बेहतर बनाना: अगर आपको अपने इस्तेमाल के उदाहरण के हिसाब से मॉडल को बेहतर बनाने की ज़रूरत है, तो क्लाउड पर आधारित समाधान आम तौर पर ज़्यादा फ़्लेक्सिबिलिटी और मॉडल को अपनी ज़रूरत के हिसाब से बनाने के लिए ज़्यादा विकल्प देते हैं.
- क्रॉस-प्लैटफ़ॉर्म पर एक जैसी सुविधाएँ: अगर आपको iOS जैसे कई प्लैटफ़ॉर्म पर एक जैसी एआई सुविधाएँ चाहिए, तो ध्यान रखें कि डिवाइस पर काम करने वाले कुछ समाधान, जैसे कि Gemini Nano, अभी सभी ऑपरेटिंग सिस्टम पर उपलब्ध नहीं हो सकते.
इस्तेमाल के उदाहरण से जुड़ी अपनी ज़रूरतों और उपलब्ध विकल्पों पर ध्यान से विचार करके, आपको अपने Android ऐप्लिकेशन को बेहतर बनाने के लिए सबसे सही एआई/एमएल समाधान मिल सकता है. साथ ही, अपने उपयोगकर्ताओं को बेहतर और उनकी दिलचस्पी के हिसाब से अनुभव दिया जा सकता है.
एआई/एमएल सलूशन के बारे में गाइड
इस समाधान गाइड की मदद से, आपको अपने Android प्रोजेक्ट में एआई/एमएल टेक्नोलॉजी को इंटिग्रेट करने के लिए, सही डेवलपर टूल चुनने में मदद मिल सकती है.
एआई की सुविधा का मुख्य लक्ष्य क्या है?
- A) नया कॉन्टेंट (टेक्स्ट, इमेज के बारे में जानकारी) जनरेट करना है या टेक्स्ट को प्रोसेस करने से जुड़ी सामान्य कार्रवाइयां (टेक्स्ट की खास जानकारी देना, अशुद्धियां ठीक करना या टेक्स्ट को फिर से लिखना) करनी हैं? → जनरेटिव एआई पर जाएं
- B) क्या एआई का इस्तेमाल, मौजूदा डेटा/इनपुट का विश्लेषण करने, अनुमान लगाने, वर्गीकरण करने, पहचान करने, पैटर्न समझने या रीयल-टाइम स्ट्रीम (जैसे कि वीडियो/ऑडियो) को प्रोसेस करने के लिए किया जाता है? → ट्रेडिशनल एमएल और परसेप्शन पर जाएं
ट्रेडिशनल एमएल और परसेप्शन
आपको इनपुट का विश्लेषण करना है, सुविधाओं की पहचान करनी है या सीखे गए पैटर्न के आधार पर अनुमान लगाने हैं. इसके बजाय, आपको पूरी तरह से नया आउटपुट जनरेट नहीं करना है.
आपको कौनसी कार्रवाई करनी है?
- A) क्या आपको पहले से बनी हुई, मोबाइल एमएल की सामान्य सुविधाओं को तुरंत इंटिग्रेट करना है?
(जैसे, बारकोड स्कैन करना, टेक्स्ट की पहचान करना (ओसीआर), चेहरे की पहचान करना, इमेज लेबल करना, ऑब्जेक्ट की पहचान करना और उसे ट्रैक करना, भाषा की पहचान करना, स्मार्ट जवाब की बुनियादी सुविधा)
- → इस्तेमाल करें: ML Kit (पारंपरिक एपीआई)
- क्यों: मोबाइल पर एमएल से जुड़े कामों के लिए, इसे आसानी से इंटिग्रेट किया जा सकता है. इसे अक्सर डिवाइस पर इस्तेमाल करने के लिए ऑप्टिमाइज़ किया जाता है. जैसे, कम इंतज़ार का समय, ऑफ़लाइन इस्तेमाल, और निजता.
- B) क्या आपको रीयल-टाइम स्ट्रीमिंग डेटा (जैसे, वीडियो या ऑडियो) को प्रोसेस करने की ज़रूरत है, ताकि
परसेप्शन से जुड़े टास्क पूरे किए जा सकें? (जैसे, हाथ की गतिविधियों को ट्रैक करना, पोज़ का अनुमान लगाना, चेहरे की पहचान करना, वीडियो में रीयल-टाइम में ऑब्जेक्ट का पता लगाना और उसे सेगमेंट करना)
- → इस्तेमाल करें: MediaPipe
- क्यों: यह फ़्रेमवर्क, अलग-अलग प्लैटफ़ॉर्म पर बेहतर परफ़ॉर्मेंस और रीयल-टाइम परसेप्शन पाइपलाइन के लिए बनाया गया है.
- C) क्या आपको डिवाइस पर, कस्टम तौर पर ट्रेन किए गए एमएल मॉडल को बेहतर तरीके से चलाना है? उदाहरण के लिए, क्लासिफ़िकेशन, रिग्रेशन, और पहचान के लिए. साथ ही, परफ़ॉर्मेंस और कम संसाधन इस्तेमाल करने को प्राथमिकता देनी है?
- → इस्तेमाल करें: LiteRT (TensorFlow Lite Runtime)
- क्यों: मोबाइल और एज डिवाइसों पर कस्टम मॉडल को बेहतर तरीके से डिप्लॉय करने के लिए, ऑप्टिमाइज़ किया गया रनटाइम (छोटा साइज़, तेज़ इन्फ़रेंस, हार्डवेयर ऐक्सेलरेट).
- D) क्या आपको किसी खास टास्क के लिए, अपने कस्टम एमएल मॉडल को ट्रेन करना है?
- → इस्तेमाल करें: LiteRT (TensorFlow Lite Runtime) + कस्टम मॉडल ट्रेनिंग
- क्यों: इसमें कस्टम मॉडल को ट्रेन करने और डिप्लॉय करने के लिए टूल मिलते हैं. ये टूल, मोबाइल और एज डिवाइसों के लिए ऑप्टिमाइज़ किए गए हैं.
- E) क्या आपको कॉन्टेंट को बेहतर तरीके से कैटगरी में बांटने, भावना का विश्लेषण करने या कई भाषाओं में अनुवाद करने की ज़रूरत है?
- देखें कि क्या पारंपरिक एमएल मॉडल (जिन्हें LiteRT या क्लाउड का इस्तेमाल करके डिप्लॉय किया जा सकता है) काम करेंगे या बेहतर एनएलयू के लिए जनरेटिव मॉडल की ज़रूरत है ('शुरू करें' पर वापस जाएं और A चुनें). क्लाउड-आधारित क्लासिफ़िकेशन, भावना, या अनुवाद के लिए:
- → इस्तेमाल करें: क्लाउड-आधारित समाधान (जैसे, Google Cloud Natural Language API, Google Cloud Translation API, कस्टम बैकएंड या Vertex AI का इस्तेमाल करके ऐक्सेस किया जा सकता है). (अगर डिवाइस ऑफ़लाइन है या निजता सबसे अहम है, तो डिवाइस पर मौजूद विकल्पों की तुलना में कम प्राथमिकता दी जाती है).
- क्यों: क्लाउड सलूशन में, असरदार मॉडल और कई भाषाओं के लिए सहायता उपलब्ध होती है. हालांकि, इसके लिए कनेक्टिविटी की ज़रूरत होती है और इसके लिए शुल्क भी देना पड़ सकता है.
जनरेटिव एआई
आपको नया कॉन्टेंट बनाना है, खास जानकारी देनी है, कॉन्टेंट को फिर से लिखना है या जटिल समझ या इंटरैक्शन से जुड़े टास्क पूरे करने हैं.
क्या आपको एआई को ऑफ़लाइन इस्तेमाल करना है, डेटा की निजता को ज़्यादा से ज़्यादा सुरक्षित रखना है (उपयोगकर्ता का डेटा डिवाइस पर सेव रखना है) या क्लाउड इन्फ़्रेंस की लागत से बचना है?
- A) हां, ऑफ़लाइन, ज़्यादा से ज़्यादा निजता या क्लाउड का कोई शुल्क नहीं होना ज़रूरी है.
- → डिवाइस पर उपलब्ध जनरेटिव एआई पर जाएं
- B) नहीं, कनेक्टिविटी उपलब्ध है और स्वीकार्य है, क्लाउड की क्षमताएं और स्केलेबिलिटी ज़्यादा ज़रूरी है या कुछ सुविधाओं के लिए क्लाउड की ज़रूरत है.
- → Cloud generative AI पर जाएं
डिवाइस पर जनरेटिव एआई की सुविधा (Gemini Nano का इस्तेमाल करके)
चेतावनी: इसके लिए, Android डिवाइसों के साथ काम करने वाले वर्शन की ज़रूरत होती है. iOS के साथ काम करने वाले वर्शन की उपलब्धता सीमित है. साथ ही, टोकन की सीमाएं तय हैं (1024 प्रॉम्प्ट, 4096 कॉन्टेक्स्ट). मॉडल, क्लाउड वर्शन के मुकाबले कम असरदार होते हैं.
क्या आपके इस्तेमाल का उदाहरण, ML Kit GenAI API के ज़रिए उपलब्ध कराए गए टास्क से खास तौर पर मेल खाता है? (टेक्स्ट की खास जानकारी जनरेट करना, टेक्स्ट की स्पेलिंग और व्याकरण की जांच करना, टेक्स्ट को फिर से लिखना, इमेज की जानकारी जनरेट करना या बोली को टेक्स्ट में बदलना) और क्या टोकन की सीमाएं काफ़ी हैं?
- A) हां:
- → इस्तेमाल करें: ML Kit GenAI API (Gemini Nano की मदद से काम करते हैं)
- वजह: डिवाइस पर जनरेटिव एआई से जुड़े कुछ खास और सामान्य टास्क को इंटिग्रेट करने का सबसे आसान तरीका. डिवाइस पर उपलब्ध समाधानों में सबसे ज़्यादा प्राथमिकता.
- B) नहीं (आपको एमएल किट के GenAI एपीआई के अलावा, ज़्यादा प्रॉम्प्ट या टास्क की ज़रूरत है. हालांकि, आपको अब भी नैनो की क्षमताओं के हिसाब से डिवाइस पर ही टास्क पूरे करने हैं):
- → इस्तेमाल करें: Gemini Nano को एक्सपेरिमेंट के तौर पर ऐक्सेस करना
- क्यों: यह डिवाइस पर ओपन प्रॉम्प्टिंग की सुविधाएं उपलब्ध कराता है. इनका इस्तेमाल, स्ट्रक्चर्ड एमएल किट GenAI एपीआई के अलावा अन्य यूज़ केस के लिए किया जा सकता है. साथ ही, यह Nano की सीमाओं का पालन करता है.
Cloud में जनरेटिव एआई
इसमें ज़्यादा बेहतर मॉडल का इस्तेमाल किया जाता है. इसके लिए इंटरनेट कनेक्शन ज़रूरी होता है. आम तौर पर, इसमें अनुमान लगाने की लागत शामिल होती है. यह ज़्यादा डिवाइसों पर उपलब्ध होता है और अलग-अलग प्लैटफ़ॉर्म (Android और iOS) पर आसानी से काम करता है.
आपकी प्राथमिकता क्या है: Firebase में आसानी से इंटिग्रेट करना या ज़्यादा से ज़्यादा लचीलापन/कंट्रोल?
- A) क्या आपको आसानी से इंटिग्रेट करने की सुविधा चाहिए, मैनेज किए गए एपीआई का इस्तेमाल करना है, और पहले से ही Firebase का इस्तेमाल किया जा रहा है?
- → इस्तेमाल करें: Firebase AI Logic SDK → Firebase AI Logic पर जाएं
- B) क्या आपको ज़्यादा से ज़्यादा फ़्लेक्सिबिलिटी, सबसे ज़्यादा मॉडल का ऐक्सेस (तीसरे पक्ष/कस्टम मॉडल भी शामिल हैं), बेहतर फ़ाइन-ट्यूनिंग की सुविधा चाहिए? साथ ही, क्या आपको अपना बैकएंड इंटिग्रेशन (ज़्यादा मुश्किल) मैनेज करना है?
- → इस्तेमाल करें: Google Cloud Platform का इस्तेमाल करके, कस्टम क्लाउड बैकएंड के साथ Gemini API
- क्यों: इससे आपको सबसे ज़्यादा कंट्रोल मिलता है. साथ ही, मॉडल को ऐक्सेस करने और कस्टम ट्रेनिंग के विकल्प मिलते हैं. हालांकि, इसके लिए बैकएंड डेवलपमेंट पर काफ़ी काम करना पड़ता है. यह जटिल, बड़े पैमाने पर या अपनी ज़रूरत के हिसाब से बनाए गए समाधानों के लिए सही है.
(आपने Firebase AI Logic SDK चुना है) आपको किस तरह का जनरेटिव टास्क और परफ़ॉर्मेंस प्रोफ़ाइल चाहिए?
- A) क्या आपको परफ़ॉर्मेंस और लागत के बीच संतुलन बनाए रखने की ज़रूरत है? क्या आपको सामान्य टेक्स्ट जनरेट करने, खास जानकारी देने या चैट ऐप्लिकेशन के लिए इसकी ज़रूरत है, जहां तेज़ी से जवाब देना ज़रूरी है?
- → इस्तेमाल करें: Gemini Flash के साथ Firebase AI Logic SDK
- क्यों: इसे Vertex AI के मैनेज किए गए एनवायरमेंट में, स्पीड और बेहतर परफ़ॉर्मेंस के लिए ऑप्टिमाइज़ किया गया है.
- B) क्या आपको मुश्किल टेक्स्ट जनरेट करने, तर्क देने, बेहतर एनएलयू या निर्देशों का पालन करने के लिए, बेहतर क्वालिटी और क्षमता वाले मॉडल की ज़रूरत है?
- → इस्तेमाल करें: Gemini Pro के साथ Firebase AI Logic SDK
- क्यों: यह टेक्स्ट मॉडल, मुश्किल टास्क के लिए ज़्यादा बेहतर है. इसे Firebase के ज़रिए ऐक्सेस किया जा सकता है.
- C) क्या आपको टेक्स्ट प्रॉम्प्ट के आधार पर, इमेज जनरेट करने या इमेज को बेहतर तरीके से समझने या उसमें बदलाव करने की सुविधा चाहिए?
- → इस्तेमाल करें: Imagen 3 के साथ Firebase AI Logic SDK
- क्यों: मैनेज किए गए Firebase एनवायरमेंट का इस्तेमाल करके, इमेज जनरेट करने वाले सबसे आधुनिक मॉडल को ऐक्सेस किया जाता है.