इस गाइड को इस तरह से डिज़ाइन किया गया है कि आपको अपने ऐप्लिकेशन में, Google के जनरेटिव आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग (एआई/एमएल) के समाधानों को इंटिग्रेट करने में मदद मिल सके. इससे आपको आर्टिफ़िशियल इंटेलिजेंस और मशीन लर्निंग के अलग-अलग समाधानों के बारे में जानकारी मिलती है. साथ ही, अपनी ज़रूरतों के हिसाब से सबसे सही समाधान चुनने में मदद मिलती है. इस दस्तावेज़ का मकसद, आपकी ज़रूरतों और इस्तेमाल के उदाहरणों पर ध्यान देकर, यह तय करने में आपकी मदद करना है कि कौनसा टूल इस्तेमाल करना है और क्यों.
अपनी खास ज़रूरतों के लिए सबसे सही एआई/एमएल सलूशन चुनने में आपकी मदद करने के लिए, इस दस्तावेज़ में सलूशन गाइड शामिल है. इस गाइड में, आपके प्रोजेक्ट के लक्ष्यों और सीमाओं के बारे में कई सवाल पूछे जाते हैं. इन सवालों के जवाब देने पर, आपको सबसे सही टूल और टेक्नोलॉजी के बारे में जानकारी मिलती है.
इस गाइड की मदद से, अपने ऐप्लिकेशन के लिए एआई का सबसे अच्छा समाधान चुना जा सकता है. इन बातों का ध्यान रखें: डेटा का टाइप (टेक्स्ट, इमेज, ऑडियो, वीडियो), टास्क की जटिलता (सामान्य जानकारी से लेकर, ज़्यादा जानकारी वाले मुश्किल टास्क), और डेटा का साइज़ (छोटे इनपुट बनाम बड़े दस्तावेज़). इससे आपको यह तय करने में मदद मिलेगी कि अपने डिवाइस पर Gemini Nano का इस्तेमाल करना है या Firebase के क्लाउड-आधारित एआई (Gemini Flash, Gemini Pro या Imagen) का.
डिवाइस पर अनुमान लगाने की सुविधा का फ़ायदा पाना
अपने Android ऐप्लिकेशन में एआई और एमएल की सुविधाएं जोड़ते समय, उन्हें डिवाइस पर या क्लाउड का इस्तेमाल करके डिलीवर करने के अलग-अलग तरीके चुने जा सकते हैं.
Gemini Nano जैसे डिवाइस पर काम करने वाले समाधान, बिना किसी अतिरिक्त शुल्क के नतीजे देते हैं. साथ ही, उपयोगकर्ता की निजता को बेहतर बनाते हैं और भरोसेमंद ऑफ़लाइन फ़ंक्शन उपलब्ध कराते हैं. ऐसा इसलिए होता है, क्योंकि इनपुट डेटा को स्थानीय तौर पर प्रोसेस किया जाता है. ये फ़ायदे, कुछ खास इस्तेमाल के उदाहरणों के लिए अहम हो सकते हैं. जैसे, मैसेज की खास जानकारी देना. साथ ही, सही समाधान चुनते समय डिवाइस पर काम करने वाले टूल को प्राथमिकता देना.
Gemini Nano की मदद से, सीधे Android डिवाइस पर अनुमान लगाया जा सकता है. अगर आपको टेक्स्ट या इमेज से जुड़ी समस्याओं को हल करना है, तो ML Kit के GenAI API का इस्तेमाल करें. ML Kit के GenAI API, Gemini Nano की मदद से काम करते हैं. साथ ही, इन्हें डिवाइस पर किए जाने वाले खास टास्क के लिए बेहतर बनाया गया है. ML Kit के जेन एआई एपीआई, आपके ऐप्लिकेशन के लिए प्रोडक्शन में इस्तेमाल करने के लिए सबसे सही विकल्प हैं. इसकी वजह यह है कि इनका इंटरफ़ेस बेहतर है और इन्हें बड़े पैमाने पर इस्तेमाल किया जा सकता है. इन एपीआई की मदद से, टेक्स्ट के इस्तेमाल के उदाहरण लागू किए जा सकते हैं. इन उदाहरणों की मदद से, टेक्स्ट को खास जानकारी में बदला जा सकता है, उसकी प्रूफ़रीडिंग की जा सकती है, और उसे फिर से लिखा जा सकता है. साथ ही, इनकी मदद से इमेज के ब्यौरे भी जनरेट किए जा सकते हैं.
ML Kit के GenAI एपीआई के ज़रिए दिए गए इस्तेमाल के बुनियादी उदाहरणों से आगे बढ़ने के लिए, Gemini Nano के एक्सपेरिमेंट के तौर पर उपलब्ध ऐक्सेस का इस्तेमाल करें. Gemini Nano के एक्सपेरिमेंटल ऐक्सेस की मदद से, Gemini Nano के साथ कस्टम प्रॉम्प्ट का ज़्यादा सीधा ऐक्सेस मिलता है.
मशीन लर्निंग के पारंपरिक टास्क के लिए, आपके पास अपने कस्टम मॉडल लागू करने का विकल्प होता है. हम ML Kit, MediaPipe, LiteRT, और Google Play डिलीवरी की सुविधाओं जैसे बेहतर टूल उपलब्ध कराते हैं, ताकि आपका ऐप्लिकेशन डेवलप करने की प्रोसेस आसान हो.
जिन ऐप्लिकेशन के लिए खास तरह के समाधानों की ज़रूरत होती है उनके लिए, अपने मनमुताबिक बनाए गए मॉडल का इस्तेमाल किया जा सकता है. जैसे, Gemma या आपके इस्तेमाल के उदाहरण के हिसाब से बनाया गया कोई अन्य मॉडल. LiteRT की मदद से, अपने मॉडल को सीधे तौर पर उपयोगकर्ता के डिवाइस पर चलाएं. यह मॉडल, बेहतर परफ़ॉर्मेंस के लिए पहले से डिज़ाइन किए गए मॉडल आर्किटेक्चर उपलब्ध कराता है.
डिवाइस पर मौजूद और क्लाउड मॉडल, दोनों का फ़ायदा उठाकर, हाइब्रिड समाधान भी बनाया जा सकता है.
मोबाइल ऐप्लिकेशन आम तौर पर छोटे टेक्स्ट डेटा के लिए, लोकल मॉडल का इस्तेमाल करते हैं. जैसे, चैट बातचीत या ब्लॉग लेख. हालांकि, बड़े डेटा सोर्स (जैसे, PDF) या ज़्यादा जानकारी की ज़रूरत होने पर, ज़्यादा बेहतर Gemini मॉडल के साथ क्लाउड-आधारित समाधान की ज़रूरत पड़ सकती है.
Gemini के बेहतर मॉडल इंटिग्रेट करना
Android डेवलपर, Firebase एआई लॉजिक SDK टूल का इस्तेमाल करके, अपने ऐप्लिकेशन में Google की बेहतर जनरेटिव एआई सुविधाओं को इंटिग्रेट कर सकते हैं. इन सुविधाओं में, बेहतरीन Gemini Pro, Gemini Flash, और Imagen मॉडल शामिल हैं. इस SDK टूल को ज़्यादा डेटा की ज़रूरतों के लिए डिज़ाइन किया गया है. साथ ही, यह बेहतर परफ़ॉर्म करने वाले और कई मोड वाले एआई मॉडल को ऐक्सेस करने की सुविधा देकर, ज़्यादा सुविधाएं और बदलावों के हिसाब से ढल जाने की क्षमता भी देता है.
Firebase एआई लॉजिक SDK टूल की मदद से, डेवलपर कम से कम मेहनत करके, Google के एआई मॉडल को क्लाइंट-साइड कॉल कर सकते हैं. Gemini Pro और Gemini Flash जैसे मॉडल, क्लाउड में अनुमान लगाते हैं. साथ ही, Android ऐप्लिकेशन को इमेज, ऑडियो, वीडियो, और टेक्स्ट जैसे अलग-अलग इनपुट को प्रोसेस करने में मदद करते हैं. Gemini Pro, मुश्किल समस्याओं को हल करने और ज़्यादा डेटा का विश्लेषण करने में बेहतर है. वहीं, Gemini Flash सीरीज़, बेहतर स्पीड और ज़्यादातर टास्क के लिए ज़रूरत के मुताबिक कॉन्टेक्स्ट विंडो उपलब्ध कराती है.
पारंपरिक मशीन लर्निंग का इस्तेमाल कब करना चाहिए
जनरेटिव एआई, टेक्स्ट, इमेज, और कोड जैसे कॉन्टेंट को बनाने और उसमें बदलाव करने के लिए मददगार है. हालांकि, असल दुनिया की कई समस्याओं को पारंपरिक मशीन लर्निंग (एमएल) तकनीकों का इस्तेमाल करके बेहतर तरीके से हल किया जा सकता है. ये पहले से मौजूद तरीके, मौजूदा डेटा में पैटर्न का अनुमान लगाने, उन्हें कैटगरी में बांटने, पहचानने, और समझने जैसे कामों में बेहतर होते हैं. ये काम, जनरेटिव मॉडल के मुकाबले ज़्यादा असरदार तरीके से, कम कंप्यूटिंग लागत पर, और आसानी से किए जा सकते हैं.
पारंपरिक एमएल फ़्रेमवर्क, इनपुट का विश्लेषण करने, सुविधाओं की पहचान करने या सीखे गए पैटर्न के आधार पर अनुमान लगाने पर फ़ोकस करने वाले ऐप्लिकेशन के लिए, बेहतर, ऑप्टिमाइज़ किए गए, और अक्सर ज़्यादा काम के समाधान उपलब्ध कराते हैं. ये ऐप्लिकेशन, पूरी तरह से नया आउटपुट जनरेट करने के बजाय, इन कामों पर फ़ोकस करते हैं. Google की ML Kit, LiteRT, और MediaPipe जैसे टूल, नॉन-जनरेटिव इस्तेमाल के उदाहरणों के लिए बेहतर सुविधाएं उपलब्ध कराते हैं. ये सुविधाएं खास तौर पर मोबाइल और एज कंप्यूटिंग एनवायरमेंट में काम करती हैं.
ML Kit की मदद से, मशीन लर्निंग इंटिग्रेशन की शुरुआत करना
ML Kit, मशीन लर्निंग से जुड़े सामान्य टास्क के लिए, प्रोडक्शन के लिए तैयार और मोबाइल के लिए ऑप्टिमाइज़ किए गए समाधान उपलब्ध कराता है. इसके लिए, आपको मशीन लर्निंग के बारे में पहले से कोई जानकारी नहीं होनी चाहिए. इस्तेमाल में आसान यह मोबाइल SDK टूल, Google की मशीन लर्निंग की विशेषज्ञता को सीधे आपके Android और iOS ऐप्लिकेशन में लाता है. इससे, आपको मॉडल को ट्रेनिंग देने और ऑप्टिमाइज़ करने के बजाय, सुविधा के डेवलपमेंट पर फ़ोकस करने में मदद मिलती है. MLKit, पहले से बने एपीआई और इस्तेमाल के लिए तैयार मॉडल उपलब्ध कराता है. इन मॉडल का इस्तेमाल, बारकोड स्कैन करने, टेक्स्ट पहचानने (ओसीआर), चेहरे की पहचान करने, इमेज लेबल करने, ऑब्जेक्ट की पहचान करने और ट्रैक करने, भाषा की पहचान करने, और स्मार्ट जवाब देने जैसी सुविधाओं के लिए किया जा सकता है.
आम तौर पर, इन मॉडल को डिवाइस पर लागू करने के लिए ऑप्टिमाइज़ किया जाता है. इससे, कम इंतज़ार, ऑफ़लाइन फ़ंक्शन, और उपयोगकर्ता की निजता को बेहतर बनाने में मदद मिलती है. ऐसा इसलिए होता है, क्योंकि डेटा अक्सर डिवाइस पर ही सेव रहता है. अपने मोबाइल ऐप्लिकेशन में, मशीन लर्निंग की सुविधाओं को तुरंत जोड़ने के लिए ML Kit चुनें. इसके लिए, आपको मॉडल को ट्रेन करने या जनरेटिव आउटपुट की ज़रूरत नहीं पड़ेगी. यह Google के ऑप्टिमाइज़ किए गए मॉडल का इस्तेमाल करके या कस्टम TensorFlow Lite मॉडल डिप्लॉय करके, ऐप्लिकेशन को "स्मार्ट" सुविधाओं के साथ बेहतर बनाने के लिए सबसे सही है.
ML Kit के डेवलपर पेज पर जाकर, ज़्यादा जानकारी देने वाली हमारी गाइड और दस्तावेज़ देखें.
LiteRT की मदद से, पसंद के मुताबिक मशीन लर्निंग मॉडल डिप्लॉय करना
ज़्यादा कंट्रोल पाने या अपने मशीन लर्निंग मॉडल डिप्लॉय करने के लिए, LiteRT और Google Play services पर बनाए गए कस्टम मशीन लर्निंग स्टैक का इस्तेमाल करें. यह स्टैक, बेहतर परफ़ॉर्मेंस वाली एमएल सुविधाओं को डिप्लॉय करने के लिए ज़रूरी चीज़ें उपलब्ध कराता है. LiteRT एक टूलकिट है, जिसे संसाधनों की कमी वाले मोबाइल, एम्बेड किए गए, और एज डिवाइसों पर TensorFlow मॉडल को बेहतर तरीके से चलाने के लिए ऑप्टिमाइज़ किया गया है. इससे, आपको बहुत छोटे और तेज़ मॉडल चलाने की सुविधा मिलती है. ये मॉडल कम मेमोरी, पावर, और स्टोरेज का इस्तेमाल करते हैं. LiteRT रनटाइम, एज डिवाइसों पर मौजूद अलग-अलग हार्डवेयर एक्सेलरेटर (GPUs, DSPs, NPUs) के लिए काफ़ी ऑप्टिमाइज़ किया गया है. इससे कम इंतज़ार के साथ अनुमान लगाने की सुविधा मिलती है.
जब आपको सीमित कंप्यूटिंग पावर या बैटरी लाइफ़ वाले डिवाइसों पर, ट्रेन किए गए एमएल मॉडल (आम तौर पर, कैटगरी तय करने, रेग्रेसन या पहचान करने के लिए) को बेहतर तरीके से डिप्लॉय करना हो, तो LiteRT चुनें. जैसे, स्मार्टफ़ोन, IoT डिवाइस या माइक्रोकंट्रोलर. यह एज पर कस्टम या स्टैंडर्ड, अनुमानित मॉडल डिप्लॉय करने का सबसे अच्छा तरीका है. एज पर, तेज़ी और संसाधनों के संरक्षण का फ़ायदा मिलता है.
LiteRT की मदद से एमएल को डिप्लॉय करने के बारे में ज़्यादा जानें.
MediaPipe की मदद से, अपने ऐप्लिकेशन में रीयल-टाइम पर जानकारी देने की सुविधा जोड़ना
MediaPipe, ओपन सोर्स, क्रॉस-प्लैटफ़ॉर्म, और पसंद के मुताबिक बनाए जा सकने वाले मशीन लर्निंग के समाधान उपलब्ध कराता है. ये समाधान, लाइव और स्ट्रीमिंग मीडिया के लिए डिज़ाइन किए गए हैं. हाथ की गति ट्रैक करने, पोज़ का अनुमान लगाने, चेहरे के मेश का पता लगाने, और ऑब्जेक्ट का पता लगाने जैसे मुश्किल कामों के लिए, पहले से बने और ऑप्टिमाइज़ किए गए टूल का फ़ायदा पाएं. इनकी मदद से, मोबाइल डिवाइसों पर भी रीयल-टाइम में बेहतर परफ़ॉर्मेंस के साथ इंटरैक्ट किया जा सकता है.
MediaPipe की ग्राफ़-आधारित पाइपलाइन को अपनी ज़रूरत के मुताबिक बनाया जा सकता है. इससे, Android, iOS, वेब, डेस्कटॉप, और बैकएंड ऐप्लिकेशन के लिए समाधान तैयार किए जा सकते हैं. MediaPipe का इस्तेमाल तब करें, जब आपके ऐप्लिकेशन को सेंसर के लाइव डेटा, खास तौर पर वीडियो स्ट्रीम को तुरंत समझने और उस पर तुरंत कार्रवाई करने की ज़रूरत हो. इनका इस्तेमाल, जेस्चर की पहचान करने, एआर इफ़ेक्ट, फ़िटनेस ट्रैकिंग या अवतार को कंट्रोल करने जैसे कामों के लिए किया जाता है. ये सभी काम, इनपुट का विश्लेषण करने और उसका मतलब समझने पर फ़ोकस करते हैं.
इन समस्याओं के समाधानों के बारे में जानें और MediaPipe का इस्तेमाल करके, इनका समाधान करना शुरू करें.
कोई तरीका चुनें: डिवाइस पर या क्लाउड में
अपने Android ऐप्लिकेशन में एआई/एमएल की सुविधाओं को इंटिग्रेट करते समय, यह तय करना ज़रूरी है कि डेटा को सीधे उपयोगकर्ता के डिवाइस पर प्रोसेस करना है या क्लाउड में. ML Kit, Gemini Nano, और TensorFlow Lite जैसे टूल, डिवाइस पर काम करने वाली सुविधाओं को चालू करते हैं. वहीं, Firebase के एआई लॉजिक वाले Gemini क्लाउड एपीआई, क्लाउड पर बेहतर प्रोसेसिंग की सुविधा दे सकते हैं. सही विकल्प चुनना, आपके इस्तेमाल के उदाहरण और उपयोगकर्ता की ज़रूरतों के हिसाब से कई बातों पर निर्भर करता है.
फ़ैसला लेने के लिए, इन बातों का ध्यान रखें:
- कनेक्टिविटी और ऑफ़लाइन फ़ंक्शन: अगर आपके ऐप्लिकेशन को इंटरनेट कनेक्शन के बिना काम करना है, तो Gemini Nano जैसे डिवाइस पर मौजूद समाधान सबसे सही हैं. क्लाउड पर प्रोसेस करने के लिए, नेटवर्क का ऐक्सेस होना ज़रूरी है.
- डेटा की निजता: जिन इस्तेमाल के उदाहरणों में निजता की वजह से, उपयोगकर्ता का डेटा डिवाइस पर ही रहना चाहिए उनके लिए, डिवाइस पर डेटा प्रोसेस करने की सुविधा काफ़ी फ़ायदेमंद है. इसकी मदद से, संवेदनशील जानकारी को डिवाइस पर ही सेव किया जा सकता है.
- मॉडल की क्षमताएं और टास्क की जटिलता: क्लाउड-आधारित मॉडल अक्सर ज़्यादा बड़े, ज़्यादा बेहतर, और ज़्यादा बार अपडेट किए जाते हैं. इस वजह से, ये एआई के ज़्यादा मुश्किल टास्क के लिए या बड़े इनपुट को प्रोसेस करने के लिए सही होते हैं. इनमें बेहतर आउटपुट क्वालिटी और ज़्यादा सुविधाएं मिलती हैं. डिवाइस पर मौजूद मॉडल, आसान कामों को बेहतर तरीके से मैनेज कर सकते हैं.
- लागत से जुड़ी बातें: Cloud API के लिए आम तौर पर, इस्तेमाल के आधार पर कीमत तय की जाती है. इसका मतलब है कि अनुमान की संख्या या प्रोसेस किए गए डेटा की मात्रा के हिसाब से लागत बढ़ सकती है. आम तौर पर, हर बार इस्तेमाल करने पर सीधे तौर पर कोई शुल्क नहीं लिया जाता. हालांकि, डेवलपमेंट के लिए शुल्क देना पड़ता है. साथ ही, इससे डिवाइस के संसाधनों पर असर पड़ सकता है. जैसे, बैटरी लाइफ़ और पूरी परफ़ॉर्मेंस.
- डिवाइस के संसाधन: डिवाइस पर मौजूद मॉडल, उपयोगकर्ता के डिवाइस का स्टोरेज इस्तेमाल करते हैं. यह भी ज़रूरी है कि आप यह जानें कि आपके डिवाइस पर, Gemini Nano जैसे कुछ खास मॉडल काम करते हैं या नहीं. इससे यह पक्का किया जा सकता है कि आपकी टारगेट ऑडियंस इन सुविधाओं का इस्तेमाल कर सके.
- बेहतर बनाने और पसंद के मुताबिक बनाने की सुविधा: अगर आपको अपने इस्तेमाल के उदाहरण के लिए मॉडल को बेहतर बनाने की ज़रूरत है, तो क्लाउड-आधारित समाधान आम तौर पर ज़्यादा सुविधाएं देते हैं. साथ ही, इन्हें पसंद के मुताबिक बनाने के लिए ज़्यादा विकल्प भी उपलब्ध कराते हैं.
- अलग-अलग प्लैटफ़ॉर्म पर एक जैसी सुविधाएं: अगर आपको iOS के साथ-साथ कई प्लैटफ़ॉर्म पर एआई की सुविधाएं एक जैसी चाहिए, तो ध्यान रखें कि हो सकता है कि Gemini Nano जैसे कुछ डिवाइस पर काम करने वाले समाधान, अभी तक सभी ऑपरेटिंग सिस्टम पर उपलब्ध न हों.
अपने इस्तेमाल के उदाहरण की ज़रूरी शर्तों और उपलब्ध विकल्पों को ध्यान से देखकर, अपने Android ऐप्लिकेशन को बेहतर बनाने और उपयोगकर्ताओं को बेहतर और उनकी दिलचस्पी के मुताबिक अनुभव देने के लिए, एआई/एमएल का सही समाधान पाया जा सकता है.
एआई/एमएल सलूशन के बारे में जानकारी
इस समाधान गाइड की मदद से, अपने Android प्रोजेक्ट में एआई/एमएल टेक्नोलॉजी को इंटिग्रेट करने के लिए, सही डेवलपर टूल की पहचान की जा सकती है.
एआई की सुविधा का मुख्य लक्ष्य क्या है?
- A) नया कॉन्टेंट (टेक्स्ट, इमेज की जानकारी) जनरेट करना या टेक्स्ट को आसानी से प्रोसेस करना (खास जानकारी देना, प्रूफ़रीडिंग करना या टेक्स्ट को फिर से लिखना)? → जनरेटिव एआई पर जाएं
- B) क्या आपको अनुमान लगाने, कैटगरी तय करने, पहचानने, पैटर्न को समझने या रीयल-टाइम स्ट्रीम (जैसे, वीडियो/ऑडियो) को प्रोसेस करने के लिए, मौजूदा डेटा/इनपुट का विश्लेषण करना है? → ट्रेडिशनल एमएल और परसेप्शन पर जाएं
पारंपरिक एमएल और परसेप्शन
आपको पूरी तरह से नया आउटपुट जनरेट करने के बजाय, इनपुट का विश्लेषण करना होगा, सुविधाओं की पहचान करनी होगी या सीखे गए पैटर्न के आधार पर अनुमान लगाने होंगे.
आपको कौनसा खास काम करना है?
- A) क्या आपको पहले से तैयार, मोबाइल के लिए सामान्य ML सुविधाओं को तुरंत इंटिग्रेट करने की ज़रूरत है?
(उदाहरण के लिए, बारकोड स्कैनिंग, टेक्स्ट की पहचान (ओसीआर), चेहरे की पहचान, इमेज लेबल करना, ऑब्जेक्ट की पहचान करना और ट्रैक करना, भाषा आईडी, बुनियादी स्मार्ट जवाब)
- → इस्तेमाल करें: ML Kit (ट्रेडिशनल एपीआई)
- क्यों: मोबाइल पर पहले से मौजूद एमएल टास्क के लिए, सबसे आसान इंटिग्रेशन. आम तौर पर, इसे डिवाइस पर इस्तेमाल करने के लिए ऑप्टिमाइज़ किया जाता है. जैसे, कम इंतज़ार, ऑफ़लाइन, निजता.
- B) क्या आपको रीयल-टाइम स्ट्रीमिंग डेटा (जैसे, वीडियो या ऑडियो) को प्रोसेस करना है, ताकि आपके मॉडल को किसी ऑब्जेक्ट के बारे में जानकारी मिल सके? (उदाहरण के लिए, हाथ की ट्रैकिंग, पोज़ का अनुमान लगाना, चेहरे की मेश, वीडियो में रीयल-टाइम ऑब्जेक्ट का पता लगाना, और सेगमेंटेशन)
- → इस्तेमाल करें: MediaPipe
- क्यों: यह फ़्रेमवर्क, अलग-अलग प्लैटफ़ॉर्म पर बेहतर परफ़ॉर्मेंस और रीयल-टाइम परसेप्शन पाइपलाइन के लिए खास तौर पर बनाया गया है.
- C) क्या आपको डिवाइस पर पसंद के मुताबिक बनाए गए मशीन लर्निंग मॉडल को बेहतर तरीके से चलाना है, जैसे कि अलग-अलग कैटगरी में बांटने, रिग्रेशन, और पहचान करने के लिए? क्या आपको परफ़ॉर्मेंस और कम संसाधनों के इस्तेमाल को प्राथमिकता देनी है?
- → इस्तेमाल करें: LiteRT (TensorFlow Lite रनटाइम)
- क्यों: मोबाइल और एज डिवाइसों पर कस्टम मॉडल को बेहतर तरीके से डिप्लॉय करने के लिए ऑप्टिमाइज़ किया गया रनटाइम (छोटा साइज़, तेज़ अनुमान, हार्डवेयर ऐक्सेलरेशन).
- D) क्या आपको किसी खास टास्क के लिए, अपने कस्टम एमएल मॉडल को ट्रेनिंग देनी है?
- → इस्तेमाल करें: LiteRT (TensorFlow Lite रनटाइम) + कस्टम मॉडल ट्रेनिंग
- क्यों: मोबाइल और एज डिवाइसों के लिए ऑप्टिमाइज़ किए गए कस्टम मॉडल को ट्रेन करने और डिप्लॉय करने के लिए टूल उपलब्ध कराता है.
- E) क्या आपको कॉन्टेंट को बेहतर तरीके से कैटगरी में बांटने, भावनाओं का विश्लेषण करने या कई भाषाओं में बारीकी से अनुवाद करने की ज़रूरत है?
- देखें कि क्या पारंपरिक एमएल मॉडल (LiteRT या क्लाउड का इस्तेमाल करके डिप्लॉय किए जा सकते हैं) काम के हैं या बेहतर एनएलयू के लिए जनरेटिव मॉडल की ज़रूरत है (शुरू करने के लिए वापस जाएं, A चुनें). क्लाउड पर आधारित कैटगरी, सेंटीमेंट या अनुवाद के लिए:
- → इस्तेमाल करें: क्लाउड-आधारित समाधान (उदाहरण के लिए, Google Cloud Natural Language API, Google Cloud Translation API, जिसे कस्टम बैकएंड या Vertex AI का इस्तेमाल करके ऐक्सेस किया जा सकता है). (अगर ऑफ़लाइन या निजता को प्राथमिकता दी जा रही है, तो डिवाइस पर मौजूद विकल्पों की तुलना में कम प्राथमिकता).
- क्यों: क्लाउड समाधान, बेहतर मॉडल और ज़्यादा भाषाओं में सहायता देते हैं. हालांकि, इसके लिए इंटरनेट कनेक्शन की ज़रूरत होती है और इसके लिए शुल्क भी देना पड़ सकता है.
जनरेटिव एआई
आपको नया कॉन्टेंट बनाना, खास जानकारी देना, फिर से लिखना या समझने या इंटरैक्शन से जुड़े जटिल टास्क पूरे करने होंगे.
क्या आपको एआई को ऑफ़लाइन काम करने की ज़रूरत है, ज़्यादा से ज़्यादा डेटा की निजता (उपयोगकर्ता का डेटा डिवाइस पर सेव रखना) चाहिए या आपको क्लाउड पर अनुमान लगाने की लागत से बचना है?
- A) हां, ऑफ़लाइन, ज़्यादा से ज़्यादा निजता या क्लाउड के लिए कोई शुल्क नहीं देना ज़रूरी है.
- → उपयोगकर्ता के डिवाइस पर जनरेटिव एआई पर जाएं
- B) नहीं, कनेक्शन उपलब्ध है और उसे स्वीकार किया जा सकता है. क्लाउड की सुविधाएं और स्केलेबिलिटी ज़्यादा अहम है या कुछ खास सुविधाओं के लिए क्लाउड की ज़रूरत है.
- → क्लाउड जनरेटिव एआई पर जाएं
डिवाइस पर जनरेटिव एआई (Gemini Nano का इस्तेमाल करके)
चेतावनियां: इसके लिए, Android डिवाइसों का इस्तेमाल करना ज़रूरी है. यह iOS पर सीमित तौर पर काम करता है. साथ ही, इसमें टोकन की सीमाएं भी तय होती हैं. जैसे, 1024 प्रॉम्प्ट, 4096 कॉन्टेक्स्ट. इसके अलावा, ये मॉडल, क्लाउड पर मौजूद मॉडल के मुकाबले कम बेहतर होते हैं.
क्या आपके इस्तेमाल का उदाहरण, खास तौर पर ML Kit के GenAI एपीआई के ज़रिए सुलझाए जाने वाले टास्क से मेल खाता है? (टेक्स्ट की खास जानकारी दें, टेक्स्ट की प्रूफ़रीडिंग करें, टेक्स्ट फिर से लिखें, इमेज की जानकारी जनरेट करें) और क्या टोकन की सीमाएं काफ़ी हैं?
- A) हां:
- → इस्तेमाल करें: ML Kit GenAI APIs (Gemini Nano की मदद से काम करते हैं)
- क्यों: डिवाइस पर जनरेटिव एआई के सामान्य और खास टास्क को इंटिग्रेट करने का सबसे आसान तरीका. यह डिवाइस पर सबसे ज़्यादा प्राथमिकता वाला समाधान है.
- B) नहीं (आपको MLKit GenAI API के अलावा, ज़्यादा सुविधाओं वाले प्रॉम्प्ट या टास्क की ज़रूरत है. हालांकि, आपको Nano की सुविधाओं के मुताबिक, डिवाइस पर ही इन टास्क को पूरा करना है):
- → इस्तेमाल करें: Gemini Nano का एक्सपेरिमेंटल ऐक्सेस
- क्यों: यह सुविधा, डिवाइस पर खुले तौर पर सवाल पूछने की सुविधा देती है. इससे, स्ट्रक्चर्ड ML Kit GenAI API के अलावा, अन्य यूज़ केस के लिए भी सवाल पूछे जा सकते हैं. हालांकि, यह सुविधा Nano की सीमाओं के हिसाब से काम करती है.
क्लाउड जनरेटिव एआई
इसमें ज़्यादा बेहतर मॉडल का इस्तेमाल किया जाता है. साथ ही, इसके लिए इंटरनेट कनेक्शन की ज़रूरत होती है. आम तौर पर, इसमें अनुमान लगाने की लागत शामिल होती है. यह मॉडल, ज़्यादा डिवाइसों पर काम करता है. साथ ही, Android और iOS जैसे अलग-अलग प्लैटफ़ॉर्म पर एक जैसी परफ़ॉर्मेंस देता है.
आपकी प्राथमिकता क्या है: Firebase में आसानी से इंटिग्रेट करना या ज़्यादा सुविधा/कंट्रोल?
- A) क्या आपको आसान इंटिग्रेशन और मैनेज किए जा सकने वाले एपीआई का इस्तेमाल करना है और क्या हो सकता है कि आपने पहले से ही Firebase का इस्तेमाल किया हो?
- → इस्तेमाल करें: Firebase AI Logic SDK → Firebase AI Logic पर जाएं
- B) क्या आपको ज़्यादा सुविधाओं, अलग-अलग तरह के मॉडल (इनमें तीसरे पक्ष/कस्टम मॉडल भी शामिल हैं) के ऐक्सेस, बेहतर तरीके से ट्यून करने, और अपने बैकएंड इंटिग्रेशन (ज़्यादा मुश्किल) को मैनेज करने की ज़रूरत है?
- → इस्तेमाल करें: कस्टम क्लाउड बैकएंड (Google Cloud Platform का इस्तेमाल करके) के साथ Gemini API
- क्यों: यह सबसे ज़्यादा कंट्रोल, मॉडल का सबसे ज़्यादा ऐक्सेस, और कस्टम ट्रेनिंग के विकल्प देता है. हालांकि, इसके लिए बैकएंड डेवलपमेंट में काफ़ी मेहनत करनी पड़ती है. यह सुविधा, जटिल, बड़े पैमाने पर या ज़्यादा पसंद के मुताबिक बनाने की ज़रूरतों के लिए सही है.
(आपने Firebase AI Logic SDK टूल चुना है) आपको किस तरह के जनरेटिव टास्क और परफ़ॉर्मेंस प्रोफ़ाइल की ज़रूरत है?
- A) क्या आपको परफ़ॉर्मेंस और लागत के बीच संतुलन चाहिए, जो सामान्य टेक्स्ट जनरेशन, खास जानकारी देने या चैट ऐप्लिकेशन के लिए सही हो, जहां स्पीड अहम है?
- → इस्तेमाल करें: Gemini Flash के साथ Firebase AI Logic SDK टूल
- क्यों: Vertex AI के मैनेज किए जा रहे एनवायरमेंट में, तेज़ी और बेहतर परफ़ॉर्मेंस के लिए ऑप्टिमाइज़ किया गया.
- B) क्या आपको बेहतर क्वालिटी और मुश्किल टेक्स्ट जनरेट करने, रीज़निंग, बेहतर एनएलयू या निर्देशों का पालन करने की सुविधा चाहिए?
- → इस्तेमाल करें: Gemini Pro के साथ Firebase AI Logic SDK टूल
- क्यों: ज़्यादा बेहतर टेक्स्ट मॉडल, जो Firebase के ज़रिए ऐक्सेस किया जाता है. यह मॉडल, मुश्किल टास्क को पूरा करने में मदद करता है.
- C) क्या आपको टेक्स्ट प्रॉम्प्ट के आधार पर, इमेज जनरेट करने, इमेज को बेहतर तरीके से समझने या उसमें बदलाव करने की बेहतर सुविधा चाहिए?
- → इस्तेमाल करें: Imagen 3 के साथ Firebase AI Logic SDK टूल
- क्यों: मैनेज किए जा रहे Firebase एनवायरमेंट का इस्तेमाल करके ऐक्सेस किया जाने वाला, इमेज जनरेट करने वाला सबसे आधुनिक मॉडल.