এই নির্দেশিকাটি আপনার অ্যাপ্লিকেশনগুলিতে Google-এর জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (AI/ML) সমাধানগুলিকে একীভূত করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে। এটি আপনাকে উপলব্ধ বিভিন্ন কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং সমাধানগুলি নেভিগেট করতে এবং আপনার প্রয়োজন অনুসারে সবচেয়ে উপযুক্ত একটি বেছে নিতে সহায়তা করার জন্য নির্দেশিকা প্রদান করে। এই নথির লক্ষ্য হল আপনার চাহিদা এবং ব্যবহারের ক্ষেত্রে মনোযোগ দিয়ে কোন টুলটি ব্যবহার করবেন এবং কেন তা নির্ধারণ করতে আপনাকে সহায়তা করা।
আপনার নির্দিষ্ট প্রয়োজনীয়তার জন্য সবচেয়ে উপযুক্ত AI/ML সমাধান নির্বাচন করতে আপনাকে সহায়তা করার জন্য, এই নথিতে একটি সমাধান নির্দেশিকা অন্তর্ভুক্ত রয়েছে । আপনার প্রকল্পের লক্ষ্য এবং সীমাবদ্ধতা সম্পর্কে একাধিক প্রশ্নের উত্তর দিয়ে, নির্দেশিকাটি আপনাকে সবচেয়ে উপযুক্ত সরঞ্জাম এবং প্রযুক্তির দিকে পরিচালিত করে।
এই নির্দেশিকাটি আপনাকে আপনার অ্যাপের জন্য সেরা AI সমাধান বেছে নিতে সাহায্য করবে। এই বিষয়গুলি বিবেচনা করুন: ডেটার ধরণ (টেক্সট, ছবি, অডিও, ভিডিও), কাজের জটিলতা (বিশেষ জ্ঞানের প্রয়োজন এমন জটিল কাজের সহজ সারসংক্ষেপ), এবং ডেটার আকার (বড় নথির তুলনায় ছোট ইনপুট)। এটি আপনাকে আপনার ডিভাইসে Gemini Nano ব্যবহার করতে বা Firebase-এর ক্লাউড-ভিত্তিক AI (Gemini Flash, Gemini Pro, অথবা Imagen) ব্যবহার করতে সাহায্য করবে।
ডিভাইসে থাকা অনুমানের শক্তি ব্যবহার করুন
যখন আপনি আপনার অ্যান্ড্রয়েড অ্যাপে AI এবং ML বৈশিষ্ট্যগুলি যোগ করছেন, তখন আপনি সেগুলি সরবরাহ করার বিভিন্ন উপায় বেছে নিতে পারেন - হয় ডিভাইসে অথবা ক্লাউড ব্যবহার করে।
জেমিনি ন্যানোর মতো অন-ডিভাইস সমাধানগুলি কোনও অতিরিক্ত খরচ ছাড়াই ফলাফল প্রদান করে, ব্যবহারকারীর গোপনীয়তা উন্নত করে এবং নির্ভরযোগ্য অফলাইন কার্যকারিতা প্রদান করে কারণ ইনপুট ডেটা স্থানীয়ভাবে প্রক্রিয়াজাত করা হয়। এই সুবিধাগুলি নির্দিষ্ট ব্যবহারের ক্ষেত্রে গুরুত্বপূর্ণ হতে পারে, যেমন বার্তা সারসংক্ষেপ, সঠিক সমাধান নির্বাচন করার সময় অন-ডিভাইসকে অগ্রাধিকার দেওয়া।
জেমিনি ন্যানো আপনাকে অ্যান্ড্রয়েড-চালিত ডিভাইসে সরাসরি ইনফারেন্স চালাতে দেয়। আপনি যদি টেক্সট, ছবি বা অডিও নিয়ে কাজ করেন, তাহলে আউট-অফ-দ্য-বক্স সমাধানের জন্য ML Kit-এর GenAI API দিয়ে শুরু করুন। ML Kit GenAI API গুলি জেমিনি ন্যানো দ্বারা চালিত এবং নির্দিষ্ট অন-ডিভাইস কাজের জন্য সূক্ষ্মভাবে সুরক্ষিত। ML Kit GenAI API গুলি তাদের উচ্চ-স্তরের ইন্টারফেস এবং স্কেলেবিলিটির কারণে আপনার অ্যাপগুলির জন্য উৎপাদনের জন্য একটি আদর্শ পথ। এই API গুলি আপনাকে টেক্সট সারসংক্ষেপ, প্রুফরিড এবং পুনর্লিখন , চিত্র বিবরণ তৈরি এবং বক্তৃতা স্বীকৃতি সম্পাদনের জন্য ব্যবহার-কেস বাস্তবায়ন করতে দেয়।
ML Kit GenAI API গুলি দ্বারা প্রদত্ত মৌলিক ব্যবহারের ক্ষেত্রের বাইরে যেতে, Gemini Nano Experimental Access বিবেচনা করুন। Gemini Nano Experimental Access আপনাকে Gemini Nano এর সাথে কাস্টম প্রম্পটিংয়ে আরও সরাসরি অ্যাক্সেস দেয়।
ঐতিহ্যবাহী মেশিন লার্নিং কাজের জন্য, আপনার নিজস্ব কাস্টম মডেল বাস্তবায়নের নমনীয়তা রয়েছে। আপনার ডেভেলপমেন্ট প্রক্রিয়াকে সহজতর করার জন্য আমরা ML Kit , MediaPipe , LiterRT এবং Google Play ডেলিভারি বৈশিষ্ট্যের মতো শক্তিশালী সরঞ্জাম সরবরাহ করি।
যেসব অ্যাপ্লিকেশনের জন্য অত্যন্ত বিশেষায়িত সমাধানের প্রয়োজন হয়, আপনি আপনার নিজস্ব কাস্টম মডেল ব্যবহার করতে পারেন, যেমন জেমা অথবা আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে তৈরি অন্য কোনও মডেল। LiterRT দিয়ে ব্যবহারকারীর ডিভাইসে সরাসরি আপনার মডেলটি চালান, যা অপ্টিমাইজড পারফরম্যান্সের জন্য পূর্ব-পরিকল্পিত মডেল আর্কিটেকচার সরবরাহ করে।
আপনি অন-ডিভাইস এবং ক্লাউড মডেল উভয়কেই কাজে লাগিয়ে একটি হাইব্রিড সমাধান তৈরির কথাও বিবেচনা করতে পারেন।
মোবাইল অ্যাপগুলি সাধারণত ছোট টেক্সট ডেটার জন্য স্থানীয় মডেল ব্যবহার করে, যেমন চ্যাট কথোপকথন বা ব্লগ নিবন্ধ। তবে, বৃহত্তর ডেটা উৎসের জন্য (যেমন PDF) অথবা যখন অতিরিক্ত জ্ঞানের প্রয়োজন হয়, তখন আরও শক্তিশালী জেমিনি মডেল সহ একটি ক্লাউড-ভিত্তিক সমাধান প্রয়োজন হতে পারে।
উন্নত জেমিনি মডেলগুলিকে একীভূত করুন
অ্যান্ড্রয়েড ডেভেলপাররা ফায়ারবেস এআই লজিক এসডিকে ব্যবহার করে তাদের অ্যাপ্লিকেশনগুলিতে শক্তিশালী জেমিনি প্রো, জেমিনি ফ্ল্যাশ এবং ইমেজেন মডেল সহ গুগলের উন্নত জেনারেটিভ এআই ক্ষমতাগুলিকে একীভূত করতে পারে। এই এসডিকে বৃহত্তর ডেটা চাহিদার জন্য ডিজাইন করা হয়েছে এবং এই উচ্চ-কার্যক্ষমতাসম্পন্ন, মাল্টিমোডাল এআই মডেলগুলিতে অ্যাক্সেস সক্ষম করে বর্ধিত ক্ষমতা এবং অভিযোজনযোগ্যতা প্রদান করে।
Firebase AI Logic SDK এর সাহায্যে, ডেভেলপাররা ন্যূনতম প্রচেষ্টায় Google এর AI মডেলগুলিতে ক্লায়েন্ট-সাইড কল করতে পারে। Gemini Pro এবং Gemini Flash এর মতো এই মডেলগুলি ক্লাউডে ইনফারেন্স চালায় এবং Android অ্যাপগুলিকে ছবি, অডিও, ভিডিও এবং টেক্সট সহ বিভিন্ন ইনপুট প্রক্রিয়া করার ক্ষমতা দেয়। Gemini Pro জটিল সমস্যাগুলির উপর যুক্তি এবং বিস্তৃত ডেটা বিশ্লেষণে পারদর্শী, যেখানে Gemini Flash সিরিজটি উচ্চতর গতি এবং বেশিরভাগ কাজের জন্য যথেষ্ট বড় একটি প্রসঙ্গ উইন্ডো প্রদান করে।
ঐতিহ্যবাহী মেশিন লার্নিং কখন ব্যবহার করবেন
যদিও জেনারেটিভ এআই টেক্সট, ছবি এবং কোডের মতো কন্টেন্ট তৈরি এবং সম্পাদনা করার জন্য কার্যকর, তবুও বাস্তব জগতের অনেক সমস্যা ঐতিহ্যবাহী মেশিন লার্নিং (এমএল) কৌশল ব্যবহার করে আরও ভালোভাবে সমাধান করা যায়। এই প্রতিষ্ঠিত পদ্ধতিগুলি পূর্বাভাস, শ্রেণীবিভাগ, সনাক্তকরণ এবং বিদ্যমান ডেটার মধ্যে প্যাটার্ন বোঝার ক্ষেত্রে উৎকৃষ্ট, প্রায়শই বেশি দক্ষতা, কম গণনামূলক খরচ এবং জেনারেটিভ মডেলের তুলনায় সহজ বাস্তবায়নের সাথে।
ঐতিহ্যবাহী ML ফ্রেমওয়ার্কগুলি সম্পূর্ণ নতুন আউটপুট তৈরি করার পরিবর্তে ইনপুট বিশ্লেষণ, বৈশিষ্ট্য সনাক্তকরণ, বা শেখা প্যাটার্নের উপর ভিত্তি করে ভবিষ্যদ্বাণী করার উপর দৃষ্টি নিবদ্ধ করে এমন অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী, অপ্টিমাইজড এবং প্রায়শই আরও ব্যবহারিক সমাধান প্রদান করে। Google এর ML Kit, LiterRT, এবং MediaPipe এর মতো সরঞ্জামগুলি এই অ-উত্পাদনশীল ব্যবহারের ক্ষেত্রে, বিশেষ করে মোবাইল এবং এজ কম্পিউটিং পরিবেশে, তৈরি করা শক্তিশালী ক্ষমতা প্রদান করে।
ML Kit দিয়ে আপনার মেশিন লার্নিং ইন্টিগ্রেশন শুরু করুন
ML Kit সাধারণ মেশিন লার্নিং কাজের জন্য উৎপাদন-প্রস্তুত, মোবাইল-অপ্টিমাইজড সমাধান প্রদান করে, যার জন্য পূর্বে ML দক্ষতার প্রয়োজন হয় না। এই সহজে ব্যবহারযোগ্য মোবাইল SDK আপনার Android এবং iOS অ্যাপগুলিতে সরাসরি Google এর ML দক্ষতা নিয়ে আসে, যা আপনাকে মডেল প্রশিক্ষণ এবং অপ্টিমাইজেশনের পরিবর্তে বৈশিষ্ট্য বিকাশের উপর মনোযোগ দেওয়ার সুযোগ দেয়। ML Kit বারকোড স্ক্যানিং, টেক্সট রিকগনিশন (OCR), ফেস ডিটেকশন, ইমেজ লেবেলিং, অবজেক্ট ডিটেকশন এবং ট্র্যাকিং, ভাষা শনাক্তকরণ এবং স্মার্ট রিপ্লাইয়ের মতো বৈশিষ্ট্যগুলির জন্য পূর্বনির্ধারিত API এবং ব্যবহারের জন্য প্রস্তুত মডেল সরবরাহ করে।
এই মডেলগুলি সাধারণত ডিভাইসে কার্যকর করার জন্য অপ্টিমাইজ করা হয়, যা কম লেটেন্সি, অফলাইন কার্যকারিতা এবং উন্নত ব্যবহারকারীর গোপনীয়তা নিশ্চিত করে কারণ ডেটা প্রায়শই ডিভাইসে থাকে। মডেলগুলিকে প্রশিক্ষণ বা জেনারেটিভ আউটপুটের প্রয়োজন ছাড়াই আপনার মোবাইল অ্যাপে দ্রুত প্রতিষ্ঠিত ML বৈশিষ্ট্যগুলি যুক্ত করতে ML Kit বেছে নিন। Google এর অপ্টিমাইজড মডেলগুলি ব্যবহার করে বা কাস্টম TensorFlow Lite মডেলগুলি স্থাপন করে "স্মার্ট" ক্ষমতা সহ অ্যাপগুলিকে দক্ষতার সাথে উন্নত করার জন্য এটি আদর্শ।
ML Kit ডেভেলপার সাইটে আমাদের বিস্তৃত নির্দেশিকা এবং ডকুমেন্টেশন দিয়ে শুরু করুন।
LiterRT এর সাথে কাস্টম ML স্থাপনা
আরও বেশি নিয়ন্ত্রণের জন্য অথবা আপনার নিজস্ব ML মডেল স্থাপনের জন্য, LiterRT এবং Google Play পরিষেবাগুলিতে তৈরি একটি কাস্টম ML স্ট্যাক ব্যবহার করুন। এই স্ট্যাকটি উচ্চ-কার্যক্ষমতাসম্পন্ন ML বৈশিষ্ট্য স্থাপনের জন্য প্রয়োজনীয় জিনিসপত্র সরবরাহ করে। LiterRT হল একটি টুলকিট যা TensorFlow মডেলগুলিকে রিসোর্স-সীমাবদ্ধ মোবাইল, এমবেডেড এবং এজ ডিভাইসগুলিতে দক্ষতার সাথে চালানোর জন্য অপ্টিমাইজ করা হয়েছে, যা আপনাকে উল্লেখযোগ্যভাবে ছোট এবং দ্রুত মডেলগুলি চালানোর ক্ষমতা দেয় যা কম মেমরি, শক্তি এবং স্টোরেজ ব্যবহার করে। LiterRT রানটাইম এজ ডিভাইসগুলিতে বিভিন্ন হার্ডওয়্যার অ্যাক্সিলারেটর (GPU, DSP, NPU) এর জন্য অত্যন্ত অপ্টিমাইজ করা হয়েছে, যা কম-লেটেন্সি ইনফারেন্স সক্ষম করে।
স্মার্টফোন, আইওটি ডিভাইস, অথবা মাইক্রোকন্ট্রোলারের মতো সীমিত কম্পিউটেশনাল পাওয়ার বা ব্যাটারি লাইফ সহ ডিভাইসগুলিতে যখন আপনার প্রশিক্ষিত ML মডেলগুলি (সাধারণত শ্রেণীবিভাগ, রিগ্রেশন বা সনাক্তকরণের জন্য) দক্ষতার সাথে স্থাপন করার প্রয়োজন হয়, তখন LiterRT বেছে নিন। গতি এবং সম্পদ সংরক্ষণ সর্বাধিক গুরুত্বপূর্ণ এমন প্রান্তে কাস্টম বা স্ট্যান্ডার্ড ভবিষ্যদ্বাণীমূলক মডেল স্থাপনের জন্য এটি পছন্দের সমাধান।
LiterRT এর মাধ্যমে ML স্থাপনা সম্পর্কে আরও জানুন।
মিডিয়াপাইপের সাহায্যে আপনার অ্যাপগুলিতে রিয়েল-টাইম উপলব্ধি তৈরি করুন
মিডিয়াপাইপ লাইভ এবং স্ট্রিমিং মিডিয়ার জন্য ডিজাইন করা ওপেন-সোর্স, ক্রস-প্ল্যাটফর্ম এবং কাস্টমাইজেবল মেশিন লার্নিং সমাধান প্রদান করে। হ্যান্ড ট্র্যাকিং, পোজ এস্টিমেশন, ফেস মেশ ডিটেকশন এবং অবজেক্ট ডিটেকশনের মতো জটিল কাজের জন্য অপ্টিমাইজড, প্রি-বিল্ট টুল ব্যবহার করে সুবিধা নিন, যা মোবাইল ডিভাইসেও উচ্চ-কার্যক্ষমতা, রিয়েল-টাইম ইন্টারঅ্যাকশন সক্ষম করে।
মিডিয়াপাইপের গ্রাফ-ভিত্তিক পাইপলাইনগুলি অত্যন্ত কাস্টমাইজযোগ্য, যা আপনাকে অ্যান্ড্রয়েড, আইওএস, ওয়েব, ডেস্কটপ এবং ব্যাকএন্ড অ্যাপ্লিকেশনগুলির জন্য সমাধানগুলি তৈরি করতে দেয়। যখন আপনার অ্যাপ্লিকেশনটি লাইভ সেন্সর ডেটা, বিশেষ করে ভিডিও স্ট্রিমগুলি বুঝতে এবং তাৎক্ষণিকভাবে প্রতিক্রিয়া জানাতে চায়, যেমন অঙ্গভঙ্গি স্বীকৃতি, এআর প্রভাব, ফিটনেস ট্র্যাকিং, বা অবতার নিয়ন্ত্রণ - সবকিছুই ইনপুট বিশ্লেষণ এবং ব্যাখ্যা করার উপর দৃষ্টি নিবদ্ধ করে, তখন মিডিয়াপাইপটি বেছে নিন।
সমাধানগুলি অন্বেষণ করুন এবং MediaPipe দিয়ে তৈরি করা শুরু করুন।
একটি পদ্ধতি বেছে নিন: অন-ডিভাইস অথবা ক্লাউড
আপনার অ্যান্ড্রয়েড অ্যাপে AI/ML বৈশিষ্ট্যগুলি একীভূত করার সময়, একটি গুরুত্বপূর্ণ প্রাথমিক সিদ্ধান্ত হল ব্যবহারকারীর ডিভাইসে সরাসরি প্রক্রিয়াকরণ করা হবে নাকি ক্লাউডে। ML Kit, Gemini Nano, এবং TensorFlow Lite এর মতো সরঞ্জামগুলি ডিভাইসে ক্ষমতা সক্ষম করে, অন্যদিকে Firebase AI Logic সহ Gemini cloud API গুলি শক্তিশালী ক্লাউড-ভিত্তিক প্রক্রিয়াকরণ প্রদান করতে পারে। সঠিক পছন্দ করা আপনার ব্যবহারের ক্ষেত্রে এবং ব্যবহারকারীর চাহিদার সাথে সম্পর্কিত বিভিন্ন বিষয়ের উপর নির্ভর করে।
আপনার সিদ্ধান্ত গ্রহণের জন্য নিম্নলিখিত দিকগুলি বিবেচনা করুন:
- সংযোগ এবং অফলাইন কার্যকারিতা : যদি আপনার অ্যাপ্লিকেশনটিকে ইন্টারনেট সংযোগ ছাড়াই নির্ভরযোগ্যভাবে কাজ করতে হয়, তাহলে জেমিনি ন্যানোর মতো অন-ডিভাইস সমাধানগুলি আদর্শ। ক্লাউড-ভিত্তিক প্রক্রিয়াকরণের জন্য, প্রকৃতিগতভাবে, নেটওয়ার্ক অ্যাক্সেস প্রয়োজন।
- ডেটা গোপনীয়তা : যেসব ক্ষেত্রে গোপনীয়তার কারণে ব্যবহারকারীর ডেটা ডিভাইসে থাকা আবশ্যক, সেখানে ডিভাইসে প্রক্রিয়াকরণ সংবেদনশীল তথ্য স্থানীয় রাখার মাধ্যমে একটি স্বতন্ত্র সুবিধা প্রদান করে।
- মডেলের ক্ষমতা এবং কাজের জটিলতা : ক্লাউড-ভিত্তিক মডেলগুলি প্রায়শই উল্লেখযোগ্যভাবে বড়, আরও শক্তিশালী এবং আরও ঘন ঘন আপডেট করা হয়, যা এগুলিকে অত্যন্ত জটিল AI কাজের জন্য বা বৃহত্তর ইনপুট প্রক্রিয়াকরণের জন্য উপযুক্ত করে তোলে যেখানে উচ্চ আউটপুট গুণমান এবং বিস্তৃত ক্ষমতা সর্বাধিক গুরুত্বপূর্ণ। ডিভাইসের মডেলগুলি সহজ কাজগুলি ভালভাবে পরিচালনা করতে পারে।
- খরচ বিবেচনা : ক্লাউড এপিআই সাধারণত ব্যবহার-ভিত্তিক মূল্য নির্ধারণের সাথে জড়িত থাকে, যার অর্থ খরচ অনুমানের সংখ্যা বা প্রক্রিয়াজাত ডেটার পরিমাণের সাথে স্কেল করতে পারে। ডিভাইসে অনুমান, যদিও সাধারণত প্রতি-ব্যবহারের সরাসরি চার্জ থেকে মুক্ত, উন্নয়ন খরচ বহন করে এবং ব্যাটারি লাইফ এবং সামগ্রিক কর্মক্ষমতার মতো ডিভাইসের সংস্থানগুলিকে প্রভাবিত করতে পারে।
- ডিভাইস রিসোর্স : ডিভাইসের ভেতরে থাকা মডেলগুলি ব্যবহারকারীর ডিভাইসের স্টোরেজ স্পেস ব্যবহার করে। আপনার লক্ষ্য দর্শকরা বৈশিষ্ট্যগুলি ব্যবহার করতে পারে তা নিশ্চিত করার জন্য জেমিনি ন্যানোর মতো নির্দিষ্ট ডিভাইসের মডেলগুলির ডিভাইসের সামঞ্জস্যতা সম্পর্কে সচেতন থাকাও গুরুত্বপূর্ণ।
- ফাইন-টিউনিং এবং কাস্টমাইজেশন : যদি আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে মডেলগুলিকে ফাইন-টিউন করার ক্ষমতা প্রয়োজন হয়, তাহলে ক্লাউড-ভিত্তিক সমাধানগুলি সাধারণত আরও বেশি নমনীয়তা এবং কাস্টমাইজেশনের জন্য আরও বিস্তৃত বিকল্প প্রদান করে।
- ক্রস-প্ল্যাটফর্ম সামঞ্জস্য : যদি iOS সহ একাধিক প্ল্যাটফর্মে সামঞ্জস্যপূর্ণ AI বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ হয়, তাহলে মনে রাখবেন যে কিছু অন-ডিভাইস সমাধান, যেমন জেমিনি ন্যানো, এখনও সমস্ত অপারেটিং সিস্টেমে উপলব্ধ নাও হতে পারে।
আপনার ব্যবহারের ক্ষেত্রের প্রয়োজনীয়তা এবং উপলব্ধ বিকল্পগুলি সাবধানতার সাথে বিবেচনা করে, আপনি আপনার অ্যান্ড্রয়েড অ্যাপকে উন্নত করার জন্য এবং আপনার ব্যবহারকারীদের বুদ্ধিমান এবং ব্যক্তিগতকৃত অভিজ্ঞতা প্রদানের জন্য নিখুঁত AI/ML সমাধান খুঁজে পেতে পারেন।
এআই/এমএল সমাধানের নির্দেশিকা
এই সমাধান নির্দেশিকাটি আপনার অ্যান্ড্রয়েড প্রকল্পগুলিতে AI/ML প্রযুক্তি একীভূত করার জন্য উপযুক্ত ডেভেলপার টুলগুলি সনাক্ত করতে সাহায্য করতে পারে।
এআই বৈশিষ্ট্যের প্রাথমিক লক্ষ্য কী?
- ক) নতুন কন্টেন্ট তৈরি করছেন (টেক্সট, ছবির বর্ণনা), নাকি সহজ টেক্সট প্রসেসিং করছেন (সারসংক্ষেপ, প্রুফরিডিং, অথবা টেক্সট পুনর্লিখন)? → জেনারেটিভ এআই- তে যান
- খ) ভবিষ্যদ্বাণী, শ্রেণীবিভাগ, সনাক্তকরণ, প্যাটার্ন বোঝার জন্য অথবা রিয়েল-টাইম স্ট্রিম (যেমন ভিডিও/অডিও) প্রক্রিয়াকরণের জন্য বিদ্যমান ডেটা/ইনপুট বিশ্লেষণ করছেন? → ট্র্যাডিশনাল এমএল এবং পারসেপশনে যান
ঐতিহ্যবাহী এমএল এবং উপলব্ধি
সম্পূর্ণ নতুন আউটপুট তৈরি করার পরিবর্তে, আপনাকে ইনপুট বিশ্লেষণ করতে হবে, বৈশিষ্ট্যগুলি সনাক্ত করতে হবে, অথবা শেখা প্যাটার্নের উপর ভিত্তি করে ভবিষ্যদ্বাণী করতে হবে।
আপনি কোন নির্দিষ্ট কাজটি সম্পাদন করছেন?
- ক) আগে থেকে তৈরি, সাধারণ মোবাইল এমএল বৈশিষ্ট্যগুলির দ্রুত একীকরণ প্রয়োজন? (যেমন, বারকোড স্ক্যানিং, টেক্সট রিকগনিশন (ওসিআর), ফেস ডিটেকশন, ইমেজ লেবেলিং, অবজেক্ট ডিটেকশন এবং ট্র্যাকিং, ল্যাঙ্গুয়েজ আইডি, বেসিক স্মার্ট রিপ্লাই)
- → ব্যবহার: এমএল কিট (ঐতিহ্যবাহী এপিআই)
- কেন : প্রতিষ্ঠিত মোবাইল ML টাস্কের জন্য সবচেয়ে সহজ ইন্টিগ্রেশন, প্রায়শই ডিভাইসে ব্যবহারের জন্য অপ্টিমাইজ করা হয় (কম লেটেন্সি, অফলাইন, গোপনীয়তা)।
- খ) উপলব্ধিমূলক কাজের জন্য রিয়েল-টাইম স্ট্রিমিং ডেটা (যেমন ভিডিও বা অডিও) প্রক্রিয়াকরণের প্রয়োজন? (যেমন, হাত ট্র্যাকিং, ভঙ্গি অনুমান, মুখের জাল, রিয়েল-টাইম বস্তু সনাক্তকরণ এবং ভিডিওতে বিভাজন)
- → ব্যবহার করুন: মিডিয়াপাইপ
- কেন : বিভিন্ন প্ল্যাটফর্মে উচ্চ-কার্যক্ষমতাসম্পন্ন, রিয়েল-টাইম উপলব্ধি পাইপলাইনের জন্য বিশেষায়িত ফ্রেমওয়ার্ক।
- গ) ডিভাইসে আপনার নিজস্ব কাস্টম-প্রশিক্ষিত ML মডেল (যেমন, শ্রেণীবিভাগ, রিগ্রেশন, সনাক্তকরণের জন্য) দক্ষতার সাথে চালানোর প্রয়োজন, কর্মক্ষমতা এবং কম সম্পদের ব্যবহারকে অগ্রাধিকার দিয়ে?
- → ব্যবহার করুন: LiterRT (TensorFlow Lite রানটাইম)
- কেন : মোবাইল এবং এজ ডিভাইসে (ছোট আকার, দ্রুত অনুমান, হার্ডওয়্যার ত্বরণ) দক্ষতার সাথে কাস্টম মডেল স্থাপনের জন্য অপ্টিমাইজ করা রানটাইম।
- ঘ) কোন নির্দিষ্ট কাজের জন্য আপনার নিজস্ব কাস্টম এমএল মডেল প্রশিক্ষণের প্রয়োজন?
- → ব্যবহার করুন: LiterRT (TensorFlow Lite রানটাইম) + কাস্টম মডেল প্রশিক্ষণ
- কেন : মোবাইল এবং এজ ডিভাইসের জন্য অপ্টিমাইজ করা কাস্টম মডেলগুলিকে প্রশিক্ষণ এবং স্থাপনের জন্য সরঞ্জাম সরবরাহ করে।
- ঙ) উন্নত বিষয়বস্তু শ্রেণীবিভাগ, অনুভূতি বিশ্লেষণ, অথবা উচ্চ সূক্ষ্মতা সহ অনেক ভাষার অনুবাদ প্রয়োজন?
- ঐতিহ্যবাহী ML মডেলগুলি (সম্ভাব্যভাবে LiterT বা ক্লাউড ব্যবহার করে মোতায়েন করা) উপযুক্ত কিনা তা বিবেচনা করুন, অথবা উন্নত NLU-এর জন্য জেনারেটিভ মডেলের প্রয়োজন কিনা (Start-এ ফিরে যান, A নির্বাচন করুন)। ক্লাউড-ভিত্তিক শ্রেণীবিভাগ, অনুভূতি বা অনুবাদের জন্য:
- → ব্যবহার: ক্লাউড-ভিত্তিক সমাধান (যেমন, গুগল ক্লাউড ন্যাচারাল ল্যাঙ্গুয়েজ এপিআই , গুগল ক্লাউড ট্রান্সলেশন এপিআই , সম্ভাব্যভাবে কাস্টম ব্যাকএন্ড বা ভার্টেক্স এআই ব্যবহার করে অ্যাক্সেস করা যেতে পারে) । (অফলাইন বা গোপনীয়তা গুরুত্বপূর্ণ হলে অন-ডিভাইস বিকল্পগুলির তুলনায় কম অগ্রাধিকার)।
- কেন : ক্লাউড সলিউশনগুলি শক্তিশালী মডেল এবং বিস্তৃত ভাষা সহায়তা প্রদান করে, তবে সংযোগের প্রয়োজন হয় এবং খরচও হতে পারে।
জেনারেটিভ এআই
আপনাকে নতুন বিষয়বস্তু তৈরি করতে হবে, সারসংক্ষেপ করতে হবে, পুনর্লিখন করতে হবে, অথবা জটিল বোঝাপড়া বা মিথস্ক্রিয়ার কাজ সম্পাদন করতে হবে।
আপনার কি AI অফলাইনে কাজ করা প্রয়োজন, সর্বাধিক ডেটা গোপনীয়তা প্রয়োজন (ব্যবহারকারীর ডেটা ডিভাইসে রাখা), নাকি ক্লাউড ইনফারেন্স খরচ এড়াতে চান?
- ক) হ্যাঁ , অফলাইন, সর্বাধিক গোপনীয়তা, অথবা ক্লাউড ছাড়াই খরচ অত্যন্ত গুরুত্বপূর্ণ।
- → অন-ডিভাইস জেনারেটিভ এআই -তে যান
- খ) না , সংযোগ উপলব্ধ এবং গ্রহণযোগ্য, ক্লাউড ক্ষমতা এবং স্কেলেবিলিটি আরও গুরুত্বপূর্ণ, অথবা নির্দিষ্ট বৈশিষ্ট্যগুলির জন্য ক্লাউড প্রয়োজন।
- → ক্লাউড জেনারেটিভ এআই- তে যান
ডিভাইসে জেনারেটিভ এআই (জেমিনি ন্যানো ব্যবহার করে)
সতর্কতা : সামঞ্জস্যপূর্ণ অ্যান্ড্রয়েড ডিভাইস, সীমিত iOS সমর্থন, নির্দিষ্ট টোকেন সীমা (১০২৪ প্রম্পট, ৪০৯৬ প্রসঙ্গ) প্রয়োজন, মডেলগুলি ক্লাউড প্রতিরূপের তুলনায় কম শক্তিশালী।
আপনার ব্যবহারের ধরণ কি ML Kit GenAI API-এর দ্বারা প্রদত্ত সুবিন্যস্ত কাজগুলির সাথে বিশেষভাবে মেলে? (টেক্সট সারসংক্ষেপ, টেক্সট প্রুফরিড, টেক্সট পুনর্লিখন, ছবির বর্ণনা তৈরি করা, অথবা স্পিচ রিকগনিশন সম্পাদন করা) এবং টোকেন সীমা কি যথেষ্ট?
- ক) হ্যাঁ :
- → ব্যবহার: ML Kit GenAI API গুলি (জেমিনি ন্যানো দ্বারা চালিত)
- কেন : ডিভাইসে নির্দিষ্ট, সাধারণ জেনারেটিভ কাজগুলিকে একীভূত করার সবচেয়ে সহজ উপায়, সর্বোচ্চ অগ্রাধিকার অন-ডিভাইস সমাধান।
- খ) না (আপনার নির্দিষ্ট ML Kit GenAI API-এর বাইরে আরও নমনীয় প্রম্পটিং বা কাজ প্রয়োজন, তবে এখনও ন্যানোর ক্ষমতার মধ্যে ডিভাইসে সম্পাদন করতে চান):
- → ব্যবহার: জেমিনি ন্যানো পরীক্ষামূলক অ্যাক্সেস
- কেন : ন্যানোর সীমাবদ্ধতা মেনে, কাঠামোগত ML Kit GenAI API-এর বাইরে ব্যবহারের ক্ষেত্রে ডিভাইসে ওপেন প্রম্পটিং ক্ষমতা প্রদান করে।
ক্লাউড জেনারেটিভ এআই
আরও শক্তিশালী মডেল ব্যবহার করে, সংযোগের প্রয়োজন হয়, সাধারণত অনুমান খরচ জড়িত থাকে, ডিভাইসের বিস্তৃত নাগাল এবং সহজ ক্রস-প্ল্যাটফর্ম (অ্যান্ড্রয়েড এবং iOS) ধারাবাহিকতা প্রদান করে।
আপনার অগ্রাধিকার কী: ফায়ারবেসের মধ্যে ইন্টিগ্রেশনের সহজতা অথবা সর্বাধিক নমনীয়তা/নিয়ন্ত্রণ?
- ক) সহজ ইন্টিগ্রেশন, একটি পরিচালিত API অভিজ্ঞতা পছন্দ করেন এবং সম্ভবত ইতিমধ্যেই Firebase ব্যবহার করছেন?
- → ব্যবহার করুন: Firebase AI Logic SDK → Firebase AI Logic- এ যান
- খ) সর্বাধিক নমনীয়তা, বিস্তৃত পরিসরের মডেলগুলিতে অ্যাক্সেস (তৃতীয় পক্ষ/কাস্টম সহ), উন্নত সূক্ষ্ম-টিউনিং প্রয়োজন এবং আপনার নিজস্ব ব্যাকএন্ড ইন্টিগ্রেশন (আরও জটিল) পরিচালনা করতে ইচ্ছুক?
- → ব্যবহার করুন: কাস্টম ক্লাউড ব্যাকএন্ড সহ জেমিনি এপিআই (গুগল ক্লাউড প্ল্যাটফর্ম ব্যবহার করে)
- কেন : সর্বাধিক নিয়ন্ত্রণ, বিস্তৃত মডেল অ্যাক্সেস এবং কাস্টম প্রশিক্ষণের বিকল্পগুলি অফার করে তবে উল্লেখযোগ্য ব্যাকএন্ড ডেভেলপমেন্ট প্রচেষ্টার প্রয়োজন। জটিল, বৃহৎ-স্কেল, বা অত্যন্ত কাস্টমাইজড চাহিদার জন্য উপযুক্ত।
( আপনি Firebase AI Logic SDK বেছে নিয়েছেন) আপনার কী ধরণের জেনারেটিভ টাস্ক এবং পারফরম্যান্স প্রোফাইল দরকার?
- ক) কর্মক্ষমতা এবং খরচের ভারসাম্য প্রয়োজন, যা সাধারণ টেক্সট তৈরি, সারসংক্ষেপ, অথবা চ্যাট অ্যাপ্লিকেশনের জন্য উপযুক্ত যেখানে গতি গুরুত্বপূর্ণ?
- → ব্যবহার করুন: জেমিনি ফ্ল্যাশ সহ ফায়ারবেস এআই লজিক এসডিকে
- কেন : Vertex AI পরিচালিত পরিবেশের মধ্যে গতি এবং দক্ষতার জন্য অপ্টিমাইজ করা হয়েছে।
- খ) জটিল টেক্সট তৈরি, যুক্তি, উন্নত NLU, অথবা নির্দেশনা অনুসরণের জন্য উচ্চ মানের এবং ক্ষমতার প্রয়োজন?
- → ব্যবহার করুন: জেমিনি প্রো সহ ফায়ারবেস এআই লজিক এসডিকে
- কেন : জটিল কাজের জন্য আরও শক্তিশালী টেক্সট মডেল, Firebase এর মাধ্যমে অ্যাক্সেস করা যাবে।
- গ) টেক্সট প্রম্পটের উপর ভিত্তি করে অত্যাধুনিক ইমেজ জেনারেশন বা উন্নত ইমেজ বোঝাপড়া বা ম্যানিপুলেশন প্রয়োজন?
- → ব্যবহার করুন: ইমেজেন ৩ সহ ফায়ারবেস এআই লজিক এসডিকে
- কেন : পরিচালিত ফায়ারবেস পরিবেশ ব্যবহার করে অত্যাধুনিক চিত্র তৈরির মডেল অ্যাক্সেস করা হয়েছে।