ค้นหาโซลูชัน AI/ML ที่เหมาะกับแอปของคุณ

คู่มือนี้ออกแบบมาเพื่อช่วยคุณผสานรวมโซลูชันปัญญาประดิษฐ์เชิงสร้างสรรค์และแมชชีนเลิร์นนิง (AI/ML) ของ Google เข้ากับแอปพลิเคชัน โดยจะให้คำแนะนำเพื่อช่วยคุณสำรวจโซลูชันปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงต่างๆ ที่พร้อมให้บริการ รวมถึงเลือกโซลูชันที่เหมาะกับความต้องการของคุณมากที่สุด เป้าหมายของเอกสารนี้คือการช่วยคุณพิจารณาว่าจะใช้เครื่องมือใดและเพราะเหตุใด โดยมุ่งเน้นที่ความต้องการและกรณีการใช้งานของคุณ

เอกสารนี้มีคำแนะนำเกี่ยวกับโซลูชันเพื่อช่วยคุณเลือกโซลูชัน AI/ML ที่เหมาะสมที่สุดสำหรับข้อกำหนดเฉพาะของคุณ การตอบคำถามชุดหนึ่งเกี่ยวกับเป้าหมายและข้อจำกัดของโปรเจ็กต์จะช่วยให้คำแนะนำ ชี้แนะเครื่องมือและเทคโนโลยีที่เหมาะสมที่สุดให้คุณ

คู่มือนี้จะช่วยคุณเลือกโซลูชัน AI ที่ดีที่สุดสำหรับแอปของคุณ โดยให้พิจารณาปัจจัยต่อไปนี้ ประเภทของข้อมูล (ข้อความ รูปภาพ เสียง วิดีโอ) ความซับซ้อนของงาน (การสรุปอย่างง่ายไปจนถึงงานที่ซับซ้อนซึ่งต้องใช้ความรู้เฉพาะทาง) และขนาดข้อมูล (อินพุตสั้นๆ กับเอกสารขนาดใหญ่) ซึ่งจะช่วยให้คุณตัดสินใจได้ว่าจะใช้ Gemini Nano ในอุปกรณ์หรือ AI บนระบบคลาวด์ของ Firebase (Gemini Flash หรือ Gemini Pro)

แผนผังการตัดสินใจสำหรับกรณีการใช้งาน GenAI เกณฑ์ประกอบด้วยรูปแบบ
           (ข้อความ รูปภาพ เทียบกับเสียง วิดีโอ การสร้างรูปภาพ) ความซับซ้อน
           (สรุป เขียนใหม่ เทียบกับความรู้เฉพาะด้าน) และหน้าต่างบริบท
           (อินพุต/เอาต์พุตสั้นๆ เทียบกับเอกสาร/สื่อจำนวนมาก) ซึ่งนำไปสู่
           GenAI ในอุปกรณ์ (Gemini Nano) หรือตรรกะ AI ของ Firebase (Gemini
           Flash, Pro)
รูปที่ 1: ภาพนี้แสดงคำแนะนำเกี่ยวกับโซลูชันระดับสูง เพื่อช่วยคุณค้นหาโซลูชัน AI/ML ที่เหมาะสมสำหรับแอป Android ของคุณ หากต้องการ ดูรายละเอียดเพิ่มเติมเกี่ยวกับตัวเลือก AI และ ML โปรดดูคำแนะนำเกี่ยวกับโซลูชันที่ อยู่ส่วนท้ายของเอกสารนี้

ใช้ประโยชน์จากการอนุมานในอุปกรณ์

เมื่อเพิ่มฟีเจอร์ AI และ ML ลงในแอป Android คุณสามารถเลือก วิธีต่างๆ ในการนำเสนอได้ ไม่ว่าจะในอุปกรณ์หรือใช้ระบบคลาวด์

โซลูชันในอุปกรณ์ เช่น Gemini Nano ให้ผลลัพธ์โดยไม่มีค่าใช้จ่ายเพิ่มเติม ช่วยเพิ่มความเป็นส่วนตัวของผู้ใช้ และมอบฟังก์ชันการทำงานแบบออฟไลน์ที่เชื่อถือได้ เนื่องจากระบบจะประมวลผลข้อมูลอินพุตในเครื่อง ข้อดีเหล่านี้อาจมีความสําคัญอย่างยิ่งสําหรับ กรณีการใช้งานบางอย่าง เช่น การสรุปข้อความ ซึ่งทําให้การประมวลผลในอุปกรณ์เป็นสิ่งสําคัญอันดับแรกเมื่อ เลือกโซลูชันที่เหมาะสม

Gemini Nano ช่วยให้คุณเรียกใช้การอนุมานในอุปกรณ์ที่ใช้ Android ได้โดยตรง หากคุณกำลังทำงานกับข้อความ รูปภาพ หรือเสียง ให้เริ่มต้นด้วย GenAI API ของ ML Kit เพื่อรับโซลูชันสำเร็จรูป API ของ GenAI ใน ML Kit ทำงานด้วยระบบ Gemini Nano โดยใช้ประโยชน์จาก AICore เป็นบริการของระบบพื้นฐาน และได้รับการ ปรับแต่งอย่างละเอียดสำหรับงานในอุปกรณ์ที่เฉพาะเจาะจง API ของ GenAI ใน ML Kit เป็นเส้นทางที่เหมาะ สำหรับการใช้งานจริงในแอปของคุณ เนื่องจากมีอินเทอร์เฟซระดับสูงกว่าและมีความสามารถในการปรับขนาด API เหล่านี้ช่วยให้คุณส่งคำขอด้วยภาษาธรรมชาติพร้อมทั้งข้อความและรูปภาพ อินพุตได้ ซึ่งจะช่วยให้คุณใช้ได้ในหลากหลายกรณี เช่น การทำความเข้าใจรูปภาพ การแปลแบบสั้นๆ การสรุปแบบมีคำแนะนำ และอื่นๆ

สำหรับงานแมชชีนเลิร์นนิงแบบดั้งเดิม คุณสามารถใช้โมเดลที่กำหนดเองได้ เรามีเครื่องมือที่มีประสิทธิภาพ เช่น ML Kit, MediaPipe, LiteRT และฟีเจอร์การนำส่งของ Google Play เพื่อปรับปรุงกระบวนการพัฒนาของคุณ

สำหรับแอปพลิเคชันที่ต้องใช้โซลูชันเฉพาะทาง คุณสามารถใช้โมเดลที่กำหนดเอง เช่น Gemma หรือโมเดลอื่นๆ ที่ปรับแต่งให้เหมาะกับกรณีการใช้งานเฉพาะของคุณได้ เรียกใช้โมเดลในอุปกรณ์ของผู้ใช้โดยตรงด้วย LiteRT ซึ่งมีสถาปัตยกรรมโมเดลที่ออกแบบไว้ล่วงหน้าเพื่อประสิทธิภาพที่ ปรับให้เหมาะสม

นอกจากนี้ คุณยังพิจารณาสร้างโซลูชันแบบไฮบริดโดยใช้ประโยชน์จากทั้งโมเดลในอุปกรณ์ และโมเดลในระบบคลาวด์ได้ด้วย

โดยทั่วไปแล้วแอปบนอุปกรณ์เคลื่อนที่จะใช้โมเดลในเครื่องสำหรับข้อมูลข้อความขนาดเล็ก เช่น การสนทนาในแชทหรือบทความในบล็อก อย่างไรก็ตาม สำหรับแหล่งข้อมูลขนาดใหญ่ (เช่น PDF) หรือ เมื่อจำเป็นต้องมีความรู้เพิ่มเติม คุณอาจต้องใช้โซลูชันบนระบบคลาวด์ที่มีโมเดล Gemini ที่มีประสิทธิภาพมากขึ้น

ผสานรวมโมเดล Gemini ขั้นสูง

นักพัฒนาแอป Android สามารถผสานรวมความสามารถของ Generative AI ขั้นสูงของ Google ซึ่งรวมถึงโมเดล Gemini Pro และ Gemini Flash ที่ทรงพลัง เข้ากับแอปพลิเคชันของตนได้โดยใช้ Firebase AI Logic SDK SDK นี้ออกแบบมาสำหรับความต้องการข้อมูลที่มากขึ้น และมอบความสามารถและความยืดหยุ่นที่เพิ่มขึ้นโดยการให้สิทธิ์เข้าถึงโมเดล AI แบบมัลติโมดัลที่มีประสิทธิภาพสูงเหล่านี้

Firebase AI Logic SDK ช่วยให้นักพัฒนาแอปสามารถเรียกใช้โมเดล AI ของ Google ทางฝั่งไคลเอ็นต์ได้อย่างง่ายดาย โมเดลเหล่านี้ เช่น Gemini Pro และ Gemini Flash จะเรียกใช้การอนุมานในระบบคลาวด์และช่วยให้แอป Android ประมวลผลอินพุตได้หลากหลาย ซึ่งรวมถึงรูปภาพ เสียง วิดีโอ และข้อความ Gemini Pro โดดเด่นในด้านการให้เหตุผลเกี่ยวกับปัญหาที่ซับซ้อนและการวิเคราะห์ข้อมูลจำนวนมาก ในขณะที่ซีรีส์ Gemini Flash มีความเร็วที่เหนือกว่าและหน้าต่างบริบทที่ใหญ่พอสำหรับงานส่วนใหญ่

กรณีที่ควรใช้แมชชีนเลิร์นนิงแบบดั้งเดิม

แม้ว่า Generative AI จะมีประโยชน์ในการสร้างและแก้ไขเนื้อหา เช่น ข้อความ รูปภาพ และโค้ด แต่ปัญหาในโลกแห่งความเป็นจริงหลายอย่างจะได้รับการแก้ไขได้ดีกว่าโดยใช้เทคนิคแมชชีนเลิร์นนิง (ML) แบบดั้งเดิม วิธีการที่ใช้กันอยู่เหล่านี้มีความโดดเด่นในงานที่เกี่ยวข้องกับการคาดการณ์ การจัดประเภท การตรวจหา และการทำความเข้าใจรูปแบบภายในข้อมูลที่มีอยู่ ซึ่งมักจะมีประสิทธิภาพสูงกว่า ต้นทุนด้านการคำนวณต่ำกว่า และการติดตั้งใช้งานง่ายกว่าโมเดล Generative

เฟรมเวิร์ก ML แบบดั้งเดิมมีโซลูชันที่แข็งแกร่ง มีการเพิ่มประสิทธิภาพ และมักจะใช้งานได้จริงมากกว่า สำหรับแอปพลิเคชันที่มุ่งเน้นการวิเคราะห์อินพุต การระบุฟีเจอร์ หรือการคาดการณ์ตามรูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด เครื่องมือต่างๆ เช่น ML Kit, LiteRT และ MediaPipe ของ Google มีความสามารถอันทรงพลังที่ปรับแต่งมาสำหรับกรณีการใช้งานที่ไม่ใช่แบบ Generative โดยเฉพาะในสภาพแวดล้อมการประมวลผลบนอุปกรณ์เคลื่อนที่และการประมวลผลที่ต้นทาง

เริ่มต้นการผสานรวมแมชชีนเลิร์นนิงด้วย ML Kit

ML Kit มีโซลูชันที่พร้อมใช้งานจริงและได้รับการเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่สำหรับงานแมชชีนเลิร์นนิงทั่วไป โดยไม่ต้องมีความเชี่ยวชาญด้าน ML มาก่อน SDK สำหรับอุปกรณ์เคลื่อนที่ที่ใช้งานง่ายนี้ จะนำความเชี่ยวชาญด้าน ML ของ Google มาสู่แอป Android และ iOS ของคุณโดยตรง ซึ่งช่วยให้คุณ มุ่งเน้นการพัฒนาฟีเจอร์แทนการฝึกและเพิ่มประสิทธิภาพโมเดลได้ ML Kit มี API ที่สร้างไว้ล่วงหน้าและโมเดลที่พร้อมใช้งานสำหรับฟีเจอร์ต่างๆ เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจหาใบหน้า การติดป้ายกำกับรูปภาพ การตรวจหาและการติดตามออบเจ็กต์ การระบุภาษา และการช่วยตอบ

โดยปกติแล้ว โมเดลเหล่านี้จะได้รับการเพิ่มประสิทธิภาพสำหรับการดำเนินการในอุปกรณ์ เพื่อให้มั่นใจว่ามีความหน่วงต่ำ ฟังก์ชันการทำงานแบบออฟไลน์ และความเป็นส่วนตัวของผู้ใช้ที่ดียิ่งขึ้น เนื่องจากข้อมูลมักจะยังคงอยู่ในอุปกรณ์ เลือก ML Kit เพื่อเพิ่มฟีเจอร์ ML ที่มีอยู่แล้วลงใน แอปบนอุปกรณ์เคลื่อนที่ได้อย่างรวดเร็วโดยไม่ต้องฝึกโมเดลหรือต้องใช้เอาต์พุตแบบ Generative เหมาะอย่างยิ่งสำหรับการเพิ่มประสิทธิภาพแอปอย่างมีประสิทธิภาพด้วยความสามารถ "อัจฉริยะ" โดยใช้โมเดลที่ได้รับการเพิ่มประสิทธิภาพของ Google หรือโดยการติดตั้งใช้งานโมเดล TensorFlow Lite ที่กำหนดเอง

เริ่มต้นใช้งานด้วยคำแนะนำและเอกสารประกอบที่ครอบคลุมของเราได้ที่เว็บไซต์สำหรับนักพัฒนาซอฟต์แวร์ ML Kit

การทำให้ ML ที่กำหนดเองใช้งานได้ด้วย LiteRT

หากต้องการควบคุมมากขึ้นหรือเพื่อติดตั้งใช้งานโมเดล ML ของคุณเอง ให้ใช้สแต็ก ML ที่กำหนดเอง ซึ่งสร้างขึ้นบน LiteRT และบริการ Google Play สแต็กนี้มีสิ่งจำเป็นสำหรับการ ติดตั้งใช้งานฟีเจอร์ ML ประสิทธิภาพสูง LiteRT เป็นชุดเครื่องมือที่เพิ่มประสิทธิภาพเพื่อ เรียกใช้โมเดล TensorFlow อย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่ อุปกรณ์แบบฝัง และอุปกรณ์ Edge ที่มีข้อจำกัดด้านทรัพยากร ซึ่งช่วยให้คุณเรียกใช้โมเดลที่มีขนาดเล็กลงและเร็วขึ้นอย่างมาก โดยใช้หน่วยความจำ พลังงาน และพื้นที่เก็บข้อมูลน้อยลง รันไทม์ LiteRT ได้รับการเพิ่มประสิทธิภาพอย่างมากสำหรับตัวเร่งฮาร์ดแวร์ต่างๆ (GPU, DSP, NPU) ในอุปกรณ์ Edge ซึ่งช่วยให้การอนุมานมีเวลาในการตอบสนองต่ำ

เลือก LiteRT เมื่อต้องการติดตั้งใช้งานโมเดล ML ที่ฝึกแล้วอย่างมีประสิทธิภาพ (โดยทั่วไป สำหรับการจัดประเภท การถดถอย หรือการตรวจหา) ในอุปกรณ์ที่มี กำลังประมวลผลหรืออายุการใช้งานแบตเตอรี่จำกัด เช่น สมาร์ทโฟน อุปกรณ์ IoT หรือ ไมโครคอนโทรลเลอร์ ซึ่งเป็นโซลูชันที่แนะนำสำหรับการติดตั้งใช้งานโมเดลการคาดการณ์ที่กำหนดเองหรือมาตรฐานที่ Edge ซึ่งความเร็วและการประหยัดทรัพยากรเป็นสิ่งสำคัญที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตั้งใช้งาน ML ด้วย LiteRT

สร้างการรับรู้แบบเรียลไทม์ในแอปด้วย MediaPipe

MediaPipe มีโซลูชันแมชชีนเลิร์นนิงแบบโอเพนซอร์ส ข้ามแพลตฟอร์ม และปรับแต่งได้ ซึ่งออกแบบมาสำหรับสื่อแบบสดและสื่อสตรีมมิง รับประโยชน์จากเครื่องมือที่สร้างไว้ล่วงหน้าและเพิ่มประสิทธิภาพแล้วสำหรับงานที่ซับซ้อน เช่น การติดตามมือ การประมาณท่าทาง การตรวจจับตาข่ายใบหน้า และการตรวจจับออบเจ็กต์ ซึ่งทั้งหมดนี้ช่วยให้เกิดการโต้ตอบแบบเรียลไทม์ที่มีประสิทธิภาพสูงแม้ในอุปกรณ์เคลื่อนที่

ไปป์ไลน์แบบกราฟของ MediaPipe ปรับแต่งได้สูง ซึ่งช่วยให้คุณ ปรับแต่งโซลูชันสำหรับแอปพลิเคชัน Android, iOS, เว็บ, เดสก์ท็อป และแบ็กเอนด์ได้ เลือก MediaPipe เมื่อแอปพลิเคชันของคุณต้องทำความเข้าใจและตอบสนองต่อข้อมูลเซ็นเซอร์แบบเรียลไทม์ โดยเฉพาะสตรีมวิดีโอ สำหรับกรณีการใช้งาน เช่น การจดจำท่าทางสัมผัส เอฟเฟกต์ AR การติดตามฟิตเนส หรือการควบคุมอวตาร ซึ่งทั้งหมดนี้มุ่งเน้นไปที่การวิเคราะห์และตีความอินพุต

สำรวจโซลูชันและเริ่มสร้างด้วย MediaPipe

ผสานรวมแอปกับผู้ช่วยในอุปกรณ์

แม้ว่าการผสานรวม AI แบบดั้งเดิมจะมุ่งเน้นที่ "การนำ AI ไปใช้ในแอป" แต่คุณก็ยัง "นำแอปไปใช้ใน AI" ได้ด้วย การแชร์ฟังก์ชันการทำงานของแอปกับฟีเจอร์ AI ของระบบจะช่วยให้ผู้ช่วยระดับระบบ (เช่น Gemini) ค้นพบและเรียกใช้ความสามารถของแอปได้โดยอัตโนมัติ AppFunctions เป็นวิธีหลัก ในการผสานรวมนี้ ซึ่งช่วยให้แอปของคุณเข้าร่วม ระบบนิเวศ AI ของ Android ในวงกว้างได้

เลือกวิธีการ

เมื่อผสานรวม AI เพื่อปรับปรุงแอป Android คุณควรพิจารณาแนวทางหลัก 3 ประการ ได้แก่ การประมวลผลในอุปกรณ์ การใช้ประโยชน์จากโมเดลบนระบบคลาวด์ หรือการเพิ่มฟังก์ชันการทำงานของแอปไปยัง AI ระดับระบบ เครื่องมือต่างๆ เช่น ML Kit, Gemini Nano และ LiteRT ช่วยให้ความสามารถในอุปกรณ์ทำงานได้ ขณะที่ Gemini Cloud API ที่มี Firebase AI Logic จะให้การประมวลผลบนระบบคลาวด์ที่มีประสิทธิภาพ AppFunctions เป็นเส้นทางที่ 3 ซึ่งช่วยให้คุณ "นำแอปไปใช้ใน AI" ได้โดย ทำให้ฟีเจอร์ของแอปพร้อมใช้งานในระบบในลักษณะของเอเจนต์

โปรดพิจารณาปัจจัยต่อไปนี้เมื่อเลือกแนวทาง

ตัวประกอบ โซลูชันในอุปกรณ์ โซลูชันระบบคลาวด์
การเชื่อมต่อและฟังก์ชันการทำงานแบบออฟไลน์ เหมาะสำหรับการใช้งานแบบออฟไลน์ ทำงานได้โดยไม่ต้องเชื่อมต่อเครือข่าย ต้องมีการเชื่อมต่อเครือข่ายเพื่อสื่อสารกับเซิร์ฟเวอร์ระยะไกล
ความเป็นส่วนตัวของข้อมูล ประมวลผลและจัดเก็บข้อมูลที่ละเอียดอ่อนในอุปกรณ์ ข้อมูลจะส่งไปยังระบบคลาวด์ ซึ่งต้องอาศัยความเชื่อมั่นในความปลอดภัยของผู้ให้บริการ
การค้นพบได้และการเข้าถึง การผสานรวมระบบปฏิบัติการโดยตรง (AppFunctions) ช่วยให้ผู้ช่วย ค้นพบฟีเจอร์ต่างๆ ได้ โดยปกติแล้ว การค้นพบจะจำกัดไว้ที่ UI ภายในของแอปหรือ การผสานรวม API ที่เฉพาะเจาะจง
ความสามารถของโมเดล เพิ่มประสิทธิภาพสำหรับเวลาในการตอบสนองต่ำและงานที่เฉพาะเจาะจงซึ่งใช้ทรัพยากรน้อยกว่า โมเดลที่มีประสิทธิภาพซึ่งสามารถจัดการความซับซ้อนสูงและ อินพุตขนาดใหญ่
ข้อควรพิจารณาด้านค่าใช้จ่าย ไม่มีค่าธรรมเนียมต่อการใช้งานโดยตรง แต่จะใช้ฮาร์ดแวร์ของอุปกรณ์ที่มีอยู่ โดยปกติแล้วจะเกี่ยวข้องกับการกำหนดราคาตามการใช้งานหรือค่าสมัครใช้บริการต่อเนื่อง
ทรัพยากรของอุปกรณ์ ใช้พื้นที่เก็บข้อมูลในเครื่อง, RAM และอายุการใช้งานแบตเตอรี่ ผลกระทบในเครื่องน้อยมาก โดยจะมีการส่งต่อการประมวลผลที่ซับซ้อนไปยังเซิร์ฟเวอร์
การปรับแต่ง มีความยืดหยุ่นจำกัด โดยขึ้นอยู่กับความสามารถของฮาร์ดแวร์ในพื้นที่ เพิ่มความยืดหยุ่นสำหรับการปรับแต่งที่ครอบคลุมและการปรับแต่งขนาดใหญ่
ความสอดคล้องข้ามแพลตฟอร์ม ความพร้อมใช้งานอาจแตกต่างกันไปตามการรองรับระบบปฏิบัติการและฮาร์ดแวร์ ประสบการณ์การใช้งานที่สอดคล้องกันในทุกแพลตฟอร์มที่มีการเข้าถึงอินเทอร์เน็ต

การพิจารณาข้อกำหนดของ Use Case และตัวเลือกที่มีอย่างรอบคอบจะช่วยให้คุณพบโซลูชัน AI/ML ที่เหมาะสมที่สุดเพื่อปรับปรุงแอป Android และมอบประสบการณ์อัจฉริยะที่ปรับตามโปรไฟล์ของผู้ใช้


คู่มือโซลูชัน AI/ML

คู่มือโซลูชันนี้จะช่วยคุณระบุเครื่องมือสำหรับนักพัฒนาแอปที่เหมาะสมเพื่อ ผสานรวมเทคโนโลยี AI/ML เข้ากับโปรเจ็กต์ Android

เป้าหมายหลักของฟีเจอร์ AI คืออะไร

  • ก) สร้างเนื้อหาใหม่ (ข้อความ คำอธิบายรูปภาพ) หรือประมวลผลข้อความอย่างง่าย (สรุป ตรวจตัวสะกด หรือเขียนข้อความใหม่) → ไปที่ Generative AI
  • ข) วิเคราะห์ข้อมูล/อินพุตที่มีอยู่เพื่อการคาดการณ์ การจัดประเภท การตรวจหา การทำความเข้าใจรูปแบบ หรือการประมวลผลสตรีมแบบเรียลไทม์ (เช่น วิดีโอ/เสียง) ใช่หรือไม่ → ไปที่ML และการรับรู้แบบดั้งเดิม
  • ค) การปรับปรุงฟังก์ชันการทำงานของแอปเพื่อผสานรวมกับฟีเจอร์ AI ของระบบ (การนำแอปของคุณไปใช้ใน AI) → ไปที่การนำแอปของคุณไปใช้ใน AI

ML และการรับรู้แบบดั้งเดิม

คุณต้องวิเคราะห์อินพุต ระบุฟีเจอร์ หรือทําการคาดการณ์ตาม รูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด

คุณกำลังทำอะไรอยู่

  • ก) ต้องการผสานรวมฟีเจอร์ ML ทั่วไปสำหรับอุปกรณ์เคลื่อนที่ที่สร้างไว้ล่วงหน้าอย่างรวดเร็วใช่ไหม (เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและการติดตามออบเจ็กต์ การระบุภาษา การตอบกลับอัจฉริยะพื้นฐาน)
    • → ใช้: ML Kit (API แบบเดิม)
    • เหตุผล: การผสานรวมที่ง่ายที่สุดสำหรับ งาน ML บนอุปกรณ์เคลื่อนที่ที่สร้างขึ้น ซึ่งมักจะเพิ่มประสิทธิภาพสำหรับการใช้งานในอุปกรณ์ (เวลาในการตอบสนองต่ำ ออฟไลน์ ความเป็นส่วนตัว)
  • ข) ต้องการประมวลผลข้อมูลการสตรีมแบบเรียลไทม์ (เช่น วิดีโอหรือเสียง) สำหรับ งานการรับรู้ใช่ไหม (เช่น การติดตามมือ การประมาณท่าทาง โครงข่ายใบหน้า การตรวจหาและการแบ่งกลุ่มวัตถุแบบเรียลไทม์ในวิดีโอ)
    • → ใช้: MediaPipe
    • เหตุผล: เฟรมเวิร์กที่เชี่ยวชาญด้าน ไปป์ไลน์การรับรู้แบบเรียลไทม์ที่มีประสิทธิภาพสูงในแพลตฟอร์มต่างๆ
  • ค) ต้องการเรียกใช้โมเดล ML ที่ฝึกเองแบบกำหนดเองอย่างมีประสิทธิภาพ (เช่น สำหรับ การจัดประเภท การถดถอย การตรวจหา) ในอุปกรณ์ โดยให้ความสำคัญกับ ประสิทธิภาพและการใช้ทรัพยากรต่ำใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite)
    • เหตุผล: รันไทม์ที่เพิ่มประสิทธิภาพสำหรับการ ติดตั้งใช้งานโมเดลที่กำหนดเองอย่างมีประสิทธิภาพในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (ขนาดเล็ก การอนุมานที่รวดเร็ว การเร่งด้วยฮาร์ดแวร์)
  • ง) ต้องการฝึกโมเดล ML แบบกำหนดเองของคุณเองสำหรับงานที่เฉพาะเจาะจงใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite) + การฝึกโมเดลที่กำหนดเอง
    • เหตุผล: มีเครื่องมือสำหรับ ฝึกและใช้งานโมเดลที่กำหนดเอง ซึ่งเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge
  • จ) ต้องการการจัดประเภทเนื้อหาขั้นสูง การวิเคราะห์ความเห็น หรือ การแปลหลายภาษาที่มีความแตกต่างสูงไหม
    • พิจารณาว่าโมเดล ML แบบดั้งเดิม (อาจทำให้ใช้งานได้โดยใช้ LiteRT หรือระบบคลาวด์) เหมาะสมหรือไม่ หรือหาก NLU ขั้นสูงต้องใช้โมเดล Generative (กลับไปที่เริ่ม เลือก A) สำหรับการแยกประเภท ความรู้สึก หรือการแปลในระบบคลาวด์ ให้ทำดังนี้
    • → ใช้: โซลูชันบนระบบคลาวด์ (เช่น Google Cloud Natural Language API, Google Cloud Translation API, อาจเข้าถึงได้โดยใช้แบ็กเอนด์ที่กำหนดเองหรือ Vertex AI) (ลำดับความสำคัญต่ำกว่าตัวเลือกในอุปกรณ์หากออฟไลน์หรือ ความเป็นส่วนตัวเป็นสิ่งสำคัญ)
    • เหตุผล: โซลูชันระบบคลาวด์มี โมเดลที่มีประสิทธิภาพและการรองรับภาษาที่หลากหลาย แต่ต้องมีการเชื่อมต่อ และอาจมีค่าใช้จ่าย

Generative AI

คุณต้องสร้างเนื้อหาใหม่ สรุป เขียนใหม่ หรือทํางานที่ต้องใช้ความเข้าใจหรือการโต้ตอบที่ซับซ้อน

คุณต้องการให้ AI ทำงานแบบออฟไลน์ ต้องการความเป็นส่วนตัวของข้อมูลสูงสุด (เก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์) หรือต้องการหลีกเลี่ยงค่าใช้จ่ายในการอนุมานบนคลาวด์

  • ก) ใช่ ออฟไลน์ ความเป็นส่วนตัวสูงสุด หรือไม่มีค่าใช้จ่ายในระบบคลาวด์เป็นสิ่งสำคัญ
  • ข) ไม่ มีการเชื่อมต่อที่พร้อมใช้งานและยอมรับได้ ความสามารถของระบบคลาวด์และความสามารถในการปรับขนาดมีความสำคัญมากกว่า หรือฟีเจอร์บางอย่างต้องใช้ระบบคลาวด์

Generative AI ในอุปกรณ์ (ใช้ Gemini Nano)

ข้อควรระวัง: ต้องใช้อุปกรณ์ Android ที่รองรับ รองรับ iOS แบบจำกัด โมเดล มีประสิทธิภาพน้อยกว่ารุ่นที่ทำงานบนระบบคลาวด์

Prompt API ของ ML Kit ช่วยให้คุณส่งคำขอภาษาธรรมชาติด้วยอินพุตที่เป็นข้อความเท่านั้น หรืออินพุตที่เป็นข้อความและรูปภาพสำหรับกรณีการใช้งานต่างๆ เช่น ความเข้าใจรูปภาพ การแปลแบบสั้น และการสรุปแบบมีคำแนะนำ หากกรณีการใช้งานของคุณสามารถตอบสนองได้โดยขีดจำกัดโทเค็นเหล่านี้ API ของ ML Kit GenAI จะเป็นตัวเลือกที่ดีที่สุดสำหรับ Generative AI ในอุปกรณ์ นอกจากนี้ ML Kit ยังมี API ที่ได้รับการเพิ่มประสิทธิภาพสำหรับงานทั่วไป เช่น การสรุปและการช่วยตอบ

  • → ใช้: ML Kit GenAI API (ขับเคลื่อนโดย Gemini Nano)
  • เหตุผล: วิธีที่ง่ายที่สุดในการผสานรวม งาน Generative AI ในอุปกรณ์โดยใช้พรอมต์ที่เป็นภาษาธรรมชาติ โซลูชันในอุปกรณ์ที่มีลำดับความสำคัญสูงสุด

Generative AI บนคลาวด์

ใช้โมเดลที่มีประสิทธิภาพมากขึ้น ต้องมีการเชื่อมต่อ มักมี ค่าใช้จ่ายในการอนุมาน เข้าถึงอุปกรณ์ได้กว้างขึ้น และรักษาความสอดคล้องข้ามแพลตฟอร์ม (Android และ iOS) ได้ง่ายขึ้น

ลำดับความสำคัญของคุณคืออะไร: ความสะดวกในการผสานรวมภายใน Firebase หรือความยืดหยุ่น/การควบคุมสูงสุด

  • ก) ต้องการการผสานรวมที่ง่ายขึ้น ประสบการณ์การใช้งาน API ที่มีการจัดการ และมีแนวโน้มที่จะใช้ Firebase อยู่แล้วใช่ไหม
  • ข) ต้องการความยืดหยุ่นสูงสุด สิทธิ์เข้าถึงโมเดลที่หลากหลายที่สุด (รวมถึงโมเดลของบุคคลที่สาม/โมเดลที่กำหนดเอง) การปรับแต่งขั้นสูง และยินดีที่จะ จัดการการผสานรวมแบ็กเอนด์ของคุณเอง (ซับซ้อนกว่า)?
    • → ใช้: Gemini API กับแบ็กเอนด์ระบบคลาวด์ที่กำหนดเอง (ใช้ Google Cloud Platform)
    • เหตุผล: ให้การควบคุมมากที่สุด การเข้าถึงโมเดลที่กว้างที่สุด และตัวเลือกการฝึกที่กำหนดเอง แต่ต้องใช้ความพยายามอย่างมากในการพัฒนาแบ็กเอนด์ เหมาะสำหรับความต้องการที่ซับซ้อน ขนาดใหญ่ หรือมีการปรับแต่งสูง

(คุณเลือก Firebase AI Logic SDK) คุณต้องการงานแบบ Generative และโปรไฟล์ประสิทธิภาพประเภทใด

  • ก) ต้องการความสมดุลระหว่างประสิทธิภาพและต้นทุนที่เหมาะสำหรับการสร้างข้อความ การสรุป หรือแอปพลิเคชันแชททั่วไปที่ความเร็วเป็นสิ่งสำคัญใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Flash
    • เหตุผล: เพิ่มประสิทธิภาพด้านความเร็วและ ประสิทธิภาพภายในสภาพแวดล้อมที่มีการจัดการของ Vertex AI
  • ข) ต้องการคุณภาพและความสามารถที่สูงขึ้นสำหรับการสร้างข้อความที่ซับซ้อน การให้เหตุผล, NLU ขั้นสูง หรือการปฏิบัติตามคำสั่งใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Pro
    • เหตุผล: โมเดลข้อความที่ทรงพลังยิ่งขึ้น สำหรับงานที่ซับซ้อน ซึ่งเข้าถึงได้ผ่าน Firebase

AppFunctions

คุณต้องปรับปรุงฟังก์ชันการทำงานของแอปเพื่อผสานรวมกับฟีเจอร์ AI ของระบบ (นำแอปของคุณไปใช้ใน AI)

  • → ใช้: AppFunctions
  • เหตุผล: ช่วยให้ฟีเจอร์ AI ของระบบ เช่น Assistant ค้นพบและเรียกใช้ความสามารถของแอป