ค้นหาโซลูชัน AI/ML ที่เหมาะกับแอปของคุณ

คู่มือนี้ออกแบบมาเพื่อช่วยคุณผสานรวมปัญญาประดิษฐ์แบบ Generative และโซลูชันแมชชีนเลิร์นนิง (AI/ML) ของ Google เข้ากับแอปพลิเคชัน โดยจะให้คำแนะนำเพื่อช่วยคุณสำรวจโซลูชันปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงต่างๆ ที่พร้อมให้บริการ รวมถึงเลือกโซลูชันที่เหมาะกับความต้องการของคุณมากที่สุด เป้าหมายของเอกสารนี้คือการช่วยคุณพิจารณาว่าจะใช้เครื่องมือใดและเพราะเหตุใด โดยมุ่งเน้นที่ความต้องการและกรณีการใช้งานของคุณ

เอกสารนี้มีคำแนะนำเกี่ยวกับโซลูชันเพื่อช่วยคุณเลือกโซลูชัน AI/ML ที่เหมาะสมที่สุดสำหรับข้อกำหนดเฉพาะของคุณ การตอบคำถามชุดหนึ่งเกี่ยวกับเป้าหมายและข้อจำกัดของโปรเจ็กต์จะช่วยให้คำแนะนำ นำคุณไปสู่เครื่องมือและเทคโนโลยีที่เหมาะสมที่สุด

คู่มือนี้จะช่วยคุณเลือกโซลูชัน AI ที่ดีที่สุดสำหรับแอปของคุณ โดยให้พิจารณาปัจจัยต่อไปนี้ ประเภทของข้อมูล (ข้อความ รูปภาพ เสียง วิดีโอ) ความซับซ้อนของงาน (การสรุปอย่างง่ายไปจนถึงงานที่ซับซ้อนซึ่งต้องใช้ความรู้เฉพาะทาง) และขนาดข้อมูล (อินพุตสั้นๆ กับเอกสารขนาดใหญ่) ซึ่งจะช่วยให้คุณตัดสินใจได้ว่าจะใช้ Gemini Nano ในอุปกรณ์หรือ AI บนระบบคลาวด์ของ Firebase (Gemini Flash, Gemini Pro หรือ Imagen)

แผนผังการตัดสินใจสำหรับกรณีการใช้งาน GenAI เกณฑ์ประกอบด้วยรูปแบบ
           (ข้อความ รูปภาพเทียบกับเสียง วิดีโอ การสร้างรูปภาพ) ความซับซ้อน
           (สรุป เขียนใหม่เทียบกับความรู้เฉพาะด้าน) และหน้าต่างบริบท
           (อินพุต/เอาต์พุตสั้นๆ เทียบกับเอกสาร/สื่อจำนวนมาก) ซึ่งนำไปสู่
           GenAI ในอุปกรณ์ (Gemini Nano) หรือตรรกะ AI ของ Firebase (Gemini
           Flash, Pro, Imagen)
รูปที่ 1: ภาพนี้แสดงคำแนะนำเกี่ยวกับโซลูชันระดับสูง เพื่อช่วยคุณค้นหาโซลูชัน AI/ML ที่เหมาะสมสำหรับแอป Android ของคุณ หากต้องการ ดูรายละเอียดเพิ่มเติมเกี่ยวกับตัวเลือก AI และ ML โปรดดูคำแนะนำเกี่ยวกับโซลูชันที่ อยู่ส่วนท้ายของเอกสารนี้

ใช้ประโยชน์จากพลังของการอนุมานในอุปกรณ์

เมื่อเพิ่มฟีเจอร์ AI และ ML ลงในแอป Android คุณสามารถเลือก วิธีต่างๆ ในการนำเสนอได้ ไม่ว่าจะในอุปกรณ์หรือใช้ระบบคลาวด์

โซลูชันในอุปกรณ์ เช่น Gemini Nano ให้ผลลัพธ์โดยไม่มีค่าใช้จ่ายเพิ่มเติม ช่วยเพิ่มความเป็นส่วนตัวของผู้ใช้ และมอบฟังก์ชันการทำงานแบบออฟไลน์ที่เชื่อถือได้ เนื่องจากระบบจะประมวลผลข้อมูลอินพุตในเครื่อง ข้อดีเหล่านี้อาจมีความสําคัญอย่างยิ่งสําหรับ กรณีการใช้งานบางอย่าง เช่น การสรุปข้อความ ซึ่งทําให้การประมวลผลในอุปกรณ์มีความสําคัญเป็นอันดับแรกเมื่อ เลือกโซลูชันที่เหมาะสม

Gemini Nano ช่วยให้คุณเรียกใช้การอนุมานได้โดยตรงในอุปกรณ์ที่ใช้ Android หากคุณกำลังทำงานกับข้อความ รูปภาพ หรือเสียง ให้เริ่มต้นด้วย API ของ GenAI ใน ML Kit เพื่อรับโซลูชันสำเร็จรูป API ของ GenAI ใน ML Kit ทำงานด้วยระบบ Gemini Nano โดยใช้ประโยชน์จาก AICore เป็นบริการของระบบพื้นฐาน และได้รับการ ปรับแต่งอย่างละเอียดสำหรับงานในอุปกรณ์ที่เฉพาะเจาะจง API ของ GenAI ใน ML Kit เป็นเส้นทางที่เหมาะ สำหรับการใช้งานจริงในแอปของคุณ เนื่องจากมีอินเทอร์เฟซระดับสูงกว่าและมีความสามารถในการปรับขนาด API เหล่านี้ช่วยให้คุณส่งคำขอด้วยภาษาธรรมชาติพร้อมทั้งข้อความและรูปภาพ อินพุตได้ ซึ่งจะช่วยให้คุณใช้กรณีการใช้งานต่างๆ ได้ เช่น การทำความเข้าใจรูปภาพ การแปล แบบสั้นๆ การสรุปแบบมีคำแนะนำ และอื่นๆ

สำหรับงานแมชชีนเลิร์นนิงแบบดั้งเดิม คุณสามารถใช้โมเดลที่กำหนดเองได้ เรามีเครื่องมือที่มีประสิทธิภาพ เช่น ML Kit, MediaPipe, LiteRT และฟีเจอร์การนำส่งของ Google Play เพื่อปรับปรุงกระบวนการพัฒนาของคุณ

สำหรับแอปพลิเคชันที่ต้องใช้โซลูชันเฉพาะทาง คุณสามารถใช้โมเดลที่กำหนดเอง เช่น Gemma หรือโมเดลอื่นที่ปรับให้เหมาะกับกรณีการใช้งานเฉพาะของคุณ เรียกใช้โมเดลโดยตรงในอุปกรณ์ของผู้ใช้ด้วย LiteRT ซึ่งมีสถาปัตยกรรมโมเดลที่ออกแบบไว้ล่วงหน้าเพื่อประสิทธิภาพที่ ปรับให้เหมาะสม

นอกจากนี้ คุณยังพิจารณาสร้างโซลูชันแบบไฮบริดโดยใช้ประโยชน์จากทั้งโมเดลในอุปกรณ์ และโมเดลในระบบคลาวด์ได้ด้วย

โดยทั่วไปแล้วแอปบนอุปกรณ์เคลื่อนที่จะใช้โมเดลในเครื่องสำหรับข้อมูลข้อความขนาดเล็ก เช่น การสนทนาในแชทหรือบทความในบล็อก อย่างไรก็ตาม สำหรับแหล่งข้อมูลขนาดใหญ่ (เช่น PDF) หรือ เมื่อจำเป็นต้องมีความรู้เพิ่มเติม คุณอาจต้องใช้โซลูชันบนระบบคลาวด์ที่มีโมเดล Gemini ที่มีประสิทธิภาพมากขึ้น

ผสานรวมโมเดล Gemini ขั้นสูง

นักพัฒนาแอป Android สามารถผสานรวมความสามารถของ Generative AI ขั้นสูงของ Google ซึ่งรวมถึงโมเดล Gemini Pro, Gemini Flash และ Imagen ที่ทรงพลัง เข้ากับแอปพลิเคชันของตนได้โดยใช้ Firebase AI Logic SDK SDK นี้ออกแบบมาสำหรับความต้องการข้อมูลที่มากขึ้น และมอบความสามารถและความยืดหยุ่นที่เพิ่มขึ้นโดยการให้สิทธิ์เข้าถึงโมเดล AI แบบมัลติโมดัลที่มีประสิทธิภาพสูงเหล่านี้

Firebase AI Logic SDK ช่วยให้นักพัฒนาแอปสามารถเรียกใช้ฝั่งไคลเอ็นต์ไปยังโมเดล AI ของ Google ได้โดยใช้ความพยายามเพียงเล็กน้อย โมเดลเหล่านี้ เช่น Gemini Pro และ Gemini Flash จะเรียกใช้การอนุมานในระบบคลาวด์และช่วยให้แอป Android ประมวลผลอินพุตได้หลากหลาย ซึ่งรวมถึงรูปภาพ เสียง วิดีโอ และข้อความ Gemini Pro โดดเด่นในด้านการให้เหตุผลเกี่ยวกับปัญหาที่ซับซ้อนและการวิเคราะห์ข้อมูลจำนวนมาก ในขณะที่ซีรีส์ Gemini Flash มีความเร็วที่เหนือกว่าและหน้าต่างบริบทที่ใหญ่พอสำหรับงานส่วนใหญ่

กรณีที่ควรใช้แมชชีนเลิร์นนิงแบบดั้งเดิม

แม้ว่า Generative AI จะมีประโยชน์ในการสร้างและแก้ไขเนื้อหา เช่น ข้อความ รูปภาพ และโค้ด แต่ปัญหาในโลกแห่งความเป็นจริงหลายอย่างจะได้รับการแก้ไขได้ดีกว่าโดยใช้เทคนิคแมชชีนเลิร์นนิง (ML) แบบดั้งเดิม วิธีการที่ใช้กันอยู่เหล่านี้มีความโดดเด่นในงานที่เกี่ยวข้องกับการคาดการณ์ การจัดประเภท การตรวจหา และการทำความเข้าใจรูปแบบภายในข้อมูลที่มีอยู่ ซึ่งมักจะมีประสิทธิภาพสูงกว่า ต้นทุนด้านการคำนวณต่ำกว่า และการติดตั้งใช้งานง่ายกว่าโมเดล Generative

เฟรมเวิร์ก ML แบบดั้งเดิมมีโซลูชันที่มีประสิทธิภาพ ปรับให้เหมาะสม และมักจะใช้งานได้จริงมากกว่าสำหรับแอปพลิเคชันที่มุ่งเน้นการวิเคราะห์อินพุต การระบุฟีเจอร์ หรือการคาดการณ์ตามรูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด เครื่องมือต่างๆ เช่น ML Kit, LiteRT และ MediaPipe ของ Google มีความสามารถอันทรงพลังที่ปรับแต่งมาสำหรับกรณีการใช้งานที่ไม่ใช่แบบ Generative โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมการประมวลผลบนอุปกรณ์เคลื่อนที่และการประมวลผลที่ต้นทาง

เริ่มต้นการผสานรวมแมชชีนเลิร์นนิงด้วย ML Kit

ML Kit มีโซลูชันที่พร้อมใช้งานจริงและได้รับการเพิ่มประสิทธิภาพสำหรับมือถือสำหรับงานแมชชีนเลิร์นนิงทั่วไป โดยไม่ต้องมีความเชี่ยวชาญด้าน ML มาก่อน SDK บนอุปกรณ์เคลื่อนที่ที่ใช้งานง่ายนี้ นำความเชี่ยวชาญด้าน ML ของ Google มาสู่แอป Android และ iOS โดยตรง ซึ่งช่วยให้คุณ มุ่งเน้นการพัฒนาฟีเจอร์แทนการฝึกและเพิ่มประสิทธิภาพโมเดลได้ ML Kit มี API ที่สร้างไว้ล่วงหน้าและโมเดลที่พร้อมใช้งานสำหรับฟีเจอร์ต่างๆ เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจหาใบหน้า การติดป้ายกำกับรูปภาพ การตรวจหาและการติดตามออบเจ็กต์ การระบุภาษา และการช่วยตอบ

โดยปกติแล้ว โมเดลเหล่านี้จะได้รับการเพิ่มประสิทธิภาพสำหรับการดำเนินการในอุปกรณ์ เพื่อให้มั่นใจว่าจะมีเวลาในการตอบสนองต่ำ ฟังก์ชันการทำงานแบบออฟไลน์ และความเป็นส่วนตัวของผู้ใช้ที่ดียิ่งขึ้น เนื่องจากข้อมูลมักจะยังคงอยู่ในอุปกรณ์ เลือก ML Kit เพื่อเพิ่มฟีเจอร์ ML ที่มีอยู่แล้วลงใน แอปบนอุปกรณ์เคลื่อนที่ได้อย่างรวดเร็วโดยไม่ต้องฝึกโมเดลหรือต้องใช้เอาต์พุตแบบ Generative เหมาะอย่างยิ่งสำหรับการเพิ่มประสิทธิภาพแอปอย่างมีประสิทธิภาพด้วยความสามารถ "อัจฉริยะ" โดยใช้โมเดลที่ได้รับการเพิ่มประสิทธิภาพของ Google หรือโดยการติดตั้งใช้งานโมเดล TensorFlow Lite ที่กำหนดเอง

เริ่มต้นใช้งานด้วยคำแนะนำและเอกสารประกอบที่ครอบคลุมของเราในเว็บไซต์สำหรับนักพัฒนาซอฟต์แวร์ ML Kit

การทำให้ ML ใช้งานได้แบบกำหนดเองด้วย LiteRT

หากต้องการควบคุมได้มากขึ้นหรือเพื่อนำโมเดล ML ของคุณเองไปใช้งาน ให้ใช้สแต็ก ML ที่กำหนดเอง ซึ่งสร้างขึ้นบน LiteRT และบริการ Google Play สแต็กนี้มีสิ่งจำเป็นสำหรับการ ติดตั้งใช้งานฟีเจอร์ ML ประสิทธิภาพสูง LiteRT เป็นชุดเครื่องมือที่ได้รับการเพิ่มประสิทธิภาพเพื่อ เรียกใช้โมเดล TensorFlow อย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่ อุปกรณ์แบบฝัง และอุปกรณ์ Edge ที่มีข้อจำกัดด้านทรัพยากร ซึ่งช่วยให้คุณเรียกใช้โมเดลที่มีขนาดเล็กลงและเร็วขึ้นอย่างมาก โดยใช้หน่วยความจำ พลังงาน และพื้นที่เก็บข้อมูลน้อยลง รันไทม์ LiteRT ได้รับการเพิ่มประสิทธิภาพอย่างมากสำหรับตัวเร่งฮาร์ดแวร์ต่างๆ (GPU, DSP, NPU) ในอุปกรณ์ Edge ซึ่งช่วยให้การอนุมานมีเวลาในการตอบสนองต่ำ

เลือก LiteRT เมื่อต้องการทำให้ใช้งานได้โมเดล ML ที่ฝึกแล้วอย่างมีประสิทธิภาพ (โดยทั่วไป สำหรับการจัดประเภท การถดถอย หรือการตรวจหา) ในอุปกรณ์ที่มี กำลังประมวลผลหรืออายุการใช้งานแบตเตอรี่จำกัด เช่น สมาร์ทโฟน อุปกรณ์ IoT หรือ ไมโครคอนโทรลเลอร์ ซึ่งเป็นโซลูชันที่แนะนำสำหรับการติดตั้งใช้งานโมเดลการคาดการณ์ที่กำหนดเองหรือมาตรฐานที่ Edge ซึ่งความเร็วและการประหยัดทรัพยากรเป็นสิ่งสำคัญที่สุด

ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตั้งใช้งาน ML ด้วย LiteRT

สร้างการรับรู้แบบเรียลไทม์ในแอปด้วย MediaPipe

MediaPipe มีโซลูชันแมชชีนเลิร์นนิงแบบโอเพนซอร์ส ข้ามแพลตฟอร์ม และปรับแต่งได้ ซึ่งออกแบบมาสำหรับสื่อแบบสดและสื่อสตรีมมิง รับประโยชน์จากเครื่องมือที่สร้างไว้ล่วงหน้าและเพิ่มประสิทธิภาพแล้วสำหรับงานที่ซับซ้อน เช่น การติดตามการเคลื่อนไหวของมือ การประมาณท่าทาง การตรวจจับตาข่ายใบหน้า และการตรวจจับออบเจ็กต์ ซึ่งทั้งหมดนี้ช่วยให้เกิดการโต้ตอบแบบเรียลไทม์ที่มีประสิทธิภาพสูงแม้ในอุปกรณ์เคลื่อนที่

ไปป์ไลน์แบบกราฟของ MediaPipe ปรับแต่งได้สูง ซึ่งช่วยให้คุณ ปรับแต่งโซลูชันสำหรับแอปพลิเคชัน Android, iOS, เว็บ, เดสก์ท็อป และแบ็กเอนด์ได้ เลือก MediaPipe เมื่อแอปพลิเคชันของคุณต้องทำความเข้าใจและตอบสนองต่อข้อมูลเซ็นเซอร์แบบเรียลไทม์ โดยเฉพาะสตรีมวิดีโอ สำหรับกรณีการใช้งาน เช่น การจดจำท่าทางสัมผัส เอฟเฟกต์ AR การติดตามฟิตเนส หรือการควบคุมอวตาร ซึ่งทั้งหมดนี้มุ่งเน้นไปที่การวิเคราะห์และตีความอินพุต

สำรวจโซลูชันและเริ่มสร้างด้วย MediaPipe

ผสานรวมแอปกับผู้ช่วยในอุปกรณ์

แม้ว่าการผสานรวม AI แบบดั้งเดิมจะมุ่งเน้นที่ "การนำ AI ไปใช้ในแอป" แต่คุณก็ยัง "นำแอปไปใช้ใน AI" ได้ด้วย การแชร์ฟังก์ชันการทำงานของแอปกับฟีเจอร์ AI ของระบบจะช่วยให้ผู้ช่วยระดับระบบ (เช่น Gemini) ค้นพบและเรียกใช้ความสามารถของแอปได้โดยอัตโนมัติ AppFunctions เป็นวิธีหลัก ในการผสานรวมนี้ ซึ่งช่วยให้แอปของคุณเข้าร่วม ระบบนิเวศ AI ของ Android ในวงกว้างได้

เลือกวิธีการ

เมื่อผสานรวม AI เพื่อปรับปรุงแอป Android คุณควรพิจารณาแนวทางหลัก 3 ประการ ได้แก่ การประมวลผลในอุปกรณ์ การใช้ประโยชน์จากโมเดลบนระบบคลาวด์ หรือการเพิ่มฟังก์ชันการทำงานของแอปไปยัง AI ระดับระบบ เครื่องมือต่างๆ เช่น ML Kit, Gemini Nano และ LiteRT ช่วยให้ความสามารถในอุปกรณ์ทำงานได้ ขณะที่ Gemini Cloud API ที่มี Firebase AI Logic จะให้การประมวลผลบนระบบคลาวด์ที่มีประสิทธิภาพ AppFunctions เป็นเส้นทางที่ 3 ซึ่งช่วยให้คุณ "นำแอปไปใช้ใน AI" ได้โดย ทำให้ฟีเจอร์ของแอปพร้อมใช้งานในระบบในลักษณะของเอเจนต์

โปรดพิจารณาปัจจัยต่อไปนี้เมื่อเลือกแนวทาง

ตัวประกอบ โซลูชันในอุปกรณ์ โซลูชันระบบคลาวด์
การเชื่อมต่อและฟังก์ชันการทำงานแบบออฟไลน์ เหมาะสำหรับการใช้งานแบบออฟไลน์ ทำงานได้โดยไม่ต้องเชื่อมต่อเครือข่าย ต้องมีการเชื่อมต่อเครือข่ายเพื่อสื่อสารกับเซิร์ฟเวอร์ระยะไกล
ความเป็นส่วนตัวของข้อมูล ประมวลผลและจัดเก็บข้อมูลที่ละเอียดอ่อนในอุปกรณ์ ข้อมูลจะส่งไปยังระบบคลาวด์ ซึ่งต้องอาศัยความเชื่อมั่นในความปลอดภัยของผู้ให้บริการ
การค้นพบได้และการเข้าถึง การผสานรวมระบบปฏิบัติการโดยตรง (AppFunctions) ช่วยให้ผู้ช่วย ค้นพบฟีเจอร์ต่างๆ ได้ โดยปกติแล้ว การค้นพบจะจำกัดไว้ที่ UI ภายในของแอปหรือ การผสานรวม API ที่เฉพาะเจาะจง
ความสามารถของโมเดล เพิ่มประสิทธิภาพสำหรับเวลาในการตอบสนองต่ำและงานที่เฉพาะเจาะจงซึ่งใช้ทรัพยากรน้อยกว่า โมเดลที่มีประสิทธิภาพซึ่งสามารถจัดการกับความซับซ้อนสูงและ อินพุตขนาดใหญ่
ข้อควรพิจารณาด้านค่าใช้จ่าย ไม่มีค่าธรรมเนียมต่อการใช้งานโดยตรง แต่จะใช้ฮาร์ดแวร์ของอุปกรณ์ที่มีอยู่ โดยปกติแล้วจะเกี่ยวข้องกับการกำหนดราคาตามการใช้งานหรือค่าสมัครใช้บริการต่อเนื่อง
ทรัพยากรของอุปกรณ์ ใช้พื้นที่เก็บข้อมูลในเครื่อง, RAM และอายุการใช้งานแบตเตอรี่ ผลกระทบในเครื่องน้อยมาก โดยจะมีการส่งต่อการประมวลผลที่ซับซ้อนไปยังเซิร์ฟเวอร์
การปรับแต่ง มีความยืดหยุ่นจำกัดและถูกจำกัดโดยความสามารถของฮาร์ดแวร์ในพื้นที่ มีความยืดหยุ่นมากขึ้นสำหรับการปรับแต่งที่ครอบคลุมและการปรับแต่งขนาดใหญ่
ความสอดคล้องข้ามแพลตฟอร์ม ความพร้อมใช้งานอาจแตกต่างกันไปตามการรองรับระบบปฏิบัติการและฮาร์ดแวร์ ประสบการณ์การใช้งานที่สอดคล้องกันในทุกแพลตฟอร์มที่มีการเข้าถึงอินเทอร์เน็ต

การพิจารณาข้อกำหนดของ Use Case และตัวเลือกที่มีอย่างรอบคอบจะช่วยให้คุณพบโซลูชัน AI/ML ที่เหมาะสมที่สุดเพื่อปรับปรุงแอป Android และมอบประสบการณ์อัจฉริยะที่ปรับตามโปรไฟล์ของผู้ใช้


คู่มือโซลูชัน AI/ML

คู่มือโซลูชันนี้จะช่วยคุณระบุเครื่องมือสำหรับนักพัฒนาแอปที่เหมาะสมเพื่อ ผสานรวมเทคโนโลยี AI/ML เข้ากับโปรเจ็กต์ Android

เป้าหมายหลักของฟีเจอร์ AI คืออะไร

  • ก) สร้างเนื้อหาใหม่ (ข้อความ คำอธิบายรูปภาพ) หรือประมวลผลข้อความอย่างง่าย (สรุป ตรวจตัวสะกด หรือเขียนข้อความใหม่) → ไปที่ Generative AI
  • ข) วิเคราะห์ข้อมูล/อินพุตที่มีอยู่เพื่อการคาดการณ์ การจัดประเภท การตรวจหา การทำความเข้าใจรูปแบบ หรือการประมวลผลสตรีมแบบเรียลไทม์ (เช่น วิดีโอ/เสียง) ใช่ไหม → ไปที่ML และการรับรู้แบบดั้งเดิม
  • ค) การปรับปรุงฟังก์ชันการทำงานของแอปเพื่อผสานรวมกับฟีเจอร์ AI ของระบบ (การนำแอปของคุณไปใช้ใน AI) → ไปที่การนำแอปของคุณไปใช้ใน AI

ML และการรับรู้แบบดั้งเดิม

คุณต้องวิเคราะห์อินพุต ระบุฟีเจอร์ หรือทำการคาดการณ์โดยอิงตาม รูปแบบที่เรียนรู้มา แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด

คุณกำลังทำภารกิจอะไรอยู่

  • ก) ต้องการผสานรวมฟีเจอร์ ML ทั่วไปสำหรับอุปกรณ์เคลื่อนที่ที่สร้างไว้ล่วงหน้าอย่างรวดเร็วใช่ไหม (เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและการติดตามออบเจ็กต์ การระบุภาษา การตอบกลับอัจฉริยะพื้นฐาน)
    • → ใช้: ML Kit (API แบบเดิม)
    • เหตุผล: ผสานรวมได้ง่ายที่สุดสำหรับ งาน ML บนอุปกรณ์เคลื่อนที่ที่สร้างไว้แล้ว ซึ่งมักจะเพิ่มประสิทธิภาพสำหรับการใช้งานในอุปกรณ์ (เวลาในการตอบสนองต่ำ ออฟไลน์ ความเป็นส่วนตัว)
  • ข) ต้องการประมวลผลข้อมูลการสตรีมแบบเรียลไทม์ (เช่น วิดีโอหรือเสียง) สำหรับ งานการรับรู้ใช่ไหม (เช่น การติดตามการเคลื่อนไหวของมือ การประมาณท่าทาง โครงข่ายใบหน้า การตรวจหาและการแบ่งกลุ่มวัตถุแบบเรียลไทม์ในวิดีโอ)
    • → ใช้: MediaPipe
    • เหตุผล: เฟรมเวิร์กที่เชี่ยวชาญด้าน ไปป์ไลน์การรับรู้แบบเรียลไทม์ที่มีประสิทธิภาพสูงในแพลตฟอร์มต่างๆ
  • ค) ต้องการเรียกใช้โมเดล ML ที่ฝึกเองแบบกำหนดเองอย่างมีประสิทธิภาพ (เช่น สำหรับ การจัดประเภท การถดถอย การตรวจหา) ในอุปกรณ์ โดยให้ความสำคัญกับ ประสิทธิภาพและการใช้ทรัพยากรต่ำใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite)
    • เหตุผล: รันไทม์ที่เพิ่มประสิทธิภาพสำหรับการ ติดตั้งใช้งานโมเดลที่กำหนดเองอย่างมีประสิทธิภาพในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (ขนาดเล็ก การอนุมานที่รวดเร็ว การเร่งด้วยฮาร์ดแวร์)
  • ง) ต้องการฝึกโมเดล ML แบบกำหนดเองของคุณเองสำหรับงานที่เฉพาะเจาะจงใช่ไหม
    • → ใช้: LiteRT (รันไทม์ของ TensorFlow Lite) + การฝึกโมเดลที่กำหนดเอง
    • เหตุผล: มีเครื่องมือในการ ฝึกและใช้งานโมเดลที่กำหนดเอง ซึ่งเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge
  • จ) ต้องการการจัดประเภทเนื้อหาขั้นสูง การวิเคราะห์ความเห็น หรือ การแปลหลายภาษาที่มีความแตกต่างสูงไหม
    • พิจารณาว่าโมเดล ML แบบดั้งเดิม (อาจทำให้ใช้งานได้โดยใช้ LiteRT หรือระบบคลาวด์) เหมาะสมหรือไม่ หรือหาก NLU ขั้นสูงต้องใช้โมเดล Generative (กลับไปที่เริ่ม เลือก A) สำหรับการแยกประเภท ความรู้สึก หรือการแปลในระบบคลาวด์ ให้ทำดังนี้
    • → ใช้: โซลูชันบนระบบคลาวด์ (เช่น Google Cloud Natural Language API, Google Cloud Translation API, อาจเข้าถึงได้โดยใช้แบ็กเอนด์ที่กำหนดเองหรือ Vertex AI) (ลำดับความสำคัญต่ำกว่าตัวเลือกในอุปกรณ์หากออฟไลน์หรือ ความเป็นส่วนตัวเป็นสิ่งสำคัญ)
    • เหตุผล: โซลูชันระบบคลาวด์มี โมเดลที่มีประสิทธิภาพและการรองรับภาษาที่หลากหลาย แต่ต้องมีการเชื่อมต่อ และอาจมีค่าใช้จ่าย

Generative AI

คุณต้องสร้างเนื้อหาใหม่ สรุป เขียนใหม่ หรือทํางานที่ต้องใช้ความเข้าใจหรือการโต้ตอบที่ซับซ้อน

คุณต้องการให้ AI ทำงานแบบออฟไลน์ ต้องการความเป็นส่วนตัวของข้อมูลสูงสุด (เก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์) หรือต้องการหลีกเลี่ยงค่าใช้จ่ายในการอนุมานบนคลาวด์

  • ก) ใช่ ออฟไลน์ ความเป็นส่วนตัวสูงสุด หรือไม่มีค่าใช้จ่ายในระบบคลาวด์เป็นสิ่งสำคัญ
  • ข) ไม่ การเชื่อมต่อพร้อมใช้งานและยอมรับได้ ความสามารถของระบบคลาวด์และความสามารถในการปรับขนาดมีความสำคัญมากกว่า หรือฟีเจอร์บางอย่างต้องใช้ระบบคลาวด์

Generative AI ในอุปกรณ์ (ใช้ Gemini Nano)

ข้อควรทราบ: ต้องใช้อุปกรณ์ Android ที่รองรับ, รองรับ iOS แบบจำกัด, โมเดล มีประสิทธิภาพน้อยกว่ารุ่นที่ทำงานบนระบบคลาวด์

Prompt API ของ ML Kit ช่วยให้คุณส่งคำขอภาษาธรรมชาติด้วยอินพุตที่เป็นข้อความเท่านั้น หรืออินพุตที่เป็นข้อความและรูปภาพสำหรับกรณีการใช้งานต่างๆ เช่น ความเข้าใจรูปภาพ การแปลแบบสั้น และการสรุปแบบมีคำแนะนำ หากกรณีการใช้งานของคุณเป็นไปตามขีดจำกัดโทเค็นเหล่านี้ API ของ ML Kit GenAI จะเป็นตัวเลือกที่ดีที่สุดสำหรับ Generative AI ในอุปกรณ์ นอกจากนี้ ML Kit ยังมี API ที่ได้รับการเพิ่มประสิทธิภาพสำหรับงานทั่วไป เช่น การสรุปและการช่วยตอบ

  • → ใช้: ML Kit GenAI API (ขับเคลื่อนโดย Gemini Nano)
  • เหตุผล: วิธีที่ง่ายที่สุดในการผสานรวม งาน Generative AI ในอุปกรณ์โดยใช้พรอมต์ที่เป็นภาษาธรรมชาติ โซลูชันในอุปกรณ์ที่มีลำดับความสำคัญสูงสุด

Generative AI บนคลาวด์

ใช้โมเดลที่มีประสิทธิภาพมากขึ้น ต้องมีการเชื่อมต่อ มักมี ค่าใช้จ่ายในการอนุมาน เข้าถึงอุปกรณ์ได้กว้างขึ้น และรักษาความสอดคล้องข้ามแพลตฟอร์ม (Android และ iOS) ได้ง่ายขึ้น

คุณให้ความสำคัญกับอะไร ความสะดวกในการผสานรวมภายใน Firebase หรือความยืดหยุ่น/การควบคุมสูงสุด

  • ก) ต้องการการผสานรวมที่ง่ายขึ้น ประสบการณ์การใช้งาน API ที่มีการจัดการ และมีแนวโน้มที่จะใช้ Firebase อยู่แล้วใช่ไหม
  • ข) ต้องการความยืดหยุ่นสูงสุด สิทธิ์เข้าถึงโมเดลที่หลากหลายที่สุด (รวมถึงโมเดลของบุคคลที่สาม/โมเดลที่กำหนดเอง) การปรับแต่งขั้นสูง และยินดีที่จะ จัดการการผสานรวมแบ็กเอนด์ของคุณเอง (ซับซ้อนกว่า)?
    • → ใช้: Gemini API กับแบ็กเอนด์ระบบคลาวด์ที่กำหนดเอง (ใช้ Google Cloud Platform)
    • เหตุผล: ให้การควบคุมมากที่สุด การเข้าถึงโมเดลที่กว้างที่สุด และตัวเลือกการฝึกที่กำหนดเอง แต่ต้องใช้ความพยายามอย่างมากในการพัฒนาแบ็กเอนด์ เหมาะสำหรับความต้องการที่ซับซ้อน ขนาดใหญ่ หรือมีการปรับแต่งสูง

(คุณเลือก Firebase AI Logic SDK) คุณต้องการงานแบบ Generative และโปรไฟล์ประสิทธิภาพประเภทใด

  • ก) ต้องการความสมดุลระหว่างประสิทธิภาพและต้นทุนที่เหมาะสำหรับการสร้างข้อความ การสรุป หรือแอปพลิเคชันแชททั่วไปที่ความเร็วเป็นสิ่งสำคัญใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Flash
    • เหตุผล: เพิ่มประสิทธิภาพด้านความเร็วและ ประสิทธิภาพภายในสภาพแวดล้อมที่มีการจัดการของ Vertex AI
  • ข) ต้องการคุณภาพและความสามารถที่สูงขึ้นสำหรับการสร้างข้อความที่ซับซ้อน การให้เหตุผล, NLU ขั้นสูง หรือการปฏิบัติตามคำสั่งใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Gemini Pro
    • เหตุผล: โมเดลข้อความที่ทรงพลังยิ่งขึ้น สำหรับงานที่ต้องการความสามารถสูง ซึ่งเข้าถึงได้ผ่าน Firebase
  • ค) ต้องการการสร้างรูปภาพที่ซับซ้อนหรือการทำความเข้าใจหรือการปรับแต่งรูปภาพขั้นสูงตามพรอมต์ข้อความใช่ไหม
    • → ใช้: Firebase AI Logic SDK กับ Imagen 3
    • เหตุผล: โมเดลการสร้างรูปภาพที่ล้ำสมัย ซึ่งเข้าถึงได้โดยใช้สภาพแวดล้อม Firebase ที่มีการจัดการ

AppFunctions

คุณต้องปรับปรุงฟังก์ชันการทำงานของแอปเพื่อผสานรวมกับฟีเจอร์ AI ของระบบ (นำแอปของคุณไปใช้ใน AI)

  • → ใช้: AppFunctions
  • เหตุผล: ช่วยให้ฟีเจอร์ AI ของระบบ เช่น Assistant ค้นพบและเรียกใช้ความสามารถของแอป