คู่มือนี้ออกแบบมาเพื่อช่วยให้คุณผสานรวมโซลูชันปัญญาประดิษฐ์แบบ Generative และแมชชีนเลิร์นนิง (AI/ML) ของ Google เข้ากับแอปพลิเคชัน คู่มือนี้ให้คําแนะนําเพื่อช่วยคุณไปยังส่วนต่างๆ ของโซลูชันปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงที่มีให้ใช้งาน และเลือกโซลูชันที่เหมาะกับความต้องการมากที่สุด เป้าหมายของเอกสารนี้คือเพื่อช่วยคุณเลือกเครื่องมือที่จะใช้และเหตุผลในการใช้ โดยมุ่งเน้นที่ความต้องการและกรณีการใช้งาน
เอกสารนี้มีคู่มือโซลูชันเพื่อช่วยคุณเลือกโซลูชัน AI/ML ที่เหมาะกับข้อกำหนดเฉพาะของคุณมากที่สุด เมื่อตอบชุดคำถามเกี่ยวกับเป้าหมายและข้อจำกัดของโปรเจ็กต์ คำแนะนำจะนําคุณไปยังเครื่องมือและเทคโนโลยีที่เหมาะสมที่สุด
คำแนะนำนี้จะช่วยคุณเลือกโซลูชัน AI ที่ดีที่สุดสำหรับแอป โดยพิจารณาจากปัจจัยต่อไปนี้ ประเภทข้อมูล (ข้อความ รูปภาพ เสียง วิดีโอ) ความซับซ้อนของงาน (การสรุปแบบง่ายไปจนถึงงานที่ซับซ้อนซึ่งต้องใช้ความรู้เฉพาะทาง) และขนาดข้อมูล (อินพุตสั้นๆ เทียบกับเอกสารขนาดใหญ่) ซึ่งจะช่วยให้คุณตัดสินใจได้ว่าจะเลือกใช้ Gemini Nano ในอุปกรณ์หรือ AI บนระบบคลาวด์ของ Firebase (Gemini Flash, Gemini Pro หรือ Imagen)
ใช้ประโยชน์จากความสามารถในการอนุมานในอุปกรณ์
เมื่อเพิ่มฟีเจอร์ AI และ ML ลงในแอป Android คุณสามารถเลือกวิธีต่างๆ ในการแสดงฟีเจอร์เหล่านี้ได้ ไม่ว่าจะเป็นในอุปกรณ์หรือใช้ระบบคลาวด์
โซลูชันในอุปกรณ์อย่าง Gemini Nano จะให้ผลลัพธ์โดยไม่มีค่าใช้จ่ายเพิ่มเติม เพิ่มความเป็นส่วนตัวของผู้ใช้ และมอบฟังก์ชันการทำงานแบบออฟไลน์ที่เชื่อถือได้เนื่องจากระบบจะประมวลผลข้อมูลอินพุตในเครื่อง ประโยชน์เหล่านี้อาจสําคัญสําหรับ Use Case บางรายการ เช่น การสรุปข้อความ ซึ่งทำให้อุปกรณ์เป็นลําดับความสําคัญเมื่อเลือกโซลูชันที่เหมาะสม
Gemini Nano ช่วยให้คุณทำการอนุมานได้โดยตรงในอุปกรณ์ที่ทำงานด้วยระบบ Android หากต้องการจัดการกับข้อความหรือรูปภาพ ให้เริ่มต้นด้วย GenAI API ของ ML Kit เพื่อดูโซลูชันสำเร็จรูป ML Kit GenAI API ทำงานด้วย Gemini Nano และได้รับการปรับแต่งให้เหมาะกับงานบางอย่างบนอุปกรณ์ API ของ GenAI ใน ML Kit เป็นเส้นทางที่เหมาะสมสําหรับแอปของคุณในการนำไปใช้งานจริง เนื่องจากมีอินเทอร์เฟซและความสามารถในการปรับขนาดที่สูงขึ้น API เหล่านี้ช่วยให้คุณใช้ Use Case เพื่อสรุป แก้ไข และเขียนใหม่ข้อความ รวมถึงสร้างคำอธิบายรูปภาพได้
หากต้องการใช้กรณีการใช้งานที่นอกเหนือจากกรณีการใช้งานพื้นฐานที่ ML Kit GenAI API มีให้ ให้ลองใช้สิทธิ์เข้าถึงแบบทดลองของ Gemini Nano สิทธิ์เข้าถึงเวอร์ชันทดลองของ Gemini Nano ช่วยให้คุณเข้าถึงพรอมต์ที่กำหนดเองด้วย Gemini Nano ได้โดยตรงมากขึ้น
สําหรับงานแมชชีนเลิร์นนิงแบบดั้งเดิม คุณมีความยืดหยุ่นในการใช้โมเดลที่กําหนดเอง เรามีเครื่องมือที่มีประสิทธิภาพ เช่น ML Kit, MediaPipe, LiteRT และฟีเจอร์การนำส่งของ Google Play เพื่อปรับปรุงกระบวนการพัฒนาของคุณให้มีประสิทธิภาพยิ่งขึ้น
สําหรับแอปพลิเคชันที่ต้องอาศัยโซลูชันเฉพาะทางสูง คุณสามารถใช้โมเดลที่กําหนดเอง เช่น Gemma หรือโมเดลอื่นที่ปรับให้เหมาะกับกรณีการใช้งานที่เฉพาะเจาะจง เรียกใช้โมเดลในอุปกรณ์ของผู้ใช้โดยตรงด้วย LiteRT ซึ่งมีสถาปัตยกรรมโมเดลที่ออกแบบไว้ล่วงหน้าเพื่อประสิทธิภาพที่ดีที่สุด
นอกจากนี้ คุณยังพิจารณาสร้างโซลูชันแบบผสมโดยใช้ประโยชน์จากทั้งรูปแบบในอุปกรณ์และรูปแบบระบบคลาวด์ได้ด้วย
แอปบนอุปกรณ์เคลื่อนที่มักใช้โมเดลในเครื่องสำหรับข้อมูลข้อความขนาดเล็ก เช่น การสนทนาทางแชทหรือบทความในบล็อก อย่างไรก็ตาม สำหรับแหล่งข้อมูลขนาดใหญ่ (เช่น PDF) หรือเมื่อต้องใช้ความรู้เพิ่มเติม คุณอาจต้องใช้โซลูชันที่ทำงานบนระบบคลาวด์ซึ่งมีโมเดล Gemini ที่มีประสิทธิภาพมากขึ้น
ผสานรวมโมเดลขั้นสูงของ Gemini
นักพัฒนาแอป Android สามารถผสานรวมความสามารถของ Generative AI ขั้นสูงของ Google ซึ่งรวมถึงโมเดล Gemini Pro, Gemini Flash และ Imagen ที่มีประสิทธิภาพ เข้ากับแอปพลิเคชันของตนได้โดยใช้ Firebase AI Logic SDK SDK นี้ออกแบบมาเพื่อความต้องการด้านข้อมูลที่มากขึ้น รวมถึงมอบความสามารถและการปรับตัวที่มากขึ้นด้วยการเปิดใช้การเข้าถึงโมเดล AI แบบหลายรูปแบบที่มีประสิทธิภาพสูงเหล่านี้
Firebase AI Logic SDK ช่วยให้นักพัฒนาแอปเรียกใช้โมเดล AI ของ Google ฝั่งไคลเอ็นต์ได้ง่ายๆ โมเดลเหล่านี้ เช่น Gemini Pro และ Gemini Flash จะทำงานในระบบคลาวด์และช่วยให้แอป Android ประมวลผลอินพุตที่หลากหลายได้ ซึ่งรวมถึงรูปภาพ เสียง วิดีโอ และข้อความ Gemini Pro โดดเด่นด้านการหาเหตุผลสำหรับปัญหาที่ซับซ้อนและการวิเคราะห์ข้อมูลจำนวนมาก ส่วนซีรีส์ Gemini Flash มอบความเร็วที่เหนือกว่าและมีหน้าต่างบริบทที่ใหญ่พอสำหรับงานส่วนใหญ่
กรณีที่ควรใช้แมชชีนเลิร์นนิงแบบดั้งเดิม
แม้ว่า Generative AI จะมีประโยชน์ในการสร้างและแก้ไขเนื้อหา เช่น ข้อความ รูปภาพ และโค้ด แต่ปัญหาในชีวิตจริงหลายอย่างจะแก้ไขได้ดีกว่าโดยใช้เทคนิค Machine Learning (ML) แบบดั้งเดิม วิธีการที่ผ่านการพิสูจน์แล้วเหล่านี้มีประสิทธิภาพยอดเยี่ยมในงานที่เกี่ยวข้องกับการคาดการณ์ การจัดประเภท การตรวจจับ และการทําความเข้าใจรูปแบบภายในข้อมูลที่มีอยู่ โดยมักจะมีประสิทธิภาพมากกว่า ต้นทุนการประมวลผลต่ำกว่า และใช้งานได้ง่ายกว่าโมเดล Generative
เฟรมเวิร์ก ML แบบดั้งเดิมมีโซลูชันที่มีประสิทธิภาพ ได้รับการเพิ่มประสิทธิภาพ และมักจะใช้งานได้จริงมากกว่าสําหรับแอปพลิเคชันที่มุ่งเน้นการวิเคราะห์อินพุต การระบุฟีเจอร์ หรือการคาดการณ์ตามรูปแบบที่เรียนรู้ แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด เครื่องมืออย่าง ML Kit, LiteRT และ MediaPipe ของ Google มอบความสามารถอันทรงประสิทธิภาพที่ปรับให้เหมาะกับกรณีการใช้งานที่ไม่สร้างข้อมูลเหล่านี้ โดยเฉพาะในสภาพแวดล้อมการประมวลผลแบบ Edge และอุปกรณ์เคลื่อนที่
เริ่มต้นการผสานรวมแมชชีนเลิร์นนิงด้วย ML Kit
ML Kit มีโซลูชันที่พร้อมใช้งานจริงและเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่สำหรับงานแมชชีนเลิร์นนิงทั่วไป ซึ่งไม่จําเป็นต้องมีความเชี่ยวชาญด้าน ML มาก่อน SDK บนอุปกรณ์เคลื่อนที่ที่ใช้งานง่ายนี้จะนำความเชี่ยวชาญด้าน ML ของ Google มาใช้กับแอป Android และ iOS โดยตรง ซึ่งจะช่วยให้คุณมุ่งเน้นที่การพัฒนาฟีเจอร์แทนการฝึกโมเดลและการเพิ่มประสิทธิภาพ MLKit มี API ที่สร้างขึ้นล่วงหน้าและโมเดลที่พร้อมใช้งานสําหรับฟีเจอร์ต่างๆ เช่น การสแกนบาร์โค้ด การจดจําข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกํากับรูปภาพ การตรวจจับและการติดตามวัตถุ การระบุภาษา และการตอบกลับอัจฉริยะ
โดยปกติแล้วโมเดลเหล่านี้จะได้รับการปรับปรุงให้เหมาะกับการทำงานในอุปกรณ์ เพื่อให้มั่นใจว่าเวลาในการตอบสนองต่ำ ฟังก์ชันการทำงานแบบออฟไลน์ และความเป็นส่วนตัวของผู้ใช้ที่เพิ่มขึ้น เนื่องจากข้อมูลมักจะยังคงอยู่ในอุปกรณ์ เลือก ML Kit เพื่อเพิ่มฟีเจอร์ ML ที่มีอยู่ลงในแอปบนอุปกรณ์เคลื่อนที่ได้อย่างรวดเร็วโดยไม่ต้องฝึกโมเดลหรือต้องการเอาต์พุตแบบ Generative เหมาะสําหรับการปรับปรุงแอปอย่างมีประสิทธิภาพด้วยความสามารถที่ "อัจฉริยะ" โดยใช้โมเดลที่เพิ่มประสิทธิภาพของ Google หรือการใช้โมเดล TensorFlow Lite ที่กําหนดเอง
เริ่มต้นใช้งานด้วยคู่มือและเอกสารประกอบที่ครอบคลุมในเว็บไซต์สำหรับนักพัฒนาซอฟต์แวร์ของ ML Kit
การติดตั้งใช้งาน ML ที่กําหนดเองด้วย LiteRT
หากต้องการควบคุมได้มากขึ้นหรือเพื่อติดตั้งใช้งานโมเดล ML ของคุณเอง ให้ใช้แพ็กเกจ ML ที่กําหนดเองซึ่งสร้างขึ้นจาก LiteRT และบริการ Google Play สแต็กนี้ให้ข้อมูลที่จำเป็นสําหรับการทําให้ฟีเจอร์ ML มีประสิทธิภาพสูง LiteRT เป็นชุดเครื่องมือที่เพิ่มประสิทธิภาพให้เรียกใช้โมเดล TensorFlow ได้อย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่ อุปกรณ์แบบฝัง และอุปกรณ์เอดจ์ที่มีทรัพยากรจํากัด ซึ่งช่วยให้คุณเรียกใช้โมเดลที่เล็กและเร็วขึ้นอย่างมาก ซึ่งใช้หน่วยความจํา พลังงาน และพื้นที่เก็บข้อมูลน้อยลง รันไทม์ LiteRT ได้รับการเพิ่มประสิทธิภาพอย่างสูงสำหรับตัวเร่งฮาร์ดแวร์ต่างๆ (GPU, DSP, NPU) ในอุปกรณ์เอดจ์ ซึ่งช่วยให้สามารถอนุมานได้โดยมีเวลาในการตอบสนองต่ำ
เลือก LiteRT เมื่อคุณต้องการนำโมเดล ML ที่ผ่านการฝึกอบรมไปใช้งานอย่างมีประสิทธิภาพ (โดยทั่วไปจะใช้สำหรับการแยกประเภท การหาค่าประมาณ หรือการตรวจจับ) ในอุปกรณ์ที่มีกำลังในการประมวลผลหรืออายุการใช้งานแบตเตอรี่จํากัด เช่น สมาร์ทโฟน อุปกรณ์ IoT หรือไมโครคอนโทรลเลอร์ นี่เป็นโซลูชันที่แนะนำสำหรับการใช้โมเดลการคาดการณ์แบบกำหนดเองหรือมาตรฐานที่อุปกรณ์ขอบ ซึ่งความเร็วและการประหยัดทรัพยากรมีความสำคัญอย่างยิ่ง
ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตั้งใช้งาน ML ด้วย LiteRT
สร้างการรับรู้แบบเรียลไทม์ในแอปด้วย MediaPipe
MediaPipe มีโซลูชันแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ทำงานข้ามแพลตฟอร์มและปรับแต่งได้ ซึ่งออกแบบมาสำหรับสื่อแบบสดและสตรีมมิง รับประโยชน์จากเครื่องมือที่สร้างขึ้นล่วงหน้าซึ่งเพิ่มประสิทธิภาพแล้วสำหรับงานที่ซับซ้อน เช่น การติดตามมือ การประมาณท่าทาง การตรวจจับเมชใบหน้า และการตรวจจับวัตถุ ซึ่งทั้งหมดนี้ช่วยให้การโต้ตอบแบบเรียลไทม์มีประสิทธิภาพสูงได้แม้ในอุปกรณ์เคลื่อนที่
ไปป์ไลน์ที่อิงตามกราฟของ MediaPipe ปรับแต่งได้สูง ซึ่งช่วยให้คุณปรับแต่งโซลูชันสำหรับแอปพลิเคชัน Android, iOS, เว็บ, เดสก์ท็อป และแบ็กเอนด์ได้ เลือก MediaPipe เมื่อแอปพลิเคชันต้องเข้าใจและตอบสนองต่อข้อมูลเซ็นเซอร์แบบเรียลไทม์โดยทันที โดยเฉพาะสตรีมวิดีโอสำหรับกรณีการใช้งาน เช่น การจดจำท่าทางสัมผัส เอฟเฟกต์ AR การติดตามการออกกำลังกาย หรือการควบคุมรูปแทน ซึ่งทั้งหมดมุ่งเน้นที่การวิเคราะห์และตีความอินพุต
สำรวจโซลูชันและเริ่มสร้างด้วย MediaPipe
เลือกวิธีการ: บนอุปกรณ์หรือระบบคลาวด์
เมื่อผสานรวมฟีเจอร์ AI/ML เข้ากับแอป Android การตัดสินใจที่สำคัญในช่วงต้นคือการประมวลผลในอุปกรณ์ของผู้ใช้โดยตรงหรือในระบบคลาวด์ เครื่องมืออย่าง ML Kit, Gemini Nano และ TensorFlow Lite ช่วยเปิดใช้ความสามารถในอุปกรณ์ ส่วน API คลาวด์ของ Gemini ที่มี Firebase AI Logic จะให้การประมวลผลที่มีประสิทธิภาพในระบบคลาวด์ การเลือกตัวเลือกที่เหมาะสมขึ้นอยู่กับปัจจัยหลายประการที่เจาะจงสำหรับกรณีการใช้งานและความต้องการของผู้ใช้
พิจารณาแง่มุมต่อไปนี้เพื่อใช้เป็นแนวทางในการตัดสินใจ
- การเชื่อมต่อและฟังก์ชันการทำงานแบบออฟไลน์: หากแอปพลิเคชันต้องทำงานได้อย่างน่าเชื่อถือแม้ไม่มีการเชื่อมต่ออินเทอร์เน็ต โซลูชันในอุปกรณ์อย่าง Gemini Nano เหมาะอย่างยิ่ง การประมวลผลบนระบบคลาวด์จำเป็นต้องมีการเข้าถึงเครือข่าย
- ความเป็นส่วนตัวของข้อมูล: สําหรับกรณีการใช้งานที่ข้อมูลผู้ใช้ต้องอยู่ในอุปกรณ์เพื่อเหตุผลด้านความเป็นส่วนตัว การประมวลผลในอุปกรณ์มีข้อดีอย่างชัดเจนเนื่องจากเก็บข้อมูลที่ละเอียดอ่อนไว้ในเครื่อง
- ความสามารถของโมเดลและความซับซ้อนของงาน: โมเดลที่ทำงานบนระบบคลาวด์มักจะมีขนาดใหญ่กว่า มีประสิทธิภาพมากกว่า และได้รับการอัปเดตบ่อยกว่ามาก จึงเหมาะสำหรับงานที่ซับซ้อนสูงของ AI หรือเมื่อประมวลผลอินพุตขนาดใหญ่ที่คุณภาพเอาต์พุตสูงขึ้นและความสามารถที่ครอบคลุมเป็นสิ่งสำคัญ โมเดลในอุปกรณ์อาจจัดการงานง่ายๆ ได้ดี
- การพิจารณาค่าใช้จ่าย: โดยปกติแล้ว Cloud API จะกำหนดราคาตามการใช้งาน ซึ่งหมายความว่าค่าใช้จ่ายจะเพิ่มขึ้นตามจำนวนการอนุมานหรือปริมาณข้อมูลที่ประมวลผล แม้ว่าโดยทั่วไปแล้วการอนุมานในอุปกรณ์จะไม่มีการเรียกเก็บเงินโดยตรงต่อการใช้งาน แต่ก็มีค่าใช้จ่ายในการพัฒนาและอาจส่งผลต่อทรัพยากรของอุปกรณ์ เช่น อายุการใช้งานแบตเตอรี่และประสิทธิภาพโดยรวม
- ทรัพยากรของอุปกรณ์: โมเดลในอุปกรณ์จะใช้พื้นที่เก็บข้อมูลในอุปกรณ์ของผู้ใช้ นอกจากนี้ คุณยังควรคำนึงถึงความเข้ากันได้ของอุปกรณ์สำหรับโมเดลในอุปกรณ์บางรุ่น เช่น Gemini Nano เพื่อให้มั่นใจว่ากลุ่มเป้าหมายของคุณจะใช้ฟีเจอร์ดังกล่าวได้
- การปรับแต่งแบบละเอียด: หากต้องการปรับแต่งโมเดลให้เหมาะกับ Use Case ที่เฉพาะเจาะจง โซลูชันที่ใช้ระบบคลาวด์มักจะมีความยืดหยุ่นมากกว่าและมีตัวเลือกการปรับแต่งที่หลากหลายกว่า
- ความสอดคล้องข้ามแพลตฟอร์ม: หากฟีเจอร์ AI ที่สอดคล้องกันในหลายแพลตฟอร์ม รวมถึง iOS มีความสำคัญ โปรดทราบว่าโซลูชันบางอย่างในอุปกรณ์ เช่น Gemini Nano อาจยังไม่พร้อมให้บริการในระบบปฏิบัติการบางระบบ
เมื่อพิจารณาข้อกำหนดของ Use Case และตัวเลือกที่มีอย่างรอบคอบแล้ว คุณจะสามารถค้นหาโซลูชัน AI/ML ที่เหมาะที่สุดเพื่อปรับปรุงแอป Android และมอบประสบการณ์การใช้งานที่ชาญฉลาดและปรับเปลี่ยนในแบบของคุณให้แก่ผู้ใช้
คู่มือเกี่ยวกับโซลูชัน AI/ML
คู่มือโซลูชันนี้จะช่วยคุณระบุเครื่องมือสำหรับนักพัฒนาแอปที่เหมาะสมสำหรับการผสานรวมเทคโนโลยี AI/ML เข้ากับโปรเจ็กต์ Android
เป้าหมายหลักของฟีเจอร์ AI คืออะไร
- ก) การสร้างเนื้อหาใหม่ (ข้อความ คำอธิบายรูปภาพ) หรือการดำเนินการประมวลผลข้อความอย่างง่าย (การสรุป การพิสูจน์อักษร หรือการเขียนข้อความใหม่) → ไปที่ Generative AI
- ข) วิเคราะห์ข้อมูล/อินพุตที่มีอยู่เพื่อคาดการณ์ จัดประเภท ตรวจจับ ทำความเข้าใจรูปแบบ หรือประมวลผลสตรีมแบบเรียลไทม์ (เช่น วิดีโอ/เสียง) → ไปที่ ML แบบดั้งเดิมและการรับรู้
ML แบบดั้งเดิมและการรับรู้
คุณต้องวิเคราะห์อินพุต ระบุฟีเจอร์ หรือทําการคาดการณ์โดยอิงตามรูปแบบที่เรียนรู้ แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด
คุณกําลังทํางานอะไรอยู่
- ตอบ) หากต้องการผสานรวมฟีเจอร์ ML ทั่วไปบนอุปกรณ์เคลื่อนที่ที่สร้างไว้ล่วงหน้าอย่างรวดเร็ว
(เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและติดตามวัตถุ รหัสภาษา การช่วยตอบแบบพื้นฐาน)
- → ใช้: ML Kit (API แบบดั้งเดิม)
- เหตุผล: การผสานรวมที่ง่ายที่สุดสําหรับงาน ML บนอุปกรณ์เคลื่อนที่ที่ใช้งานอยู่ ซึ่งมักจะได้รับการเพิ่มประสิทธิภาพสําหรับการใช้งานในอุปกรณ์ (เวลาในการตอบสนองต่ำ ออฟไลน์ ความเป็นส่วนตัว)
- ข) จำเป็นต้องประมวลผลข้อมูลสตรีมมิงแบบเรียลไทม์ (เช่น วิดีโอหรือเสียง) สำหรับงานการรับรู้ (เช่น การติดตามมือ การประมาณท่าทาง เรขาคณิตใบหน้า การตรวจจับและแบ่งกลุ่มวัตถุแบบเรียลไทม์ในวิดีโอ)
- → ใช้: MediaPipe
- เหตุผล: เฟรมเวิร์กเฉพาะสำหรับไปป์ไลน์การรับรู้แบบเรียลไทม์ที่มีประสิทธิภาพสูงในแพลตฟอร์มต่างๆ
- ค) ต้องการเรียกใช้โมเดล ML ที่ฝึกเองอย่างมีประสิทธิภาพ (เช่น สำหรับการแยกประเภท การถดถอย การตรวจจับ) ในอุปกรณ์ โดยให้ความสำคัญกับประสิทธิภาพและการใช้ทรัพยากรต่ำ
- → ใช้: LiteRT (รันไทม์ TensorFlow Lite)
- เหตุผล: รันไทม์ที่เพิ่มประสิทธิภาพเพื่อทำให้การติดตั้งใช้งานโมเดลที่กําหนดเองเป็นไปอย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่และอุปกรณ์เอดจ์ (ขนาดเล็ก อนุมานได้เร็ว เร่งด้วยฮาร์ดแวร์)
- ง) ต้องการฝึกโมเดล ML ที่กําหนดเองสําหรับงานหนึ่งๆ ใช่ไหม
- → ใช้: LiteRT (รันไทม์ TensorFlow Lite) + การฝึกโมเดลที่กำหนดเอง
- เหตุผล: มีเครื่องมือสำหรับฝึกและใช้งานโมเดลที่กําหนดเอง ซึ่งเพิ่มประสิทธิภาพสําหรับอุปกรณ์เคลื่อนที่และอุปกรณ์เอดจ์
- ง) ต้องการการจัดประเภทเนื้อหาขั้นสูง การวิเคราะห์ความรู้สึก หรือคำแปลในหลายภาษาที่มีความละเอียดอ่อนสูง
- พิจารณาว่าโมเดล ML แบบดั้งเดิม (อาจติดตั้งใช้งานโดยใช้ LiteRT หรือระบบคลาวด์) เหมาะหรือไม่ หรือ NLU ขั้นสูงต้องใช้โมเดล Generative (กลับไปที่ "เริ่มต้น" แล้วเลือก "ก") สําหรับการจัดประเภท ความรู้สึก หรือคำแปลที่อิงตามระบบคลาวด์
- → การใช้งาน: โซลูชันที่ทำงานบนระบบคลาวด์ (เช่น Google Cloud Natural Language API, Google Cloud Translation API, อาจเข้าถึงได้โดยใช้แบ็กเอนด์ที่กำหนดเองหรือ Vertex AI) (มีลำดับความสำคัญต่ำกว่าตัวเลือกในอุปกรณ์หากต้องการใช้แบบออฟไลน์หรือให้ความสำคัญกับความเป็นส่วนตัว)
- เหตุผล: โซลูชันระบบคลาวด์มีโมเดลที่มีประสิทธิภาพและรองรับภาษาได้หลากหลาย แต่ต้องใช้การเชื่อมต่อและอาจมีค่าใช้จ่าย
Generative AI
คุณต้องสร้างเนื้อหาใหม่ สรุป เขียนใหม่ หรือทํางานที่ซับซ้อนซึ่งเกี่ยวข้องกับความเข้าใจหรือการโต้ตอบ
คุณต้องการให้ AI ทํางานแบบออฟไลน์ ต้องการความเป็นส่วนตัวของข้อมูลสูงสุด (เก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์) หรือต้องการหลีกเลี่ยงค่าใช้จ่ายในการอนุมานข้อมูลในระบบคลาวด์
- ตอบ: ใช่ การทำงานแบบออฟไลน์ ความเป็นส่วนตัวสูงสุด หรือไม่มีค่าใช้จ่ายในระบบคลาวด์เป็นสิ่งสําคัญ
- → ไปที่ Generative AI ในอุปกรณ์
- ข) ไม่ การเชื่อมต่อพร้อมใช้งานและยอมรับได้ ความสามารถและความยืดหยุ่นของคลาวด์สำคัญกว่า หรือฟีเจอร์บางอย่างต้องใช้คลาวด์
- → ไปที่ Generative AI บนระบบคลาวด์
Generative AI ในอุปกรณ์ (ใช้ Gemini Nano)
ข้อควรระวัง: ต้องใช้อุปกรณ์ Android ที่เข้ากันได้ รองรับ iOS แบบจํากัด จํากัดโทเค็นที่เฉพาะเจาะจง (พรอมต์ 1024 รายการ บริบท 4096 รายการ) โมเดลมีประสิทธิภาพน้อยกว่ารุ่นที่อยู่ในระบบคลาวด์
Use Case ของคุณตรงกับงานที่มีประสิทธิภาพยิ่งขึ้นซึ่ง ML Kit GenAI API นำเสนอโดยเฉพาะไหม (สรุปข้อความ แก้ไขข้อความ เขียนข้อความใหม่ สร้างคำอธิบายรูปภาพ) และจำนวนโทเค็นเพียงพอไหม
- ตอบ) ใช่
- → ใช้งาน: ML Kit GenAI API (ขับเคลื่อนโดย Gemini Nano)
- เหตุผล: วิธีที่ง่ายที่สุดในการใช้งานการทํางานทั่วไปที่พบบ่อยของ Generative บนอุปกรณ์ เป็นโซลูชันบนอุปกรณ์ที่มีลําดับความสําคัญสูงสุด
- ข) ไม่ (คุณต้องการพรอมต์หรืองานที่ยืดหยุ่นมากกว่า MLKit GenAI API ที่เฉพาะเจาะจง แต่ยังคงต้องการการเรียกใช้บนอุปกรณ์ภายในความสามารถของ Nano)
- → ใช้: สิทธิ์เข้าถึง Gemini Nano เวอร์ชันทดลอง
- เหตุผล: มอบความสามารถในการแสดงข้อความแจ้งแบบเปิดในอุปกรณ์สำหรับกรณีการใช้งานที่นอกเหนือจาก Structured ML Kit GenAI API โดยคำนึงถึงข้อจำกัดของ Nano
Generative AI ในระบบคลาวด์
ใช้โมเดลที่มีประสิทธิภาพมากขึ้น ต้องมีการเชื่อมต่อ โดยปกติจะเกี่ยวข้องกับค่าใช้จ่ายในการอนุมาน ให้การเข้าถึงอุปกรณ์ได้กว้างขึ้น และมีความสอดคล้องกันข้ามแพลตฟอร์ม (Android และ iOS) ได้ง่ายขึ้น
คุณให้ความสําคัญกับอะไรมากกว่ากัน ความสะดวกในการผสานรวมภายใน Firebase หรือความยืดหยุ่น/การควบคุมสูงสุด
- ก) ต้องการการผสานรวมที่ง่ายขึ้น ประสบการณ์การใช้งาน API ที่มีการจัดการ และมีโอกาสใช้ Firebase อยู่แล้ว
- → ใช้: Firebase AI Logic SDK → ไปที่ Firebase AI Logic
- ข) ต้องการความยืดหยุ่นสูงสุด เข้าถึงโมเดลที่หลากหลายที่สุด (รวมถึงโมเดลของบุคคลที่สาม/ที่กำหนดเอง) การปรับแต่งขั้นสูง และยินดีที่จะจัดการการผสานรวมแบ็กเอนด์ของคุณเอง (ซับซ้อนกว่า)
- → การใช้งาน: Gemini API กับแบ็กเอนด์ระบบคลาวด์ที่กำหนดเอง (โดยใช้ Google Cloud Platform)
- เหตุผล: มอบการควบคุมมากที่สุด การเข้าถึงโมเดลที่กว้างที่สุด และตัวเลือกการฝึกอบรมที่กำหนดเอง แต่ต้องใช้ความพยายามในการพัฒนาแบ็กเอนด์อย่างมาก เหมาะสำหรับความต้องการที่ซับซ้อน ขนาดใหญ่ หรือต้องมีการปรับแต่งอย่างมาก
(คุณเลือก Firebase AI Logic SDK) คุณต้องการประเภทงานแบบ Generative และโปรไฟล์ประสิทธิภาพแบบใด
- ก) ต้องการสมดุลระหว่างประสิทธิภาพและต้นทุน ซึ่งเหมาะกับการสร้างข้อความทั่วไป การสรุป หรือแอปพลิเคชันแชทที่ความเร็วมีความสำคัญ
- → ใช้: Firebase AI Logic SDK กับ Gemini Flash
- เหตุผล: เพิ่มประสิทธิภาพเพื่อความเร็วและประสิทธิภาพภายในสภาพแวดล้อมที่จัดการของ Vertex AI
- ข) ต้องการคุณภาพและความสามารถที่สูงขึ้นในการสร้างข้อความที่ซับซ้อน การให้เหตุผล NLU ขั้นสูง หรือการปฏิบัติตามคำสั่ง
- → ใช้: Firebase AI Logic SDK กับ Gemini Pro
- เหตุผล: โมเดลข้อความที่มีประสิทธิภาพมากขึ้นสำหรับงานที่ต้องใช้ความสามารถสูง ซึ่งเข้าถึงได้ผ่าน Firebase
- ค) ต้องการการสร้างรูปภาพที่ซับซ้อน หรือการทำความเข้าใจหรือการปรับแต่งรูปภาพขั้นสูงตามพรอมต์ข้อความ
- → ใช้: Firebase AI Logic SDK กับ Imagen 3
- เหตุผล: โมเดลการสร้างรูปภาพที่ทันสมัยซึ่งเข้าถึงได้โดยใช้สภาพแวดล้อม Firebase ที่มีการจัดการ