ค้นหาโซลูชัน AI/ML ที่เหมาะกับแอปของคุณ

คู่มือนี้ออกแบบมาเพื่อช่วยให้คุณผสานรวมโซลูชันปัญญาประดิษฐ์แบบ Generative และแมชชีนเลิร์นนิง (AI/ML) ของ Google เข้ากับแอปพลิเคชัน คู่มือนี้ให้คําแนะนําเพื่อช่วยคุณไปยังส่วนต่างๆ ของโซลูชันปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิงที่มีให้ใช้งาน และเลือกโซลูชันที่เหมาะกับความต้องการมากที่สุด เป้าหมายของเอกสารนี้คือเพื่อช่วยคุณเลือกเครื่องมือที่จะใช้และเหตุผลในการใช้ โดยมุ่งเน้นที่ความต้องการและกรณีการใช้งาน

เอกสารนี้มีคู่มือโซลูชันเพื่อช่วยคุณเลือกโซลูชัน AI/ML ที่เหมาะกับข้อกำหนดเฉพาะของคุณมากที่สุด เมื่อตอบชุดคำถามเกี่ยวกับเป้าหมายและข้อจำกัดของโปรเจ็กต์ คำแนะนำจะนําคุณไปยังเครื่องมือและเทคโนโลยีที่เหมาะสมที่สุด

คำแนะนำนี้จะช่วยคุณเลือกโซลูชัน AI ที่ดีที่สุดสำหรับแอป โดยพิจารณาจากปัจจัยต่อไปนี้ ประเภทข้อมูล (ข้อความ รูปภาพ เสียง วิดีโอ) ความซับซ้อนของงาน (การสรุปแบบง่ายไปจนถึงงานที่ซับซ้อนซึ่งต้องใช้ความรู้เฉพาะทาง) และขนาดข้อมูล (อินพุตสั้นๆ เทียบกับเอกสารขนาดใหญ่) ซึ่งจะช่วยให้คุณตัดสินใจได้ว่าจะเลือกใช้ Gemini Nano ในอุปกรณ์หรือ AI บนระบบคลาวด์ของ Firebase (Gemini Flash, Gemini Pro หรือ Imagen)

แผนภาพการตัดสินใจสำหรับกรณีการใช้งาน GenAI เกณฑ์ประกอบด้วยรูปแบบ (ข้อความ รูปภาพ เทียบกับเสียง วิดีโอ การสร้างรูปภาพ) ความซับซ้อน (สรุป เขียนใหม่ เทียบกับความรู้ในโดเมน) และกรอบบริบท (อินพุต/เอาต์พุตสั้นๆ เทียบกับเอกสาร/สื่อที่ครอบคลุม) ซึ่งนำไปสู่ GenAI ในอุปกรณ์ (Gemini Nano) หรือตรรกะ AI ของ Firebase (Gemini Flash, Pro, Imagen)
รูปที่ 1: ภาพนี้แสดงคู่มือโซลูชันระดับสูงเพื่อช่วยคุณค้นหาโซลูชัน AI/ML ที่เหมาะกับแอป Android ของคุณ ดูรายละเอียดเพิ่มเติมเกี่ยวกับตัวเลือก AI และ ML ได้ในคู่มือโซลูชันที่แสดงอยู่ต่อจากนี้ในเอกสารนี้

ใช้ประโยชน์จากความสามารถในการอนุมานในอุปกรณ์

เมื่อเพิ่มฟีเจอร์ AI และ ML ลงในแอป Android คุณสามารถเลือกวิธีต่างๆ ในการแสดงฟีเจอร์เหล่านี้ได้ ไม่ว่าจะเป็นในอุปกรณ์หรือใช้ระบบคลาวด์

โซลูชันในอุปกรณ์อย่าง Gemini Nano จะให้ผลลัพธ์โดยไม่มีค่าใช้จ่ายเพิ่มเติม เพิ่มความเป็นส่วนตัวของผู้ใช้ และมอบฟังก์ชันการทำงานแบบออฟไลน์ที่เชื่อถือได้เนื่องจากระบบจะประมวลผลข้อมูลอินพุตในเครื่อง ประโยชน์เหล่านี้อาจสําคัญสําหรับ Use Case บางรายการ เช่น การสรุปข้อความ ซึ่งทำให้อุปกรณ์เป็นลําดับความสําคัญเมื่อเลือกโซลูชันที่เหมาะสม

Gemini Nano ช่วยให้คุณทำการอนุมานได้โดยตรงในอุปกรณ์ที่ทำงานด้วยระบบ Android หากต้องการจัดการกับข้อความหรือรูปภาพ ให้เริ่มต้นด้วย GenAI API ของ ML Kit เพื่อดูโซลูชันสำเร็จรูป ML Kit GenAI API ทำงานด้วย Gemini Nano และได้รับการปรับแต่งให้เหมาะกับงานบางอย่างบนอุปกรณ์ API ของ GenAI ใน ML Kit เป็นเส้นทางที่เหมาะสมสําหรับแอปของคุณในการนำไปใช้งานจริง เนื่องจากมีอินเทอร์เฟซและความสามารถในการปรับขนาดที่สูงขึ้น API เหล่านี้ช่วยให้คุณใช้ Use Case เพื่อสรุป แก้ไข และเขียนใหม่ข้อความ รวมถึงสร้างคำอธิบายรูปภาพได้

หากต้องการใช้กรณีการใช้งานที่นอกเหนือจากกรณีการใช้งานพื้นฐานที่ ML Kit GenAI API มีให้ ให้ลองใช้สิทธิ์เข้าถึงแบบทดลองของ Gemini Nano สิทธิ์เข้าถึงเวอร์ชันทดลองของ Gemini Nano ช่วยให้คุณเข้าถึงพรอมต์ที่กำหนดเองด้วย Gemini Nano ได้โดยตรงมากขึ้น

สําหรับงานแมชชีนเลิร์นนิงแบบดั้งเดิม คุณมีความยืดหยุ่นในการใช้โมเดลที่กําหนดเอง เรามีเครื่องมือที่มีประสิทธิภาพ เช่น ML Kit, MediaPipe, LiteRT และฟีเจอร์การนำส่งของ Google Play เพื่อปรับปรุงกระบวนการพัฒนาของคุณให้มีประสิทธิภาพยิ่งขึ้น

สําหรับแอปพลิเคชันที่ต้องอาศัยโซลูชันเฉพาะทางสูง คุณสามารถใช้โมเดลที่กําหนดเอง เช่น Gemma หรือโมเดลอื่นที่ปรับให้เหมาะกับกรณีการใช้งานที่เฉพาะเจาะจง เรียกใช้โมเดลในอุปกรณ์ของผู้ใช้โดยตรงด้วย LiteRT ซึ่งมีสถาปัตยกรรมโมเดลที่ออกแบบไว้ล่วงหน้าเพื่อประสิทธิภาพที่ดีที่สุด

นอกจากนี้ คุณยังพิจารณาสร้างโซลูชันแบบผสมโดยใช้ประโยชน์จากทั้งรูปแบบในอุปกรณ์และรูปแบบระบบคลาวด์ได้ด้วย

แอปบนอุปกรณ์เคลื่อนที่มักใช้โมเดลในเครื่องสำหรับข้อมูลข้อความขนาดเล็ก เช่น การสนทนาทางแชทหรือบทความในบล็อก อย่างไรก็ตาม สำหรับแหล่งข้อมูลขนาดใหญ่ (เช่น PDF) หรือเมื่อต้องใช้ความรู้เพิ่มเติม คุณอาจต้องใช้โซลูชันที่ทำงานบนระบบคลาวด์ซึ่งมีโมเดล Gemini ที่มีประสิทธิภาพมากขึ้น

ผสานรวมโมเดลขั้นสูงของ Gemini

นักพัฒนาแอป Android สามารถผสานรวมความสามารถของ Generative AI ขั้นสูงของ Google ซึ่งรวมถึงโมเดล Gemini Pro, Gemini Flash และ Imagen ที่มีประสิทธิภาพ เข้ากับแอปพลิเคชันของตนได้โดยใช้ Firebase AI Logic SDK SDK นี้ออกแบบมาเพื่อความต้องการด้านข้อมูลที่มากขึ้น รวมถึงมอบความสามารถและการปรับตัวที่มากขึ้นด้วยการเปิดใช้การเข้าถึงโมเดล AI แบบหลายรูปแบบที่มีประสิทธิภาพสูงเหล่านี้

Firebase AI Logic SDK ช่วยให้นักพัฒนาแอปเรียกใช้โมเดล AI ของ Google ฝั่งไคลเอ็นต์ได้ง่ายๆ โมเดลเหล่านี้ เช่น Gemini Pro และ Gemini Flash จะทำงานในระบบคลาวด์และช่วยให้แอป Android ประมวลผลอินพุตที่หลากหลายได้ ซึ่งรวมถึงรูปภาพ เสียง วิดีโอ และข้อความ Gemini Pro โดดเด่นด้านการหาเหตุผลสำหรับปัญหาที่ซับซ้อนและการวิเคราะห์ข้อมูลจำนวนมาก ส่วนซีรีส์ Gemini Flash มอบความเร็วที่เหนือกว่าและมีหน้าต่างบริบทที่ใหญ่พอสำหรับงานส่วนใหญ่

กรณีที่ควรใช้แมชชีนเลิร์นนิงแบบดั้งเดิม

แม้ว่า Generative AI จะมีประโยชน์ในการสร้างและแก้ไขเนื้อหา เช่น ข้อความ รูปภาพ และโค้ด แต่ปัญหาในชีวิตจริงหลายอย่างจะแก้ไขได้ดีกว่าโดยใช้เทคนิค Machine Learning (ML) แบบดั้งเดิม วิธีการที่ผ่านการพิสูจน์แล้วเหล่านี้มีประสิทธิภาพยอดเยี่ยมในงานที่เกี่ยวข้องกับการคาดการณ์ การจัดประเภท การตรวจจับ และการทําความเข้าใจรูปแบบภายในข้อมูลที่มีอยู่ โดยมักจะมีประสิทธิภาพมากกว่า ต้นทุนการประมวลผลต่ำกว่า และใช้งานได้ง่ายกว่าโมเดล Generative

เฟรมเวิร์ก ML แบบดั้งเดิมมีโซลูชันที่มีประสิทธิภาพ ได้รับการเพิ่มประสิทธิภาพ และมักจะใช้งานได้จริงมากกว่าสําหรับแอปพลิเคชันที่มุ่งเน้นการวิเคราะห์อินพุต การระบุฟีเจอร์ หรือการคาดการณ์ตามรูปแบบที่เรียนรู้ แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด เครื่องมืออย่าง ML Kit, LiteRT และ MediaPipe ของ Google มอบความสามารถอันทรงประสิทธิภาพที่ปรับให้เหมาะกับกรณีการใช้งานที่ไม่สร้างข้อมูลเหล่านี้ โดยเฉพาะในสภาพแวดล้อมการประมวลผลแบบ Edge และอุปกรณ์เคลื่อนที่

เริ่มต้นการผสานรวมแมชชีนเลิร์นนิงด้วย ML Kit

ML Kit มีโซลูชันที่พร้อมใช้งานจริงและเพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่สำหรับงานแมชชีนเลิร์นนิงทั่วไป ซึ่งไม่จําเป็นต้องมีความเชี่ยวชาญด้าน ML มาก่อน SDK บนอุปกรณ์เคลื่อนที่ที่ใช้งานง่ายนี้จะนำความเชี่ยวชาญด้าน ML ของ Google มาใช้กับแอป Android และ iOS โดยตรง ซึ่งจะช่วยให้คุณมุ่งเน้นที่การพัฒนาฟีเจอร์แทนการฝึกโมเดลและการเพิ่มประสิทธิภาพ MLKit มี API ที่สร้างขึ้นล่วงหน้าและโมเดลที่พร้อมใช้งานสําหรับฟีเจอร์ต่างๆ เช่น การสแกนบาร์โค้ด การจดจําข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกํากับรูปภาพ การตรวจจับและการติดตามวัตถุ การระบุภาษา และการตอบกลับอัจฉริยะ

โดยปกติแล้วโมเดลเหล่านี้จะได้รับการปรับปรุงให้เหมาะกับการทำงานในอุปกรณ์ เพื่อให้มั่นใจว่าเวลาในการตอบสนองต่ำ ฟังก์ชันการทำงานแบบออฟไลน์ และความเป็นส่วนตัวของผู้ใช้ที่เพิ่มขึ้น เนื่องจากข้อมูลมักจะยังคงอยู่ในอุปกรณ์ เลือก ML Kit เพื่อเพิ่มฟีเจอร์ ML ที่มีอยู่ลงในแอปบนอุปกรณ์เคลื่อนที่ได้อย่างรวดเร็วโดยไม่ต้องฝึกโมเดลหรือต้องการเอาต์พุตแบบ Generative เหมาะสําหรับการปรับปรุงแอปอย่างมีประสิทธิภาพด้วยความสามารถที่ "อัจฉริยะ" โดยใช้โมเดลที่เพิ่มประสิทธิภาพของ Google หรือการใช้โมเดล TensorFlow Lite ที่กําหนดเอง

เริ่มต้นใช้งานด้วยคู่มือและเอกสารประกอบที่ครอบคลุมในเว็บไซต์สำหรับนักพัฒนาซอฟต์แวร์ของ ML Kit

การติดตั้งใช้งาน ML ที่กําหนดเองด้วย LiteRT

หากต้องการควบคุมได้มากขึ้นหรือเพื่อติดตั้งใช้งานโมเดล ML ของคุณเอง ให้ใช้แพ็กเกจ ML ที่กําหนดเองซึ่งสร้างขึ้นจาก LiteRT และบริการ Google Play สแต็กนี้ให้ข้อมูลที่จำเป็นสําหรับการทําให้ฟีเจอร์ ML มีประสิทธิภาพสูง LiteRT เป็นชุดเครื่องมือที่เพิ่มประสิทธิภาพให้เรียกใช้โมเดล TensorFlow ได้อย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่ อุปกรณ์แบบฝัง และอุปกรณ์เอดจ์ที่มีทรัพยากรจํากัด ซึ่งช่วยให้คุณเรียกใช้โมเดลที่เล็กและเร็วขึ้นอย่างมาก ซึ่งใช้หน่วยความจํา พลังงาน และพื้นที่เก็บข้อมูลน้อยลง รันไทม์ LiteRT ได้รับการเพิ่มประสิทธิภาพอย่างสูงสำหรับตัวเร่งฮาร์ดแวร์ต่างๆ (GPU, DSP, NPU) ในอุปกรณ์เอดจ์ ซึ่งช่วยให้สามารถอนุมานได้โดยมีเวลาในการตอบสนองต่ำ

เลือก LiteRT เมื่อคุณต้องการนำโมเดล ML ที่ผ่านการฝึกอบรมไปใช้งานอย่างมีประสิทธิภาพ (โดยทั่วไปจะใช้สำหรับการแยกประเภท การหาค่าประมาณ หรือการตรวจจับ) ในอุปกรณ์ที่มีกำลังในการประมวลผลหรืออายุการใช้งานแบตเตอรี่จํากัด เช่น สมาร์ทโฟน อุปกรณ์ IoT หรือไมโครคอนโทรลเลอร์ นี่เป็นโซลูชันที่แนะนำสำหรับการใช้โมเดลการคาดการณ์แบบกำหนดเองหรือมาตรฐานที่อุปกรณ์ขอบ ซึ่งความเร็วและการประหยัดทรัพยากรมีความสำคัญอย่างยิ่ง

ดูข้อมูลเพิ่มเติมเกี่ยวกับการติดตั้งใช้งาน ML ด้วย LiteRT

สร้างการรับรู้แบบเรียลไทม์ในแอปด้วย MediaPipe

MediaPipe มีโซลูชันแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ทำงานข้ามแพลตฟอร์มและปรับแต่งได้ ซึ่งออกแบบมาสำหรับสื่อแบบสดและสตรีมมิง รับประโยชน์จากเครื่องมือที่สร้างขึ้นล่วงหน้าซึ่งเพิ่มประสิทธิภาพแล้วสำหรับงานที่ซับซ้อน เช่น การติดตามมือ การประมาณท่าทาง การตรวจจับเมชใบหน้า และการตรวจจับวัตถุ ซึ่งทั้งหมดนี้ช่วยให้การโต้ตอบแบบเรียลไทม์มีประสิทธิภาพสูงได้แม้ในอุปกรณ์เคลื่อนที่

ไปป์ไลน์ที่อิงตามกราฟของ MediaPipe ปรับแต่งได้สูง ซึ่งช่วยให้คุณปรับแต่งโซลูชันสำหรับแอปพลิเคชัน Android, iOS, เว็บ, เดสก์ท็อป และแบ็กเอนด์ได้ เลือก MediaPipe เมื่อแอปพลิเคชันต้องเข้าใจและตอบสนองต่อข้อมูลเซ็นเซอร์แบบเรียลไทม์โดยทันที โดยเฉพาะสตรีมวิดีโอสำหรับกรณีการใช้งาน เช่น การจดจำท่าทางสัมผัส เอฟเฟกต์ AR การติดตามการออกกำลังกาย หรือการควบคุมรูปแทน ซึ่งทั้งหมดมุ่งเน้นที่การวิเคราะห์และตีความอินพุต

สำรวจโซลูชันและเริ่มสร้างด้วย MediaPipe

เลือกวิธีการ: บนอุปกรณ์หรือระบบคลาวด์

เมื่อผสานรวมฟีเจอร์ AI/ML เข้ากับแอป Android การตัดสินใจที่สำคัญในช่วงต้นคือการประมวลผลในอุปกรณ์ของผู้ใช้โดยตรงหรือในระบบคลาวด์ เครื่องมืออย่าง ML Kit, Gemini Nano และ TensorFlow Lite ช่วยเปิดใช้ความสามารถในอุปกรณ์ ส่วน API คลาวด์ของ Gemini ที่มี Firebase AI Logic จะให้การประมวลผลที่มีประสิทธิภาพในระบบคลาวด์ การเลือกตัวเลือกที่เหมาะสมขึ้นอยู่กับปัจจัยหลายประการที่เจาะจงสำหรับกรณีการใช้งานและความต้องการของผู้ใช้

พิจารณาแง่มุมต่อไปนี้เพื่อใช้เป็นแนวทางในการตัดสินใจ

  • การเชื่อมต่อและฟังก์ชันการทำงานแบบออฟไลน์: หากแอปพลิเคชันต้องทำงานได้อย่างน่าเชื่อถือแม้ไม่มีการเชื่อมต่ออินเทอร์เน็ต โซลูชันในอุปกรณ์อย่าง Gemini Nano เหมาะอย่างยิ่ง การประมวลผลบนระบบคลาวด์จำเป็นต้องมีการเข้าถึงเครือข่าย
  • ความเป็นส่วนตัวของข้อมูล: สําหรับกรณีการใช้งานที่ข้อมูลผู้ใช้ต้องอยู่ในอุปกรณ์เพื่อเหตุผลด้านความเป็นส่วนตัว การประมวลผลในอุปกรณ์มีข้อดีอย่างชัดเจนเนื่องจากเก็บข้อมูลที่ละเอียดอ่อนไว้ในเครื่อง
  • ความสามารถของโมเดลและความซับซ้อนของงาน: โมเดลที่ทำงานบนระบบคลาวด์มักจะมีขนาดใหญ่กว่า มีประสิทธิภาพมากกว่า และได้รับการอัปเดตบ่อยกว่ามาก จึงเหมาะสำหรับงานที่ซับซ้อนสูงของ AI หรือเมื่อประมวลผลอินพุตขนาดใหญ่ที่คุณภาพเอาต์พุตสูงขึ้นและความสามารถที่ครอบคลุมเป็นสิ่งสำคัญ โมเดลในอุปกรณ์อาจจัดการงานง่ายๆ ได้ดี
  • การพิจารณาค่าใช้จ่าย: โดยปกติแล้ว Cloud API จะกำหนดราคาตามการใช้งาน ซึ่งหมายความว่าค่าใช้จ่ายจะเพิ่มขึ้นตามจำนวนการอนุมานหรือปริมาณข้อมูลที่ประมวลผล แม้ว่าโดยทั่วไปแล้วการอนุมานในอุปกรณ์จะไม่มีการเรียกเก็บเงินโดยตรงต่อการใช้งาน แต่ก็มีค่าใช้จ่ายในการพัฒนาและอาจส่งผลต่อทรัพยากรของอุปกรณ์ เช่น อายุการใช้งานแบตเตอรี่และประสิทธิภาพโดยรวม
  • ทรัพยากรของอุปกรณ์: โมเดลในอุปกรณ์จะใช้พื้นที่เก็บข้อมูลในอุปกรณ์ของผู้ใช้ นอกจากนี้ คุณยังควรคำนึงถึงความเข้ากันได้ของอุปกรณ์สำหรับโมเดลในอุปกรณ์บางรุ่น เช่น Gemini Nano เพื่อให้มั่นใจว่ากลุ่มเป้าหมายของคุณจะใช้ฟีเจอร์ดังกล่าวได้
  • การปรับแต่งแบบละเอียด: หากต้องการปรับแต่งโมเดลให้เหมาะกับ Use Case ที่เฉพาะเจาะจง โซลูชันที่ใช้ระบบคลาวด์มักจะมีความยืดหยุ่นมากกว่าและมีตัวเลือกการปรับแต่งที่หลากหลายกว่า
  • ความสอดคล้องข้ามแพลตฟอร์ม: หากฟีเจอร์ AI ที่สอดคล้องกันในหลายแพลตฟอร์ม รวมถึง iOS มีความสำคัญ โปรดทราบว่าโซลูชันบางอย่างในอุปกรณ์ เช่น Gemini Nano อาจยังไม่พร้อมให้บริการในระบบปฏิบัติการบางระบบ

เมื่อพิจารณาข้อกำหนดของ Use Case และตัวเลือกที่มีอย่างรอบคอบแล้ว คุณจะสามารถค้นหาโซลูชัน AI/ML ที่เหมาะที่สุดเพื่อปรับปรุงแอป Android และมอบประสบการณ์การใช้งานที่ชาญฉลาดและปรับเปลี่ยนในแบบของคุณให้แก่ผู้ใช้


คู่มือเกี่ยวกับโซลูชัน AI/ML

คู่มือโซลูชันนี้จะช่วยคุณระบุเครื่องมือสำหรับนักพัฒนาแอปที่เหมาะสมสำหรับการผสานรวมเทคโนโลยี AI/ML เข้ากับโปรเจ็กต์ Android

เป้าหมายหลักของฟีเจอร์ AI คืออะไร

  • ก) การสร้างเนื้อหาใหม่ (ข้อความ คำอธิบายรูปภาพ) หรือการดำเนินการประมวลผลข้อความอย่างง่าย (การสรุป การพิสูจน์อักษร หรือการเขียนข้อความใหม่) → ไปที่ Generative AI
  • ข) วิเคราะห์ข้อมูล/อินพุตที่มีอยู่เพื่อคาดการณ์ จัดประเภท ตรวจจับ ทำความเข้าใจรูปแบบ หรือประมวลผลสตรีมแบบเรียลไทม์ (เช่น วิดีโอ/เสียง) → ไปที่ ML แบบดั้งเดิมและการรับรู้

ML แบบดั้งเดิมและการรับรู้

คุณต้องวิเคราะห์อินพุต ระบุฟีเจอร์ หรือทําการคาดการณ์โดยอิงตามรูปแบบที่เรียนรู้ แทนที่จะสร้างเอาต์พุตใหม่ทั้งหมด

คุณกําลังทํางานอะไรอยู่

  • ตอบ) หากต้องการผสานรวมฟีเจอร์ ML ทั่วไปบนอุปกรณ์เคลื่อนที่ที่สร้างไว้ล่วงหน้าอย่างรวดเร็ว (เช่น การสแกนบาร์โค้ด การจดจำข้อความ (OCR) การตรวจจับใบหน้า การติดป้ายกำกับรูปภาพ การตรวจจับและติดตามวัตถุ รหัสภาษา การช่วยตอบแบบพื้นฐาน)
    • → ใช้: ML Kit (API แบบดั้งเดิม)
    • เหตุผล: การผสานรวมที่ง่ายที่สุดสําหรับงาน ML บนอุปกรณ์เคลื่อนที่ที่ใช้งานอยู่ ซึ่งมักจะได้รับการเพิ่มประสิทธิภาพสําหรับการใช้งานในอุปกรณ์ (เวลาในการตอบสนองต่ำ ออฟไลน์ ความเป็นส่วนตัว)
  • ข) จำเป็นต้องประมวลผลข้อมูลสตรีมมิงแบบเรียลไทม์ (เช่น วิดีโอหรือเสียง) สำหรับงานการรับรู้ (เช่น การติดตามมือ การประมาณท่าทาง เรขาคณิตใบหน้า การตรวจจับและแบ่งกลุ่มวัตถุแบบเรียลไทม์ในวิดีโอ)
    • → ใช้: MediaPipe
    • เหตุผล: เฟรมเวิร์กเฉพาะสำหรับไปป์ไลน์การรับรู้แบบเรียลไทม์ที่มีประสิทธิภาพสูงในแพลตฟอร์มต่างๆ
  • ค) ต้องการเรียกใช้โมเดล ML ที่ฝึกเองอย่างมีประสิทธิภาพ (เช่น สำหรับการแยกประเภท การถดถอย การตรวจจับ) ในอุปกรณ์ โดยให้ความสำคัญกับประสิทธิภาพและการใช้ทรัพยากรต่ำ
    • → ใช้: LiteRT (รันไทม์ TensorFlow Lite)
    • เหตุผล: รันไทม์ที่เพิ่มประสิทธิภาพเพื่อทำให้การติดตั้งใช้งานโมเดลที่กําหนดเองเป็นไปอย่างมีประสิทธิภาพบนอุปกรณ์เคลื่อนที่และอุปกรณ์เอดจ์ (ขนาดเล็ก อนุมานได้เร็ว เร่งด้วยฮาร์ดแวร์)
  • ง) ต้องการฝึกโมเดล ML ที่กําหนดเองสําหรับงานหนึ่งๆ ใช่ไหม
    • → ใช้: LiteRT (รันไทม์ TensorFlow Lite) + การฝึกโมเดลที่กำหนดเอง
    • เหตุผล: มีเครื่องมือสำหรับฝึกและใช้งานโมเดลที่กําหนดเอง ซึ่งเพิ่มประสิทธิภาพสําหรับอุปกรณ์เคลื่อนที่และอุปกรณ์เอดจ์
  • ง) ต้องการการจัดประเภทเนื้อหาขั้นสูง การวิเคราะห์ความรู้สึก หรือคำแปลในหลายภาษาที่มีความละเอียดอ่อนสูง
    • พิจารณาว่าโมเดล ML แบบดั้งเดิม (อาจติดตั้งใช้งานโดยใช้ LiteRT หรือระบบคลาวด์) เหมาะหรือไม่ หรือ NLU ขั้นสูงต้องใช้โมเดล Generative (กลับไปที่ "เริ่มต้น" แล้วเลือก "ก") สําหรับการจัดประเภท ความรู้สึก หรือคำแปลที่อิงตามระบบคลาวด์
    • → การใช้งาน: โซลูชันที่ทำงานบนระบบคลาวด์ (เช่น Google Cloud Natural Language API, Google Cloud Translation API, อาจเข้าถึงได้โดยใช้แบ็กเอนด์ที่กำหนดเองหรือ Vertex AI) (มีลำดับความสำคัญต่ำกว่าตัวเลือกในอุปกรณ์หากต้องการใช้แบบออฟไลน์หรือให้ความสำคัญกับความเป็นส่วนตัว)
    • เหตุผล: โซลูชันระบบคลาวด์มีโมเดลที่มีประสิทธิภาพและรองรับภาษาได้หลากหลาย แต่ต้องใช้การเชื่อมต่อและอาจมีค่าใช้จ่าย

Generative AI

คุณต้องสร้างเนื้อหาใหม่ สรุป เขียนใหม่ หรือทํางานที่ซับซ้อนซึ่งเกี่ยวข้องกับความเข้าใจหรือการโต้ตอบ

คุณต้องการให้ AI ทํางานแบบออฟไลน์ ต้องการความเป็นส่วนตัวของข้อมูลสูงสุด (เก็บข้อมูลผู้ใช้ไว้ในอุปกรณ์) หรือต้องการหลีกเลี่ยงค่าใช้จ่ายในการอนุมานข้อมูลในระบบคลาวด์

  • ตอบ: ใช่ การทำงานแบบออฟไลน์ ความเป็นส่วนตัวสูงสุด หรือไม่มีค่าใช้จ่ายในระบบคลาวด์เป็นสิ่งสําคัญ
  • ข) ไม่ การเชื่อมต่อพร้อมใช้งานและยอมรับได้ ความสามารถและความยืดหยุ่นของคลาวด์สำคัญกว่า หรือฟีเจอร์บางอย่างต้องใช้คลาวด์

Generative AI ในอุปกรณ์ (ใช้ Gemini Nano)

ข้อควรระวัง: ต้องใช้อุปกรณ์ Android ที่เข้ากันได้ รองรับ iOS แบบจํากัด จํากัดโทเค็นที่เฉพาะเจาะจง (พรอมต์ 1024 รายการ บริบท 4096 รายการ) โมเดลมีประสิทธิภาพน้อยกว่ารุ่นที่อยู่ในระบบคลาวด์

Use Case ของคุณตรงกับงานที่มีประสิทธิภาพยิ่งขึ้นซึ่ง ML Kit GenAI API นำเสนอโดยเฉพาะไหม (สรุปข้อความ แก้ไขข้อความ เขียนข้อความใหม่ สร้างคำอธิบายรูปภาพ) และจำนวนโทเค็นเพียงพอไหม

  • ตอบ) ใช่
    • → ใช้งาน: ML Kit GenAI API (ขับเคลื่อนโดย Gemini Nano)
    • เหตุผล: วิธีที่ง่ายที่สุดในการใช้งานการทํางานทั่วไปที่พบบ่อยของ Generative บนอุปกรณ์ เป็นโซลูชันบนอุปกรณ์ที่มีลําดับความสําคัญสูงสุด
  • ข) ไม่ (คุณต้องการพรอมต์หรืองานที่ยืดหยุ่นมากกว่า MLKit GenAI API ที่เฉพาะเจาะจง แต่ยังคงต้องการการเรียกใช้บนอุปกรณ์ภายในความสามารถของ Nano)
    • → ใช้: สิทธิ์เข้าถึง Gemini Nano เวอร์ชันทดลอง
    • เหตุผล: มอบความสามารถในการแสดงข้อความแจ้งแบบเปิดในอุปกรณ์สำหรับกรณีการใช้งานที่นอกเหนือจาก Structured ML Kit GenAI API โดยคำนึงถึงข้อจำกัดของ Nano

Generative AI ในระบบคลาวด์

ใช้โมเดลที่มีประสิทธิภาพมากขึ้น ต้องมีการเชื่อมต่อ โดยปกติจะเกี่ยวข้องกับค่าใช้จ่ายในการอนุมาน ให้การเข้าถึงอุปกรณ์ได้กว้างขึ้น และมีความสอดคล้องกันข้ามแพลตฟอร์ม (Android และ iOS) ได้ง่ายขึ้น

คุณให้ความสําคัญกับอะไรมากกว่ากัน ความสะดวกในการผสานรวมภายใน Firebase หรือความยืดหยุ่น/การควบคุมสูงสุด

  • ก) ต้องการการผสานรวมที่ง่ายขึ้น ประสบการณ์การใช้งาน API ที่มีการจัดการ และมีโอกาสใช้ Firebase อยู่แล้ว
  • ข) ต้องการความยืดหยุ่นสูงสุด เข้าถึงโมเดลที่หลากหลายที่สุด (รวมถึงโมเดลของบุคคลที่สาม/ที่กำหนดเอง) การปรับแต่งขั้นสูง และยินดีที่จะจัดการการผสานรวมแบ็กเอนด์ของคุณเอง (ซับซ้อนกว่า)
    • → การใช้งาน: Gemini API กับแบ็กเอนด์ระบบคลาวด์ที่กำหนดเอง (โดยใช้ Google Cloud Platform)
    • เหตุผล: มอบการควบคุมมากที่สุด การเข้าถึงโมเดลที่กว้างที่สุด และตัวเลือกการฝึกอบรมที่กำหนดเอง แต่ต้องใช้ความพยายามในการพัฒนาแบ็กเอนด์อย่างมาก เหมาะสำหรับความต้องการที่ซับซ้อน ขนาดใหญ่ หรือต้องมีการปรับแต่งอย่างมาก

(คุณเลือก Firebase AI Logic SDK) คุณต้องการประเภทงานแบบ Generative และโปรไฟล์ประสิทธิภาพแบบใด

  • ก) ต้องการสมดุลระหว่างประสิทธิภาพและต้นทุน ซึ่งเหมาะกับการสร้างข้อความทั่วไป การสรุป หรือแอปพลิเคชันแชทที่ความเร็วมีความสำคัญ
    • → ใช้: Firebase AI Logic SDK กับ Gemini Flash
    • เหตุผล: เพิ่มประสิทธิภาพเพื่อความเร็วและประสิทธิภาพภายในสภาพแวดล้อมที่จัดการของ Vertex AI
  • ข) ต้องการคุณภาพและความสามารถที่สูงขึ้นในการสร้างข้อความที่ซับซ้อน การให้เหตุผล NLU ขั้นสูง หรือการปฏิบัติตามคำสั่ง
    • → ใช้: Firebase AI Logic SDK กับ Gemini Pro
    • เหตุผล: โมเดลข้อความที่มีประสิทธิภาพมากขึ้นสำหรับงานที่ต้องใช้ความสามารถสูง ซึ่งเข้าถึงได้ผ่าน Firebase
  • ค) ต้องการการสร้างรูปภาพที่ซับซ้อน หรือการทำความเข้าใจหรือการปรับแต่งรูปภาพขั้นสูงตามพรอมต์ข้อความ
    • → ใช้: Firebase AI Logic SDK กับ Imagen 3
    • เหตุผล: โมเดลการสร้างรูปภาพที่ทันสมัยซึ่งเข้าถึงได้โดยใช้สภาพแวดล้อม Firebase ที่มีการจัดการ