Panduan ini dirancang untuk membantu Anda mengintegrasikan solusi kecerdasan buatan generative dan machine learning (AI/ML) Google ke dalam aplikasi Anda. Panduan ini memberikan panduan untuk membantu Anda menjelajahi berbagai solusi kecerdasan buatan dan machine learning yang tersedia serta memilih solusi yang paling sesuai dengan kebutuhan Anda. Tujuan dokumen ini adalah untuk membantu Anda menentukan alat yang akan digunakan dan alasannya, dengan berfokus pada kebutuhan dan kasus penggunaan Anda.
Untuk membantu Anda memilih solusi AI/ML yang paling sesuai dengan persyaratan khusus Anda, dokumen ini menyertakan panduan solusi. Dengan menjawab serangkaian pertanyaan tentang tujuan dan batasan project Anda, panduan ini akan mengarahkan Anda ke alat dan teknologi yang paling sesuai.
Panduan ini membantu Anda memilih solusi AI terbaik untuk aplikasi Anda. Pertimbangkan faktor-faktor berikut: jenis data (teks, gambar, audio, video), kompleksitas tugas (ringkasan sederhana hingga tugas kompleks yang memerlukan pengetahuan khusus), dan ukuran data (input singkat versus dokumen besar). Hal ini akan membantu Anda memutuskan antara menggunakan Gemini Nano di perangkat atau AI berbasis cloud Firebase (Gemini Flash, Gemini Pro, atau Imagen).
Memanfaatkan kemampuan inferensi di perangkat
Saat menambahkan fitur AI dan ML ke aplikasi Android, Anda dapat memilih cara yang berbeda untuk menayangkannya, baik di perangkat maupun menggunakan cloud.
Solusi di perangkat seperti Gemini Nano memberikan hasil tanpa biaya tambahan, memberikan privasi pengguna yang ditingkatkan, dan memberikan fungsi offline yang andal karena data input diproses secara lokal. Manfaat ini dapat sangat penting untuk kasus penggunaan tertentu, seperti ringkasan pesan, sehingga menjadikan solusi di perangkat sebagai prioritas saat memilih solusi yang tepat.
Gemini Nano memungkinkan Anda menjalankan inferensi langsung di perangkat yang didukung Android. Jika Anda menggunakan teks atau gambar, mulailah dengan API GenAI ML Kit untuk solusi siap pakai. API AI Generatif ML Kit didukung oleh Gemini Nano dan disesuaikan untuk tugas tertentu di perangkat. ML Kit GenAI API adalah jalur ideal untuk produksi aplikasi Anda karena antarmuka dan skalabilitasnya yang lebih tinggi. API ini memungkinkan Anda menerapkan kasus penggunaan untuk merumuskan, mengoreksi, dan menulis ulang teks, serta membuat deskripsi gambar.
Untuk melampaui kasus penggunaan dasar yang disediakan oleh ML Kit GenAI API, pertimbangkan Akses Eksperimental Gemini Nano. Akses Eksperimental Gemini Nano memberi Anda akses yang lebih langsung ke perintah kustom dengan Gemini Nano.
Untuk tugas machine learning tradisional, Anda memiliki fleksibilitas untuk menerapkan model kustom Anda sendiri. Kami menyediakan alat yang andal seperti ML Kit, MediaPipe, LiteRT, dan fitur pengiriman Google Play untuk menyederhanakan proses pengembangan Anda.
Untuk aplikasi yang memerlukan solusi yang sangat khusus, Anda dapat menggunakan model kustom Anda sendiri, seperti Gemma atau model lain yang disesuaikan dengan kasus penggunaan spesifik Anda. Jalankan model Anda langsung di perangkat pengguna dengan LiteRT, yang menyediakan arsitektur model yang telah didesain sebelumnya untuk performa yang dioptimalkan.
Anda juga dapat mempertimbangkan untuk membuat solusi campuran dengan memanfaatkan model di perangkat dan cloud.
Aplikasi seluler biasanya menggunakan model lokal untuk data teks kecil, seperti percakapan chat atau artikel blog. Namun, untuk sumber data yang lebih besar (seperti PDF) atau saat pengetahuan tambahan diperlukan, solusi berbasis cloud dengan model Gemini yang lebih canggih mungkin diperlukan.
Mengintegrasikan model Gemini lanjutan
Developer Android dapat mengintegrasikan kemampuan AI generatif lanjutan Google, termasuk model Gemini Pro, Gemini Flash, dan Imagen yang canggih, ke dalam aplikasi mereka menggunakan Firebase AI Logic SDK. SDK ini dirancang untuk kebutuhan data yang lebih besar dan memberikan kemampuan serta kemampuan adaptasi yang diperluas dengan mengaktifkan akses ke model AI multimodal berperforma tinggi ini.
Dengan Firebase AI Logic SDK, developer dapat melakukan panggilan sisi klien ke model AI Google dengan sedikit upaya. Model ini, seperti Gemini Pro dan Gemini Flash, menjalankan inferensi di cloud dan mendukung aplikasi Android untuk memproses berbagai input, termasuk gambar, audio, video, dan teks. Gemini Pro unggul dalam menalar masalah yang kompleks dan menganalisis data yang luas, sedangkan seri Gemini Flash menawarkan kecepatan yang unggul dan jendela konteks yang cukup besar untuk sebagian besar tugas.
Kapan harus menggunakan machine learning tradisional
Meskipun AI generatif berguna untuk membuat dan mengedit konten seperti teks, gambar, dan kode, banyak masalah di dunia nyata yang lebih baik diselesaikan menggunakan teknik Machine Learning (ML) tradisional. Metode yang sudah mapan ini unggul dalam tugas yang melibatkan prediksi, klasifikasi, deteksi, dan pemahaman pola dalam data yang ada, sering kali dengan efisiensi yang lebih besar, biaya komputasi yang lebih rendah, dan penerapan yang lebih sederhana daripada model generatif.
Framework ML tradisional menawarkan solusi yang andal, dioptimalkan, dan sering kali lebih praktis untuk aplikasi yang berfokus pada analisis input, identifikasi fitur, atau membuat prediksi berdasarkan pola yang dipelajari—bukan menghasilkan output yang benar-benar baru. Alat seperti ML Kit, LiteRT, dan MediaPipe Google memberikan kemampuan yang canggih yang disesuaikan untuk kasus penggunaan non-generatif ini, terutama di lingkungan komputasi seluler dan edge.
Memulai integrasi machine learning dengan ML Kit
ML Kit menawarkan solusi yang siap produksi dan dioptimalkan untuk seluler untuk tugas machine learning umum, tanpa memerlukan keahlian ML sebelumnya. SDK seluler yang mudah digunakan ini membawa keahlian ML Google langsung ke aplikasi Android dan iOS, sehingga Anda dapat berfokus pada pengembangan fitur, bukan pelatihan dan pengoptimalan model. ML Kit menyediakan API bawaan dan model siap pakai untuk fitur seperti pemindaian kode batang, pengenalan teks (OCR), deteksi wajah, pelabelan gambar, deteksi dan pelacakan objek, identifikasi bahasa, dan smart reply.
Model ini biasanya dioptimalkan untuk eksekusi di perangkat, sehingga memastikan latensi yang rendah, fungsi offline, dan privasi pengguna yang ditingkatkan karena data sering kali tetap ada di perangkat. Pilih ML Kit untuk menambahkan fitur ML yang sudah mapan ke aplikasi seluler dengan cepat tanpa perlu melatih model atau memerlukan output generatif. Ini ideal untuk meningkatkan aplikasi secara efisien dengan kemampuan "cerdas" menggunakan model yang dioptimalkan Google atau dengan men-deploy model TensorFlow Lite kustom.
Mulailah dengan panduan dan dokumentasi komprehensif kami di situs developer ML Kit.
Deployment ML kustom dengan LiteRT
Untuk kontrol yang lebih besar atau untuk men-deploy model ML Anda sendiri, gunakan stack ML kustom yang dibuat di layanan LiteRT dan Google Play. Stack ini menyediakan hal-hal penting untuk men-deploy fitur ML berperforma tinggi. LiteRT adalah toolkit yang dioptimalkan untuk menjalankan model TensorFlow secara efisien di perangkat seluler, tersemat, dan edge yang memiliki keterbatasan resource, sehingga Anda dapat menjalankan model yang jauh lebih kecil dan lebih cepat yang menggunakan lebih sedikit memori, daya, dan penyimpanan. Runtime LiteRT sangat dioptimalkan untuk berbagai akselerator hardware (GPU, DSP, NPU) di perangkat edge, sehingga memungkinkan inferensi latensi rendah.
Pilih LiteRT jika Anda perlu men-deploy model ML terlatih secara efisien (biasanya untuk klasifikasi, regresi, atau deteksi) di perangkat dengan daya komputasi atau daya tahan baterai terbatas, seperti smartphone, perangkat IoT, atau mikrokontroler. Ini adalah solusi yang lebih disukai untuk men-deploy model prediktif kustom atau standar di edge, tempat kecepatan dan penghematan resource sangat penting.
Pelajari penerapan ML dengan LiteRT lebih lanjut.
Membuat persepsi real-time ke dalam aplikasi Anda dengan MediaPipe
MediaPipe menyediakan solusi machine learning open source, lintas platform, dan yang dapat disesuaikan yang dirancang untuk media live dan streaming. Dapatkan manfaat dari alat bawaan yang dioptimalkan untuk tugas kompleks seperti pelacakan tangan, estimasi pose, deteksi mesh wajah, dan deteksi objek, yang semuanya memungkinkan interaksi real-time berperforma tinggi bahkan di perangkat seluler.
Pipeline berbasis grafik MediaPipe sangat dapat disesuaikan, sehingga Anda dapat menyesuaikan solusi untuk aplikasi Android, iOS, web, desktop, dan backend. Pilih MediaPipe jika aplikasi Anda perlu memahami dan bereaksi secara instan ke data sensor langsung, terutama streaming video, untuk kasus penggunaan seperti pengenalan gestur, efek AR, pelacakan kebugaran, atau kontrol avatar—semuanya berfokus pada menganalisis dan menafsirkan input.
Jelajahi solusi dan mulai build dengan MediaPipe.
Pilih pendekatan: Di perangkat atau cloud
Saat mengintegrasikan fitur AI/ML ke dalam aplikasi Android, keputusan awal yang penting adalah apakah akan melakukan pemrosesan langsung di perangkat pengguna atau di cloud. Alat seperti ML Kit, Gemini Nano, dan TensorFlow Lite memungkinkan kemampuan di perangkat, sedangkan Gemini cloud API dengan Firebase AI Logic dapat memberikan pemrosesan berbasis cloud yang canggih. Membuat pilihan yang tepat bergantung pada berbagai faktor yang spesifik untuk kasus penggunaan dan kebutuhan pengguna Anda.
Pertimbangkan aspek berikut untuk memandu keputusan Anda:
- Konektivitas dan fungsi offline: Jika aplikasi Anda perlu berfungsi dengan andal tanpa koneksi internet, solusi di perangkat seperti Gemini Nano adalah solusi yang ideal. Pemrosesan berbasis cloud, pada dasarnya, memerlukan akses jaringan.
- Privasi data: Untuk kasus penggunaan saat data pengguna harus tetap berada di perangkat karena alasan privasi, pemrosesan di perangkat menawarkan keunggulan yang berbeda dengan menyimpan informasi sensitif secara lokal.
- Kemampuan model dan kompleksitas tugas: Model berbasis cloud sering kali jauh lebih besar, lebih canggih, dan lebih sering diperbarui, sehingga cocok untuk tugas AI yang sangat kompleks atau saat memproses input yang lebih besar, dengan kualitas output yang lebih tinggi dan kemampuan yang luas. Tugas yang lebih sederhana mungkin ditangani dengan baik oleh model di perangkat.
- Pertimbangan biaya: Cloud API biasanya melibatkan harga berbasis penggunaan, yang berarti biaya dapat diskalakan dengan jumlah inferensi atau jumlah data yang diproses. Inferensi di perangkat, meskipun umumnya bebas dari biaya langsung per penggunaan, akan menimbulkan biaya pengembangan dan dapat memengaruhi resource perangkat seperti masa pakai baterai dan performa secara keseluruhan.
- Resource perangkat: Model di perangkat menggunakan ruang penyimpanan di perangkat pengguna. Penting juga untuk mengetahui kompatibilitas perangkat model di perangkat tertentu, seperti Gemini Nano, untuk memastikan target audiens Anda dapat menggunakan fitur tersebut.
- Penyesuaian dan penyesuaian: Jika Anda memerlukan kemampuan untuk menyesuaikan model untuk kasus penggunaan tertentu, solusi berbasis cloud umumnya menawarkan fleksibilitas yang lebih besar dan opsi yang lebih luas untuk penyesuaian.
- Konsistensi lintas platform: Jika fitur AI yang konsisten di beberapa platform, termasuk iOS, sangat penting, perhatikan bahwa beberapa solusi di perangkat, seperti Gemini Nano, mungkin belum tersedia di semua sistem operasi.
Dengan mempertimbangkan persyaratan kasus penggunaan dan opsi yang tersedia dengan cermat, Anda dapat menemukan solusi AI/ML yang sempurna untuk meningkatkan aplikasi Android dan memberikan pengalaman yang cerdas dan dipersonalisasi kepada pengguna.
Panduan untuk solusi AI/ML
Panduan solusi ini dapat membantu Anda mengidentifikasi alat developer yang sesuai untuk mengintegrasikan teknologi AI/ML ke dalam project Android Anda.
Apa sasaran utama fitur AI?
- A) Membuat konten baru (teks, deskripsi gambar), atau melakukan pemrosesan teks sederhana (merumuskan ringkasan, mengoreksi, atau menulis ulang teks)? → Buka AI Generatif
- B) Menganalisis data/input yang ada untuk prediksi, klasifikasi, deteksi, memahami pola, atau memproses streaming real-time (seperti video/audio)? → Buka ML & Persepsi Tradisional
ML dan persepsi tradisional
Anda perlu menganalisis input, mengidentifikasi fitur, atau membuat prediksi berdasarkan pola yang dipelajari, bukan menghasilkan output yang sama sekali baru.
Tugas spesifik apa yang Anda lakukan?
- A) Perlu integrasi cepat fitur ML seluler umum yang telah dibuat sebelumnya?
(misalnya, pemindaian kode batang, pengenalan teks (OCR), deteksi wajah, pelabelan
gambar, deteksi dan pelacakan objek, ID bahasa, smart reply dasar)
- → Gunakan: ML Kit (API Tradisional)
- Alasan: Integrasi termudah untuk tugas ML seluler yang sudah mapan, sering kali dioptimalkan untuk penggunaan di perangkat (latensi rendah, offline, privasi).
- B) Perlu memproses data streaming real-time (seperti video atau audio) untuk
tugas persepsi? (misalnya, pelacakan tangan, estimasi pose, mesh wajah,
Deteksi dan segmentasi objek secara real-time dalam video)
- → Gunakan: MediaPipe
- Alasan: Framework yang dikhususkan untuk pipeline persepsi real-time berperforma tinggi di berbagai platform.
- C) Perlu menjalankan model ML yang dilatih khusus Anda secara efisien (misalnya, untuk
klasifikasi, regresi, deteksi) di perangkat, dengan memprioritaskan
performa dan penggunaan resource yang rendah?
- → Gunakan: LiteRT (TensorFlow Lite Runtime)
- Alasan: Runtime yang dioptimalkan untuk men-deploy model kustom secara efisien di perangkat seluler dan edge (ukuran kecil, inferensi cepat, akselerasi hardware).
- D) Perlu melatih model ML kustom Anda sendiri untuk tugas tertentu?
- → Gunakan: LiteRT (TensorFlow Lite Runtime) + pelatihan model kustom
- Alasan: Menyediakan alat untuk melatih dan men-deploy model kustom, yang dioptimalkan untuk perangkat seluler dan edge.
- E) Perlu klasifikasi konten lanjutan, analisis sentimen, atau
terjemahan banyak bahasa dengan nuansa tinggi?
- Pertimbangkan apakah model ML tradisional (yang berpotensi di-deploy menggunakan LiteRT atau cloud) sesuai, atau apakah NLU lanjutan memerlukan model generatif (kembali ke Mulai, pilih A). Untuk klasifikasi, sentimen, atau terjemahan berbasis cloud:
- → Penggunaan: Solusi berbasis cloud (mis., Google Cloud Natural Language API, Google Cloud Translation API, yang berpotensi diakses menggunakan backend kustom atau Vertex AI). (Prioritas lebih rendah daripada opsi di perangkat jika offline atau privasi adalah kunci).
- Alasan: Solusi cloud menawarkan model yang canggih dan dukungan bahasa yang luas, tetapi memerlukan konektivitas dan dapat menimbulkan biaya.
AI Generatif
Anda perlu membuat konten baru, meringkas, menulis ulang, atau melakukan tugas pemahaman atau interaksi yang kompleks.
Apakah Anda memerlukan AI untuk berfungsi offline, memerlukan privasi data maksimum (menyimpan data pengguna di perangkat), atau ingin menghindari biaya inferensi cloud?
- A) Ya, offline, privasi maksimum, atau tidak ada biaya cloud sangat penting.
- → Buka AI generatif di perangkat
- B) Tidak, konektivitas tersedia dan dapat diterima, kemampuan dan skalabilitas cloud lebih penting, atau fitur tertentu memerlukan cloud.
- → Buka AI generatif cloud
AI generatif di perangkat (Menggunakan Gemini Nano)
Batasan: Memerlukan perangkat Android yang kompatibel, dukungan iOS terbatas, batas token tertentu (perintah 1024, konteks 4096), model kurang canggih dibandingkan dengan cloud.
Apakah kasus penggunaan Anda secara khusus cocok dengan tugas yang disederhanakan yang ditawarkan oleh API GenAI ML Kit? (Ringkas teks, Koreksi teks, Tulis ulang teks, Buat Deskripsi Gambar) DAN apakah batas token sudah memadai?
- A) Ya:
- → Gunakan: ML Kit GenAI API (didukung oleh Gemini Nano)
- Alasan: Cara termudah untuk mengintegrasikan tugas generatif umum tertentu di perangkat, solusi di perangkat dengan prioritas tertinggi.
- B) Tidak (Anda memerlukan perintah atau tugas yang lebih fleksibel di luar API GenAI
ML Kit tertentu, tetapi tetap menginginkan eksekusi di perangkat dalam kemampuan
Nano):
- → Gunakan: Akses Eksperimental Gemini Nano
- Alasan: Memberikan kemampuan perintah terbuka di perangkat untuk kasus penggunaan di luar API GenAI ML Kit terstruktur, dengan mempertimbangkan batasan Nano.
AI generatif Cloud
Menggunakan model yang lebih canggih, memerlukan konektivitas, biasanya melibatkan biaya inferensi, menawarkan jangkauan perangkat yang lebih luas, dan konsistensi lintas platform (Android dan iOS) yang lebih mudah.
Apa prioritas Anda: Kemudahan integrasi dalam Firebase ATAU fleksibilitas/kontrol maksimal?
- A) Lebih memilih integrasi yang lebih mudah, pengalaman API terkelola, dan kemungkinan sudah menggunakan Firebase?
- → Gunakan: Firebase AI Logic SDK → Buka Firebase AI Logic
- B) Memerlukan fleksibilitas maksimum, akses ke berbagai model
terluas (termasuk pihak ketiga/kustom), penyesuaian lanjutan, dan bersedia
mengelola integrasi backend Anda sendiri (lebih kompleks)?
- → Penggunaan: Gemini API dengan Backend Cloud Kustom (menggunakan Google Cloud Platform)
- Alasan: Menawarkan kontrol terbanyak, akses model terluas, dan opsi pelatihan kustom, tetapi memerlukan upaya pengembangan backend yang signifikan. Cocok untuk kebutuhan yang kompleks, berskala besar, atau sangat disesuaikan.
(Anda memilih Firebase AI Logic SDK) Jenis tugas dan profil performa generatif apa yang Anda perlukan?
- A) Perlu keseimbangan performa dan biaya, yang cocok untuk pembuatan teks umum, ringkasan, atau aplikasi chat yang mengutamakan kecepatan?
- → Gunakan: Firebase AI Logic SDK dengan Gemini Flash
- Alasan: Dioptimalkan untuk kecepatan dan efisiensi dalam lingkungan yang dikelola Vertex AI.
- B) Perlu kualitas dan kemampuan yang lebih tinggi untuk pembuatan teks,
penalaran, NLU lanjutan, atau mengikuti petunjuk yang kompleks?
- → Gunakan: Firebase AI Logic SDK dengan Gemini Pro
- Alasan: Model teks yang lebih canggih untuk tugas yang berat, diakses melalui Firebase.
- C) Perlu pembuatan gambar yang canggih atau pemahaman atau manipulasi gambar
lanjutan berdasarkan perintah teks?
- → Gunakan: Firebase AI Logic SDK dengan Imagen 3
- Alasan: Model pembuatan gambar tercanggih yang diakses menggunakan lingkungan Firebase terkelola.