Android Neural Networks API (NNAPI) یک API Android C است که برای اجرای عملیات محاسباتی فشرده برای یادگیری ماشین در دستگاههای Android طراحی شده است. NNAPI برای ارائه یک لایه پایه از عملکرد برای چارچوبهای یادگیری ماشینی سطح بالاتر، مانند TensorFlow Lite و Caffe2، که شبکههای عصبی را میسازند و آموزش میدهند، طراحی شده است. API در همه دستگاههای اندرویدی دارای Android 8.1 (سطح API 27) یا بالاتر در دسترس است.
NNAPI از استنتاج با اعمال دادهها از دستگاههای Android به مدلهای آموزشدیده قبلی و تعریفشده توسط توسعهدهنده پشتیبانی میکند. نمونه هایی از استنباط عبارتند از طبقه بندی تصاویر، پیش بینی رفتار کاربر، و انتخاب پاسخ های مناسب به یک عبارت جستجو.
استنباط بر روی دستگاه مزایای زیادی دارد:
- تأخیر : نیازی به ارسال درخواست از طریق اتصال شبکه ندارید و منتظر پاسخ باشید. به عنوان مثال، این می تواند برای برنامه های ویدیویی که فریم های متوالی از یک دوربین را پردازش می کنند، بسیار مهم باشد.
- در دسترس بودن : برنامه حتی زمانی که خارج از پوشش شبکه است اجرا می شود.
- سرعت : سختافزار جدیدی که مختص پردازش شبکههای عصبی است، محاسبات بسیار سریعتری را نسبت به یک CPU همه منظوره به تنهایی فراهم میکند.
- حریم خصوصی : داده ها از دستگاه Android خارج نمی شوند.
- هزینه : وقتی همه محاسبات در دستگاه Android انجام می شود، به مزرعه سرور نیاز نیست.
همچنین معاوضه هایی وجود دارد که یک توسعه دهنده باید در نظر داشته باشد:
- استفاده از سیستم : ارزیابی شبکه های عصبی مستلزم محاسبات زیادی است که می تواند مصرف انرژی باتری را افزایش دهد. اگر این مورد برای برنامه شما نگران کننده است، به خصوص برای محاسبات طولانی مدت، باید سلامت باتری را بررسی کنید.
- اندازه برنامه : به اندازه مدل های خود توجه کنید. مدل ها ممکن است چندین مگابایت فضا را اشغال کنند. اگر بستهبندی مدلهای بزرگ در APK شما بهطور غیرمنطقی بر کاربران شما تأثیر میگذارد، ممکن است بخواهید مدلها را پس از نصب برنامه، استفاده از مدلهای کوچکتر یا اجرای محاسبات خود در فضای ابری دانلود کنید. NNAPI عملکردی را برای مدلهای در حال اجرا در فضای ابری ارائه نمیکند.
برای مشاهده نمونه ای از نحوه استفاده از NNAPI ، نمونه API شبکه های عصبی اندروید را ببینید.
زمان اجرای API شبکه های عصبی را درک کنید
NNAPI قرار است با کتابخانهها، چارچوبها و ابزارهای یادگیری ماشینی فراخوانی شود که به توسعهدهندگان اجازه میدهد مدلهای خود را خارج از دستگاه آموزش دهند و آنها را در دستگاههای Android استقرار دهند. برنامهها معمولاً مستقیماً از NNAPI استفاده نمیکنند، اما در عوض از چارچوبهای یادگیری ماشینی سطح بالاتر استفاده میکنند. این چارچوبها به نوبه خود میتوانند از NNAPI برای انجام عملیات استنتاج تسریعشده سختافزاری در دستگاههای پشتیبانیشده استفاده کنند.
بر اساس نیازهای یک برنامه و قابلیتهای سختافزاری در یک دستگاه اندرویدی، زمان اجرا شبکه عصبی اندروید میتواند به طور موثر حجم کار محاسباتی را در بین پردازندههای موجود روی دستگاه، از جمله سختافزار شبکه عصبی اختصاصی، واحدهای پردازش گرافیکی (GPU) و پردازندههای سیگنال دیجیتال (DSP) توزیع کند. ).
برای دستگاههای اندرویدی که فاقد درایور فروشنده تخصصی هستند، زمان اجرا NNAPI درخواستها را روی CPU اجرا میکند.
شکل 1 معماری سیستم سطح بالا را برای NNAPI نشان می دهد.
مدل برنامه نویسی API شبکه های عصبی
برای انجام محاسبات با استفاده از NNAPI، ابتدا باید یک نمودار جهت دار بسازید که محاسبات را برای انجام تعریف کند. این نمودار محاسباتی، همراه با دادههای ورودی شما (به عنوان مثال، وزنها و سوگیریهای منتقل شده از چارچوب یادگیری ماشین)، مدلی را برای ارزیابی زمان اجرا NNAPI تشکیل میدهد.
NNAPI از چهار انتزاع اصلی استفاده می کند:
- مدل : یک نمودار محاسباتی از عملیات ریاضی و مقادیر ثابتی که از طریق یک فرآیند آموزشی آموخته شده است. این عملیات مختص شبکه های عصبی است. آنها شامل کانولوشن دو بعدی (2 بعدی)، فعال سازی لجستیک ( سیگموئید )، فعال سازی خطی اصلاح شده (ReLU) و غیره هستند. ایجاد یک مدل یک عملیات همزمان است. پس از ایجاد موفقیت آمیز، می توان از آن در سراسر رشته ها و مجموعه ها استفاده مجدد کرد. در NNAPI، یک مدل به عنوان یک نمونه
ANeuralNetworksModel
نشان داده می شود. - کامپایل : پیکربندی را برای کامپایل کردن یک مدل NNAPI در کدهای سطح پایین نشان می دهد. ایجاد یک کامپایل یک عملیات همزمان است. پس از ایجاد موفقیت آمیز، می توان از آن در سراسر رشته ها و اجراها استفاده مجدد کرد. در NNAPI، هر کامپایل به عنوان یک نمونه
ANeuralNetworksCompilation
نشان داده می شود. - حافظه : نشان دهنده حافظه مشترک، فایل های نقشه برداری شده از حافظه و بافرهای حافظه مشابه است. استفاده از بافر حافظه به NNAPI اجازه میدهد تا دادهها را با کارایی بیشتری به درایورها منتقل کند. یک برنامه معمولاً یک بافر حافظه مشترک ایجاد می کند که حاوی هر تانسور مورد نیاز برای تعریف یک مدل است. همچنین می توانید از بافرهای حافظه برای ذخیره ورودی ها و خروجی ها برای یک نمونه اجرا استفاده کنید. در NNAPI، هر بافر حافظه به عنوان یک نمونه
ANeuralNetworksMemory
نشان داده می شود. اجرا : رابطی برای اعمال یک مدل NNAPI به مجموعهای از ورودیها و جمعآوری نتایج. اجرا می تواند به صورت همزمان یا ناهمزمان انجام شود.
برای اجرای ناهمزمان، چندین رشته می توانند در اجرای یکسان منتظر بمانند. پس از اتمام این اجرا، تمام رشته ها آزاد می شوند.
در NNAPI، هر اجرا به عنوان یک نمونه
ANeuralNetworksExecution
نشان داده می شود.
شکل 2 جریان اصلی برنامه نویسی را نشان می دهد.
بقیه این بخش مراحل راه اندازی مدل NNAPI را برای انجام محاسبات، کامپایل مدل و اجرای مدل کامپایل شده شرح می دهد.
دسترسی به داده های آموزشی را فراهم کنید
داده های وزن و سوگیری های آموزش دیده شما احتمالاً در یک فایل ذخیره می شوند. برای فراهم کردن زمان اجرا NNAPI با دسترسی کارآمد به این داده ها، با فراخوانی تابع ANeuralNetworksMemory_createFromFd()
و ارسال توصیفگر فایل فایل داده باز شده، یک نمونه ANeuralNetworksMemory
ایجاد کنید. شما همچنین پرچم های حفاظت از حافظه و یک آفست را مشخص می کنید که منطقه حافظه مشترک در فایل شروع می شود.
// Create a memory buffer from the file that contains the trained data
ANeuralNetworksMemory* mem1 = NULL;
int fd = open("training_data", O_RDONLY);
ANeuralNetworksMemory_createFromFd(file_size, PROT_READ, fd, 0, &mem1);
اگرچه در این مثال ما فقط از یک نمونه ANeuralNetworksMemory
برای تمام وزنهای خود استفاده میکنیم، ممکن است از بیش از یک نمونه ANeuralNetworksMemory
برای چندین فایل استفاده کنیم.
از بافرهای سخت افزاری بومی استفاده کنید
می توانید از بافرهای سخت افزاری بومی برای ورودی های مدل، خروجی ها و مقادیر عملوند ثابت استفاده کنید. در موارد خاص، یک شتاب دهنده NNAPI می تواند به اشیاء AHardwareBuffer
بدون نیاز راننده به کپی کردن داده ها دسترسی داشته باشد. AHardwareBuffer
پیکربندی های مختلفی دارد و هر شتاب دهنده NNAPI ممکن است از همه این پیکربندی ها پشتیبانی نکند. به دلیل این محدودیت، به محدودیتهای فهرستشده در مستندات مرجع ANeuralNetworksMemory_createFromAHardwareBuffer
مراجعه کنید و قبل از موعد بر روی دستگاههای هدف آزمایش کنید تا اطمینان حاصل کنید که کامپایلها و اجراهایی که از AHardwareBuffer
استفاده میکنند مطابق انتظار عمل میکنند و با استفاده از تخصیص دستگاه برای تعیین شتابدهنده عمل میکنند.
برای اجازه دادن به زمان اجرا NNAPI برای دسترسی به یک شی AHardwareBuffer
، با فراخوانی تابع ANeuralNetworksMemory_createFromAHardwareBuffer
و ارسال در شیء AHardwareBuffer
، یک نمونه ANeuralNetworksMemory
ایجاد کنید، همانطور که در نمونه کد زیر نشان داده شده است:
// Configure and create AHardwareBuffer object AHardwareBuffer_Desc desc = ... AHardwareBuffer* ahwb = nullptr; AHardwareBuffer_allocate(&desc, &ahwb); // Create ANeuralNetworksMemory from AHardwareBuffer ANeuralNetworksMemory* mem2 = NULL; ANeuralNetworksMemory_createFromAHardwareBuffer(ahwb, &mem2);
وقتی NNAPI دیگر نیازی به دسترسی به شی AHardwareBuffer
ندارد، نمونه ANeuralNetworksMemory
مربوطه را آزاد کنید:
ANeuralNetworksMemory_free(mem2);
توجه:
- شما می توانید
AHardwareBuffer
را فقط برای کل بافر استفاده کنید. شما نمی توانید آن را با پارامترARect
استفاده کنید. - زمان اجرا NNAPI بافر را پاک نمی کند. قبل از زمانبندی اجرا باید مطمئن شوید که بافرهای ورودی و خروجی در دسترس هستند.
- هیچ پشتیبانی برای توصیفگرهای فایل حصار همگام سازی وجود ندارد.
- برای
AHardwareBuffer
با فرمتهای خاص فروشنده و بیتهای استفاده، این به پیادهسازی فروشنده بستگی دارد که تعیین کند آیا کلاینت یا درایور مسئول شستشوی حافظه پنهان است.
مدل
مدل واحد اساسی محاسبات در NNAPI است. هر مدل با یک یا چند عملوند و عملیات تعریف می شود.
عملوندها
عملوندها اشیاء داده ای هستند که در تعریف گراف استفاده می شوند. اینها شامل ورودی ها و خروجی های مدل، گره های میانی است که حاوی داده هایی است که از یک عملیات به عملیات دیگر جریان می یابد، و ثابت هایی که به این عملیات منتقل می شوند.
دو نوع عملوند وجود دارد که می توان به مدل های NNAPI اضافه کرد: اسکالرها و تانسورها .
یک اسکالر یک مقدار واحد را نشان می دهد. NNAPI از مقادیر اسکالر در فرمت های بولی، 16 بیتی ممیز شناور، 32 بیتی ممیز شناور، عدد صحیح 32 بیتی و 32 بیتی بدون علامت پشتیبانی می کند.
اکثر عملیات در NNAPI شامل تانسورها هستند. تانسورها آرایه های n بعدی هستند. NNAPI از تانسورهایی با ممیز شناور 16 بیتی، ممیز شناور 32 بیتی، کوانتیزه 8 بیتی، کوانتیزه 16 بیتی، عدد صحیح 32 بیتی و مقادیر بولی 8 بیتی پشتیبانی می کند.
به عنوان مثال، شکل 3 مدلی را با دو عمل نشان می دهد: یک جمع و به دنبال آن یک ضرب. مدل یک تانسور ورودی می گیرد و یک تانسور خروجی تولید می کند.
مدل فوق دارای هفت عملوند است. این عملوندها به طور ضمنی با نمایه ترتیبی که به مدل اضافه می شوند، شناسایی می شوند. عملوند اول اضافه شده دارای اندیس 0، دومی شاخص 1 و غیره است. عملوندهای 1، 2، 3 و 5 عملوندهای ثابت هستند.
ترتیب اضافه کردن عملوندها مهم نیست. برای مثال، عملوند خروجی مدل می تواند اولین موردی باشد که اضافه می شود. بخش مهم این است که هنگام ارجاع به یک عملوند از مقدار شاخص صحیح استفاده کنید.
عملوندها انواع دارند. اینها زمانی که به مدل اضافه می شوند مشخص می شوند.
عملوند را نمی توان هم به عنوان ورودی و هم به عنوان خروجی یک مدل استفاده کرد.
هر عملوند یا باید یک ورودی مدل، یک ثابت یا عملوند خروجی دقیقاً یک عملیات باشد.
برای اطلاعات بیشتر در مورد استفاده از عملوندها، به اطلاعات بیشتر درباره عملوندها مراجعه کنید.
عملیات
یک عملیات محاسباتی را که باید انجام شود را مشخص می کند. هر عملیات از این عناصر تشکیل شده است:
- یک نوع عملیات (به عنوان مثال، جمع، ضرب، کانولوشن)،
- فهرستی از شاخص های عملوندهایی که عملیات برای ورودی استفاده می کند و
- لیستی از شاخص های عملوندهایی که عملیات برای خروجی استفاده می کند.
ترتیب در این لیست ها مهم است. برای ورودی ها و خروجی های مورد انتظار هر نوع عملیات ، مرجع NNAPI API را ببینید.
قبل از اضافه کردن عملیات باید عملوندهایی را که یک عملیات مصرف یا تولید می کند به مدل اضافه کنید.
ترتیب اضافه کردن عملیات مهم نیست. NNAPI برای تعیین ترتیب اجرای عملیات بر وابستگی های ایجاد شده توسط نمودار محاسباتی عملوندها و عملیات تکیه دارد.
عملیاتی که NNAPI پشتیبانی می کند در جدول زیر خلاصه شده است:
مشکل شناخته شده در سطح 28 API: هنگام انتقال تانسورهای ANEURALNETWORKS_TENSOR_QUANT8_ASYMM
به عملیات ANEURALNETWORKS_PAD
، که در Android 9 (سطح API 28) و بالاتر در دسترس است، ممکن است خروجی NNAPI با خروجی چارچوبهای یادگیری ماشینی سطح بالاتر، مانند TetLow، مطابقت نداشته باشد. . در عوض باید فقط ANEURALNETWORKS_TENSOR_FLOAT32
را پاس کنید. مشکل در اندروید 10 (سطح API 29) و بالاتر حل شده است.
ساخت مدل ها
در مثال زیر، مدل دو عملیاتی موجود در شکل 3 را ایجاد می کنیم.
برای ساخت مدل، مراحل زیر را دنبال کنید:
تابع
ANeuralNetworksModel_create()
را برای تعریف یک مدل خالی فراخوانی کنید.ANeuralNetworksModel* model = NULL; ANeuralNetworksModel_create(&model);
با فراخوانی
ANeuralNetworks_addOperand()
عملوندها را به مدل خود اضافه کنید. انواع داده آنها با استفاده از ساختار دادهANeuralNetworksOperandType
تعریف شده است.// In our example, all our tensors are matrices of dimension [3][4] ANeuralNetworksOperandType tensor3x4Type; tensor3x4Type.type = ANEURALNETWORKS_TENSOR_FLOAT32; tensor3x4Type.scale = 0.f; // These fields are used for quantized tensors tensor3x4Type.zeroPoint = 0; // These fields are used for quantized tensors tensor3x4Type.dimensionCount = 2; uint32_t dims[2] = {3, 4}; tensor3x4Type.dimensions = dims;
// We also specify operands that are activation function specifiers ANeuralNetworksOperandType activationType; activationType.type = ANEURALNETWORKS_INT32; activationType.scale = 0.f; activationType.zeroPoint = 0; activationType.dimensionCount = 0; activationType.dimensions = NULL;
// Now we add the seven operands, in the same order defined in the diagram ANeuralNetworksModel_addOperand(model, &tensor3x4Type); // operand 0 ANeuralNetworksModel_addOperand(model, &tensor3x4Type); // operand 1 ANeuralNetworksModel_addOperand(model, &activationType); // operand 2 ANeuralNetworksModel_addOperand(model, &tensor3x4Type); // operand 3 ANeuralNetworksModel_addOperand(model, &tensor3x4Type); // operand 4 ANeuralNetworksModel_addOperand(model, &activationType); // operand 5 ANeuralNetworksModel_addOperand(model, &tensor3x4Type); // operand 6برای عملوندهایی که مقادیر ثابتی دارند، مانند وزنها و بایاسهایی که برنامه شما از یک فرآیند آموزشی به دست میآورد، از توابع
ANeuralNetworksModel_setOperandValue()
وANeuralNetworksModel_setOperandValueFromMemory()
استفاده کنید.در مثال زیر، مقادیر ثابتی را از فایل داده آموزشی مربوط به بافر حافظه ای که در ارائه دسترسی به داده های آموزشی ایجاد کرده ایم، تنظیم می کنیم.
// In our example, operands 1 and 3 are constant tensors whose values were // established during the training process const int sizeOfTensor = 3 * 4 * 4; // The formula for size calculation is dim0 * dim1 * elementSize ANeuralNetworksModel_setOperandValueFromMemory(model, 1, mem1, 0, sizeOfTensor); ANeuralNetworksModel_setOperandValueFromMemory(model, 3, mem1, sizeOfTensor, sizeOfTensor);
// We set the values of the activation operands, in our example operands 2 and 5 int32_t noneValue = ANEURALNETWORKS_FUSED_NONE; ANeuralNetworksModel_setOperandValue(model, 2, &noneValue, sizeof(noneValue)); ANeuralNetworksModel_setOperandValue(model, 5, &noneValue, sizeof(noneValue));برای هر عملیات در گراف جهت دار که می خواهید محاسبه کنید، عملیات را با فراخوانی تابع
ANeuralNetworksModel_addOperation()
به مدل خود اضافه کنید.به عنوان پارامترهای این تماس، برنامه شما باید موارد زیر را ارائه کند:
- نوع عملیات
- تعداد مقادیر ورودی
- آرایه شاخص برای عملوندهای ورودی
- تعداد مقادیر خروجی
- آرایه شاخص برای عملوندهای خروجی
توجه داشته باشید که یک عملوند را نمی توان هم برای ورودی و هم برای خروجی یک عملیات استفاده کرد.
// We have two operations in our example // The first consumes operands 1, 0, 2, and produces operand 4 uint32_t addInputIndexes[3] = {1, 0, 2}; uint32_t addOutputIndexes[1] = {4}; ANeuralNetworksModel_addOperation(model, ANEURALNETWORKS_ADD, 3, addInputIndexes, 1, addOutputIndexes);
// The second consumes operands 3, 4, 5, and produces operand 6 uint32_t multInputIndexes[3] = {3, 4, 5}; uint32_t multOutputIndexes[1] = {6}; ANeuralNetworksModel_addOperation(model, ANEURALNETWORKS_MUL, 3, multInputIndexes, 1, multOutputIndexes);با فراخوانی تابع
ANeuralNetworksModel_identifyInputsAndOutputs()
مشخص کنید که مدل باید کدام عملوند را به عنوان ورودی و خروجی خود در نظر بگیرد.// Our model has one input (0) and one output (6) uint32_t modelInputIndexes[1] = {0}; uint32_t modelOutputIndexes[1] = {6}; ANeuralNetworksModel_identifyInputsAndOutputs(model, 1, modelInputIndexes, 1 modelOutputIndexes);
در صورت تمایل، با فراخوانی
ANeuralNetworksModel_relaxComputationFloat32toFloat16()
مشخص کنید که آیاANEURALNETWORKS_TENSOR_FLOAT32
مجاز است با برد یا دقتی به اندازه فرمت ممیز شناور 16 بیتی IEEE 754 محاسبه شود.برای نهایی کردن تعریف مدل خود
ANeuralNetworksModel_finish()
را فراخوانی کنید. اگر خطایی وجود نداشته باشد، این تابع کد نتیجهANEURALNETWORKS_NO_ERROR
را برمیگرداند.ANeuralNetworksModel_finish(model);
هنگامی که یک مدل ایجاد می کنید، می توانید آن را هر تعداد بار کامپایل کنید و هر کامپایل را هر چند بار اجرا کنید.
کنترل جریان
برای گنجاندن جریان کنترل در یک مدل NNAPI، موارد زیر را انجام دهید:
زیرگراف های اجرایی مربوطه (
then
و زیرگراف هایelse
برای یک عبارتIF
،condition
و زیرگراف هایbody
برای حلقهWHILE
) به عنوان مدل هایANeuralNetworksModel*
مستقل بسازید:ANeuralNetworksModel* thenModel = makeThenModel(); ANeuralNetworksModel* elseModel = makeElseModel();
عملوندهایی ایجاد کنید که به آن مدل ها در مدل حاوی جریان کنترل ارجاع دهند:
ANeuralNetworksOperandType modelType = { .type = ANEURALNETWORKS_MODEL, }; ANeuralNetworksModel_addOperand(model, &modelType); // kThenOperandIndex ANeuralNetworksModel_addOperand(model, &modelType); // kElseOperandIndex ANeuralNetworksModel_setOperandValueFromModel(model, kThenOperandIndex, &thenModel); ANeuralNetworksModel_setOperandValueFromModel(model, kElseOperandIndex, &elseModel);
عملیات جریان کنترل را اضافه کنید:
uint32_t inputs[] = {kConditionOperandIndex, kThenOperandIndex, kElseOperandIndex, kInput1, kInput2, kInput3}; uint32_t outputs[] = {kOutput1, kOutput2}; ANeuralNetworksModel_addOperation(model, ANEURALNETWORKS_IF, std::size(inputs), inputs, std::size(output), outputs);
تالیف
مرحله کامپایل تعیین می کند که مدل شما روی کدام پردازنده ها اجرا شود و از درایورهای مربوطه می خواهد تا برای اجرای آن آماده شوند. این می تواند شامل تولید کد ماشین مخصوص پردازنده هایی باشد که مدل شما روی آنها اجرا می کند.
برای کامپایل یک مدل، مراحل زیر را دنبال کنید:
برای ایجاد یک نمونه کامپایل جدید، تابع
ANeuralNetworksCompilation_create()
را فراخوانی کنید.// Compile the model ANeuralNetworksCompilation* compilation; ANeuralNetworksCompilation_create(model, &compilation);
به صورت اختیاری، میتوانید از تخصیص دستگاه برای انتخاب صریح دستگاههایی برای اجرا استفاده کنید.
میتوانید بهصورت اختیاری بر نحوه تغییر زمان اجرا بین مصرف انرژی باتری و سرعت اجرا تأثیر بگذارید. می توانید این کار را با فراخوانی
ANeuralNetworksCompilation_setPreference()
انجام دهید.// Ask to optimize for low power consumption ANeuralNetworksCompilation_setPreference(compilation, ANEURALNETWORKS_PREFER_LOW_POWER);
ترجیحاتی که می توانید مشخص کنید عبارتند از:
-
ANEURALNETWORKS_PREFER_LOW_POWER
: ترجیح میدهید به گونهای اجرا شود که تخلیه باتری را به حداقل برساند. این برای کامپایل هایی که اغلب اجرا می شوند مطلوب است. -
ANEURALNETWORKS_PREFER_FAST_SINGLE_ANSWER
: ترجیح میدهید یک پاسخ را در سریعترین زمان ممکن برگردانید، حتی اگر باعث مصرف انرژی بیشتر شود. این پیش فرض است. -
ANEURALNETWORKS_PREFER_SUSTAINED_SPEED
: ترجیح میدهید توان پردازشی فریمهای متوالی را به حداکثر برسانید، مانند هنگام پردازش فریمهای متوالی از دوربین.
-
میتوانید بهصورت اختیاری ذخیرهسازی کامپایل را با تماس با
ANeuralNetworksCompilation_setCaching
تنظیم کنید.// Set up compilation caching ANeuralNetworksCompilation_setCaching(compilation, cacheDir, token);
از
getCodeCacheDir()
برایcacheDir
استفاده کنید.token
مشخص شده باید برای هر مدل در برنامه منحصر به فرد باشد.با فراخوانی
ANeuralNetworksCompilation_finish()
تعریف کامپایل را نهایی کنید. اگر خطایی وجود نداشته باشد، این تابع کد نتیجهANEURALNETWORKS_NO_ERROR
را برمیگرداند.ANeuralNetworksCompilation_finish(compilation);
کشف و تخصیص دستگاه
در دستگاههای Android دارای Android 10 (سطح API 29) و بالاتر، NNAPI عملکردهایی را ارائه میکند که به کتابخانهها و برنامههای چارچوب یادگیری ماشین اجازه میدهد اطلاعاتی درباره دستگاههای موجود دریافت کنند و دستگاههایی را برای اجرا مشخص کنند. ارائه اطلاعات در مورد دستگاه های موجود به برنامه ها اجازه می دهد تا نسخه دقیق درایورهای موجود در دستگاه را دریافت کنند تا از ناسازگاری های شناخته شده جلوگیری کنند. با دادن توانایی به برنامهها برای تعیین اینکه کدام دستگاهها بخشهای مختلف یک مدل را اجرا کنند، برنامهها را میتوان برای دستگاه اندرویدی که در آن مستقر هستند بهینه کرد.
کشف دستگاه
از ANeuralNetworks_getDeviceCount
برای دریافت تعداد دستگاه های موجود استفاده کنید. برای هر دستگاه، از ANeuralNetworks_getDevice
استفاده کنید تا یک نمونه ANeuralNetworksDevice
را به یک مرجع به آن دستگاه تنظیم کنید.
هنگامی که یک مرجع دستگاه دارید، می توانید با استفاده از عملکردهای زیر اطلاعات بیشتری در مورد آن دستگاه پیدا کنید:
-
ANeuralNetworksDevice_getFeatureLevel
-
ANeuralNetworksDevice_getName
-
ANeuralNetworksDevice_getType
-
ANeuralNetworksDevice_getVersion
واگذاری دستگاه
از ANeuralNetworksModel_getSupportedOperationsForDevices
برای کشف اینکه کدام عملیات یک مدل را می توان در دستگاه های خاص اجرا کرد، استفاده کنید.
برای کنترل اینکه کدام شتاب دهنده برای اجرا استفاده شود، به جای ANeuralNetworksCompilation_create
، ANeuralNetworksCompilation_createForDevices
را فراخوانی کنید. به طور معمول از شیء ANeuralNetworksCompilation
حاصل استفاده کنید. اگر مدل ارائه شده حاوی عملیاتی باشد که توسط دستگاه های انتخابی پشتیبانی نمی شود، تابع یک خطا برمی گرداند.
اگر چندین دستگاه مشخص شده باشد، زمان اجرا مسئول توزیع کار در بین دستگاه ها است.
مشابه سایر دستگاهها، پیادهسازی CPU NNAPI توسط یک ANeuralNetworksDevice
با نام nnapi-reference
و نوع ANEURALNETWORKS_DEVICE_TYPE_CPU
نشان داده میشود. هنگام فراخوانی ANeuralNetworksCompilation_createForDevices
، پیاده سازی CPU برای رسیدگی به موارد خرابی برای کامپایل و اجرای مدل استفاده نمی شود.
این وظیفه یک برنامه کاربردی است که یک مدل را به مدلهای فرعی تقسیم کند که میتوانند روی دستگاههای مشخص شده اجرا شوند. برنامههایی که نیازی به پارتیشنبندی دستی ندارند، باید ANeuralNetworksCompilation_create
سادهتر را فراخوانی کنند تا از همه دستگاههای موجود (از جمله CPU) برای سرعت بخشیدن به مدل استفاده کنند. اگر مدل توسط دستگاههایی که با استفاده از ANeuralNetworksCompilation_createForDevices
مشخص کردهاید به طور کامل پشتیبانی نشود، ANEURALNETWORKS_BAD_DATA
برگردانده میشود.
پارتیشن بندی مدل
هنگامی که چندین دستگاه برای مدل موجود است، زمان اجرا NNAPI کار را در بین دستگاه ها توزیع می کند. به عنوان مثال، اگر بیش از یک دستگاه به ANeuralNetworksCompilation_createForDevices
ارائه شده باشد، همه موارد مشخص شده در هنگام تخصیص کار در نظر گرفته می شوند. توجه داشته باشید که اگر دستگاه CPU در لیست نباشد، اجرای CPU غیرفعال خواهد شد. هنگام استفاده از ANeuralNetworksCompilation_create
همه دستگاه های موجود از جمله CPU در نظر گرفته می شوند.
توزیع با انتخاب از لیست دستگاه های موجود، برای هر یک از عملیات های موجود در مدل، دستگاهی که از عملیات پشتیبانی می کند و بهترین عملکرد، یعنی سریع ترین زمان اجرا یا کمترین مصرف برق، بسته به اولویت اجرای مشخص شده، اعلام می شود، انجام می شود. توسط مشتری این الگوریتم پارتیشنبندی ناکارآمدیهای احتمالی ناشی از IO بین پردازندههای مختلف را در نظر نمیگیرد، بنابراین، هنگام تعیین چندین پردازنده (چه به طور صریح هنگام استفاده از ANeuralNetworksCompilation_createForDevices
یا به طور ضمنی با استفاده از ANeuralNetworksCompilation_create
) نمایه کردن برنامه به دست آمده مهم است.
برای درک اینکه چگونه مدل شما توسط NNAPI پارتیشن بندی شده است، گزارش های Android را برای یک پیام بررسی کنید (در سطح INFO با برچسب ExecutionPlan
):
ModelBuilder::findBestDeviceForEachOperation(op-name): device-index
op-name
نام توصیفی عملیات در نمودار و device-index
شاخص دستگاه کاندید در لیست دستگاه ها است. این فهرست ورودی ارائه شده به ANeuralNetworksCompilation_createForDevices
است یا، در صورت استفاده از ANeuralNetworksCompilation_createForDevices
، لیست دستگاههایی است که هنگام تکرار بر روی همه دستگاهها با استفاده از ANeuralNetworks_getDeviceCount
و ANeuralNetworks_getDevice
برگردانده میشوند.
پیام (در سطح INFO با برچسب ExecutionPlan
):
ModelBuilder::partitionTheWork: only one best device: device-name
این پیام نشان می دهد که کل نمودار روی device-name
تسریع شده است.
اعدام
مرحله اجرا، مدل را روی مجموعهای از ورودیها اعمال میکند و خروجیهای محاسباتی را در یک یا چند بافر کاربر یا فضای حافظهای که برنامه شما اختصاص داده ذخیره میکند.
برای اجرای یک مدل کامپایل شده، مراحل زیر را دنبال کنید:
تابع
ANeuralNetworksExecution_create()
را برای ایجاد یک نمونه اجرایی جدید فراخوانی کنید.// Run the compiled model against a set of inputs ANeuralNetworksExecution* run1 = NULL; ANeuralNetworksExecution_create(compilation, &run1);
محل خواندن مقادیر ورودی محاسبات توسط برنامه شما را مشخص کنید. برنامه شما می تواند مقادیر ورودی را از بافر کاربر یا فضای حافظه اختصاص داده شده با فراخوانی
ANeuralNetworksExecution_setInput()
یاANeuralNetworksExecution_setInputFromMemory()
بخواند.// Set the single input to our sample model. Since it is small, we won't use a memory buffer float32 myInput[3][4] = { ...the data... }; ANeuralNetworksExecution_setInput(run1, 0, NULL, myInput, sizeof(myInput));
محل نوشتن مقادیر خروجی را مشخص کنید. برنامه شما می تواند مقادیر خروجی را در بافر کاربر یا فضای حافظه اختصاص داده شده، با فراخوانی
ANeuralNetworksExecution_setOutput()
یاANeuralNetworksExecution_setOutputFromMemory()
بنویسد.// Set the output float32 myOutput[3][4]; ANeuralNetworksExecution_setOutput(run1, 0, NULL, myOutput, sizeof(myOutput));
با فراخوانی تابع
ANeuralNetworksExecution_startCompute()
اجرا را برای شروع برنامه ریزی کنید. اگر خطایی وجود نداشته باشد، این تابع کد نتیجهANEURALNETWORKS_NO_ERROR
را برمیگرداند.// Starts the work. The work proceeds asynchronously ANeuralNetworksEvent* run1_end = NULL; ANeuralNetworksExecution_startCompute(run1, &run1_end);
تابع
ANeuralNetworksEvent_wait()
را فراخوانی کنید تا منتظر بمانید تا اجرا کامل شود. اگر اجرا با موفقیت انجام شد، این تابع کد نتیجهANEURALNETWORKS_NO_ERROR
را برمیگرداند. انتظار میتواند روی رشتهای متفاوت از رشتهای که اجرا را شروع میکند، انجام شود.// For our example, we have no other work to do and will just wait for the completion ANeuralNetworksEvent_wait(run1_end); ANeuralNetworksEvent_free(run1_end); ANeuralNetworksExecution_free(run1);
به صورت اختیاری، می توانید مجموعه متفاوتی از ورودی ها را با استفاده از همان نمونه کامپایل برای ایجاد یک نمونه
ANeuralNetworksExecution
جدید به مدل کامپایل شده اعمال کنید.// Apply the compiled model to a different set of inputs ANeuralNetworksExecution* run2; ANeuralNetworksExecution_create(compilation, &run2); ANeuralNetworksExecution_setInput(run2, ...); ANeuralNetworksExecution_setOutput(run2, ...); ANeuralNetworksEvent* run2_end = NULL; ANeuralNetworksExecution_startCompute(run2, &run2_end); ANeuralNetworksEvent_wait(run2_end); ANeuralNetworksEvent_free(run2_end); ANeuralNetworksExecution_free(run2);
اجرای همزمان
اجرای ناهمزمان برای ایجاد و همگام سازی نخ ها زمان صرف می کند. علاوه بر این، تأخیر میتواند بسیار متغیر باشد، با طولانیترین تأخیر تا ۵۰۰ میکروثانیه بین زمان اطلاعرسانی یا بیدار شدن یک رشته و زمانی که در نهایت به هسته CPU متصل میشود.
برای بهبود تأخیر، میتوانید در عوض یک برنامه را برای برقراری تماس استنتاج همزمان به زمان اجرا هدایت کنید. این تماس تنها زمانی که یک استنتاج تکمیل شده باشد، به جای اینکه پس از شروع استنتاج برگردد، برمی گردد. به جای فراخوانی ANeuralNetworksExecution_startCompute
برای یک تماس استنتاج ناهمزمان با زمان اجرا، برنامه ANeuralNetworksExecution_compute
را برای برقراری تماس همزمان با زمان اجرا فراخوانی می کند. تماس با ANeuralNetworksExecution_compute
یک ANeuralNetworksEvent
نمی گیرد و با تماس با ANeuralNetworksEvent_wait
جفت نمی شود.
اعدام های انفجاری
در دستگاههای اندرویدی دارای Android 10 (سطح API 29) و بالاتر، NNAPI از اجرای انفجاری از طریق شی ANeuralNetworksBurst
پشتیبانی میکند. اجراهای پشت سر هم دنباله ای از اجراهای یکسان هستند که به صورت متوالی اتفاق می افتند، مانند مواردی که بر روی فریم های ضبط دوربین یا نمونه های صوتی متوالی عمل می کنند. استفاده از اشیاء ANeuralNetworksBurst
ممکن است منجر به اجرای سریعتر شود، زیرا به شتابدهندهها نشان میدهد که ممکن است منابع بین اجراها مجدداً استفاده شوند و شتابدهندهها باید در طول مدت انفجار در حالت عملکرد بالا باقی بمانند.
ANeuralNetworksBurst
تنها یک تغییر کوچک در مسیر اجرای عادی معرفی می کند. همانطور که در قطعه کد زیر نشان داده شده است، با استفاده از ANeuralNetworksBurst_create
یک شی burst ایجاد می کنید:
// Create burst object to be reused across a sequence of executions ANeuralNetworksBurst* burst = NULL; ANeuralNetworksBurst_create(compilation, &burst);
اجرای انفجاری همزمان هستند. با این حال، به جای استفاده از ANeuralNetworksExecution_compute
برای انجام هر استنتاج، اشیاء مختلف ANeuralNetworksExecution
را با همان ANeuralNetworksBurst
در فراخوانی تابع ANeuralNetworksExecution_burstCompute
جفت میکنید.
// Create and configure first execution object // ... // Execute using the burst object ANeuralNetworksExecution_burstCompute(execution1, burst); // Use results of first execution and free the execution object // ... // Create and configure second execution object // ... // Execute using the same burst object ANeuralNetworksExecution_burstCompute(execution2, burst); // Use results of second execution and free the execution object // ...
شی ANeuralNetworksBurst
را با ANeuralNetworksBurst_free
زمانی که دیگر مورد نیاز نیست آزاد کنید.
// Cleanup ANeuralNetworksBurst_free(burst);
صف های فرمان ناهمزمان و اجرای حصاردار
در اندروید 11 و بالاتر، NNAPI از روش دیگری برای زمانبندی اجرای ناهمزمان از طریق متد ANeuralNetworksExecution_startComputeWithDependencies()
پشتیبانی میکند. هنگامی که از این روش استفاده می کنید، اجرا منتظر می ماند تا همه رویدادهای وابسته قبل از شروع ارزیابی سیگنال داده شوند. هنگامی که اجرا به پایان رسید و خروجی ها آماده مصرف شدند، رویداد برگشتی سیگنال داده می شود.
بسته به اینکه کدام دستگاه ها اجرا را انجام می دهند، ممکن است رویداد توسط یک حصار همگام سازی پشتیبانی شود. شما باید ANeuralNetworksEvent_wait()
را فراخوانی کنید تا منتظر رویداد بمانید و منابعی را که اجرا استفاده کرده است بازیابی کنید. میتوانید با استفاده از ANeuralNetworksEvent_createFromSyncFenceFd()
حصارهای همگامسازی را به یک شی رویداد وارد کنید، و میتوانید با استفاده از ANeuralNetworksEvent_getSyncFenceFd()
حصارهای همگامسازی را از یک شی رویداد صادر کنید.
خروجی هایی با اندازه دینامیک
برای پشتیبانی از مدل هایی که اندازه خروجی به داده های ورودی بستگی دارد - یعنی در جایی که اندازه آن در زمان اجرای مدل قابل تعیین نیست - از ANeuralNetworksExecution_getOutputOperandRank
و ANeuralNetworksExecution_getOutputOperandDimensions
استفاده کنید.
نمونه کد زیر نحوه انجام این کار را نشان می دهد:
// Get the rank of the output uint32_t myOutputRank = 0; ANeuralNetworksExecution_getOutputOperandRank(run1, 0, &myOutputRank); // Get the dimensions of the output std::vector<uint32_t> myOutputDimensions(myOutputRank); ANeuralNetworksExecution_getOutputOperandDimensions(run1, 0, myOutputDimensions.data());
پاکسازی
مرحله پاکسازی، آزادسازی منابع داخلی مورد استفاده برای محاسبات شما را انجام می دهد.
// Cleanup ANeuralNetworksCompilation_free(compilation); ANeuralNetworksModel_free(model); ANeuralNetworksMemory_free(mem1);
مدیریت خطا و بازگشت CPU
اگر در حین پارتیشن بندی خطایی رخ دهد، اگر یک درایور نتواند یک مدل (قطعه ای) را کامپایل کند، یا اگر یک درایور نتواند یک مدل کامپایل شده (قطعه a) را اجرا کند، NNAPI ممکن است به اجرای CPU خودش برگردد. یا عملیات بیشتر
اگر سرویس گیرنده NNAPI شامل نسخه های بهینه شده عملیات باشد (مثلاً TFLite)، ممکن است غیرفعال کردن بازگشت مجدد CPU و رسیدگی به خرابی ها با اجرای عملیات بهینه سازی شده توسط مشتری مفید باشد.
در Android 10، اگر کامپایل با استفاده از ANeuralNetworksCompilation_createForDevices
انجام شود، بازگشت مجدد CPU غیرفعال می شود.
در اندروید P، در صورتی که اجرای بر روی درایور با شکست مواجه شود، اجرای NNAPI به CPU برمی گردد. این در Android 10 نیز صادق است، زمانی که از ANeuralNetworksCompilation_create
به جای ANeuralNetworksCompilation_createForDevices
استفاده می شود.
اجرای اول برای آن پارتیشن منفرد برمی گردد، و اگر باز هم شکست خورد، کل مدل را روی CPU دوباره امتحان می کند.
اگر پارتیشن بندی یا کامپایل انجام نشد، کل مدل روی CPU امتحان می شود.
مواردی وجود دارد که برخی از عملیات ها در CPU پشتیبانی نمی شوند، و در چنین شرایطی، کامپایل یا اجرا به جای عقب افتادن با شکست مواجه می شود.
حتی پس از غیرفعال کردن بازگشت مجدد CPU، ممکن است هنوز عملیاتی در مدل وجود داشته باشد که بر روی CPU برنامه ریزی شده است. اگر CPU در لیست پردازندههای ارائهشده به ANeuralNetworksCompilation_createForDevices
باشد و یا تنها پردازندهای باشد که از این عملیات پشتیبانی میکند یا پردازندهای است که بهترین عملکرد را برای این عملیاتها دارد، بهعنوان مجری اصلی (غیر بازگشتی) انتخاب میشود.
برای اطمینان از عدم اجرای CPU، از ANeuralNetworksCompilation_createForDevices
استفاده کنید و در عین حال nnapi-reference
از لیست دستگاه ها حذف کنید. با شروع در اندروید P، میتوان در زمان اجرا در ساختهای DEBUG با تنظیم ویژگی debug.nn.partition
بر روی ۲ غیرفعال کرد.
دامنه های حافظه
در Android 11 و بالاتر، NNAPI از دامنههای حافظه پشتیبانی میکند که رابطهای اختصاصدهنده را برای حافظههای غیر شفاف فراهم میکنند. این به برنامهها اجازه میدهد تا حافظههای بومی دستگاه را در بین اجراها منتقل کنند، به طوری که NNAPI هنگام اجرای اجرای متوالی روی همان درایور، دادهها را کپی یا تبدیل غیرضروری نمیکند.
ویژگی دامنه حافظه برای تانسورهایی در نظر گرفته شده است که عمدتاً داخلی درایور هستند و نیازی به دسترسی مکرر به سمت کلاینت ندارند. نمونه هایی از این تانسورها عبارتند از تانسورهای حالت در مدل های دنباله ای. برای تانسورهایی که نیاز به دسترسی مکرر به CPU در سمت کلاینت دارند، به جای آن از استخرهای حافظه مشترک استفاده کنید.
برای تخصیص یک حافظه غیر شفاف، مراحل زیر را انجام دهید:
تابع
ANeuralNetworksMemoryDesc_create()
را برای ایجاد یک توصیفگر حافظه جدید فراخوانی کنید:// Create a memory descriptor ANeuralNetworksMemoryDesc* desc; ANeuralNetworksMemoryDesc_create(&desc);
تمام نقش های ورودی و خروجی مورد نظر را با فراخوانی
ANeuralNetworksMemoryDesc_addInputRole()
وANeuralNetworksMemoryDesc_addOutputRole()
مشخص کنید.// Specify that the memory may be used as the first input and the first output // of the compilation ANeuralNetworksMemoryDesc_addInputRole(desc, compilation, 0, 1.0f); ANeuralNetworksMemoryDesc_addOutputRole(desc, compilation, 0, 1.0f);
در صورت تمایل، ابعاد حافظه را با فراخوانی
ANeuralNetworksMemoryDesc_setDimensions()
مشخص کنید.// Specify the memory dimensions uint32_t dims[] = {3, 4}; ANeuralNetworksMemoryDesc_setDimensions(desc, 2, dims);
تعریف توصیفگر را با فراخوانی
ANeuralNetworksMemoryDesc_finish()
نهایی کنید.ANeuralNetworksMemoryDesc_finish(desc);
با ارسال توصیفگر به
ANeuralNetworksMemory_createFromDesc()
هر تعداد حافظه را که نیاز دارید اختصاص دهید.// Allocate two opaque memories with the descriptor ANeuralNetworksMemory* opaqueMem; ANeuralNetworksMemory_createFromDesc(desc, &opaqueMem);
وقتی دیگر به آن نیاز ندارید، توصیفگر حافظه را آزاد کنید.
ANeuralNetworksMemoryDesc_free(desc);
مشتری فقط میتواند از شی ANeuralNetworksMemory
ایجاد شده با ANeuralNetworksExecution_setInputFromMemory()
یا ANeuralNetworksExecution_setOutputFromMemory()
با توجه به نقشهای مشخص شده در شی ANeuralNetworksMemoryDesc
استفاده کند. آرگومان های offset و length باید روی 0 تنظیم شوند که نشان دهنده استفاده از کل حافظه است. مشتری همچنین میتواند محتویات حافظه را با استفاده از ANeuralNetworksMemory_copy()
به صراحت تنظیم یا استخراج کند.
می توانید خاطرات مبهم با نقش هایی با ابعاد یا رتبه نامشخص ایجاد کنید. در این صورت، در صورتی که توسط درایور اصلی پشتیبانی نشود، ممکن است ایجاد حافظه با وضعیت ANEURALNETWORKS_OP_FAILED
با شکست مواجه شود. مشتری تشویق می شود تا با اختصاص یک بافر به اندازه کافی بزرگ که توسط Ashmem یا AHardwareBuffer
حالت BLOB پشتیبانی می شود، منطق بازگشتی را پیاده سازی کند.
هنگامی که NNAPI دیگر نیازی به دسترسی به شی حافظه مات ندارد، نمونه ANeuralNetworksMemory
مربوطه را آزاد کنید:
ANeuralNetworksMemory_free(opaqueMem);
عملکرد را اندازه گیری کنید
میتوانید عملکرد برنامه خود را با اندازهگیری زمان اجرا یا با نمایهسازی ارزیابی کنید.
زمان اجرا
هنگامی که می خواهید کل زمان اجرا را از طریق زمان اجرا تعیین کنید، می توانید از API اجرای همزمان استفاده کنید و زمان صرف شده توسط تماس را اندازه گیری کنید. هنگامی که می خواهید کل زمان اجرا را از طریق یک سطح پایین تر از پشته نرم افزار تعیین کنید، می توانید از ANeuralNetworksExecution_setMeasureTiming
و ANeuralNetworksExecution_getDuration
استفاده کنید:
- زمان اجرا در یک شتاب دهنده (نه در درایور که روی پردازنده میزبان اجرا می شود).
- زمان اجرا در راننده، از جمله زمان روی پدال گاز.
زمان اجرا در درایور شامل سرباری مانند زمان اجرا و IPC مورد نیاز برای زمان اجرا برای برقراری ارتباط با درایور نمی شود.
این APIها به جای زمانی که یک راننده یا شتاب دهنده به انجام استنتاج اختصاص می دهد، مدت زمان بین کار ارسال شده و رویدادهای کار تکمیل شده را اندازه گیری می کند، که احتمالاً با تغییر زمینه قطع می شود.
به عنوان مثال، اگر استنتاج 1 شروع شود، سپس راننده کار را برای انجام استنتاج 2 متوقف کند، سپس آن را از سر گرفته و استنتاج 1 را تکمیل کند، زمان اجرای استنتاج 1 شامل زمانی است که کار برای انجام استنتاج 2 متوقف شده است.
این اطلاعات زمان ممکن است برای استقرار تولید یک برنامه کاربردی برای جمع آوری تله متری برای استفاده آفلاین مفید باشد. میتوانید از دادههای زمانبندی برای تغییر برنامه برای عملکرد بالاتر استفاده کنید.
هنگام استفاده از این قابلیت، موارد زیر را در نظر داشته باشید:
- جمع آوری اطلاعات زمان بندی ممکن است هزینه عملکردی داشته باشد.
- فقط یک راننده قادر است زمان صرف شده در خود یا روی شتاب دهنده را محاسبه کند، به استثنای زمان صرف شده در زمان اجرا NNAPI و IPC.
- شما میتوانید از این APIها فقط با
ANeuralNetworksExecution
استفاده کنید که باANeuralNetworksCompilation_createForDevices
باnumDevices = 1
ایجاد شده است. - هیچ راننده ای لازم نیست تا بتواند اطلاعات زمان بندی را گزارش کند.
برنامه خود را با Android Systrace نمایه کنید
با شروع Android 10، NNAPI بهطور خودکار رویدادهای systrace را تولید میکند که میتوانید از آنها برای نمایهسازی برنامهتان استفاده کنید.
منبع NNAPI با یک ابزار parse_systrace
برای پردازش وقایع systrace ایجاد شده توسط برنامه شما و ایجاد یک نمای جدول که زمان صرف شده در مراحل مختلف چرخه چرخه مدل (لحظه ای ، آماده سازی ، اجرای تدوین و خاتمه) و لایه های مختلف برنامه ها را نشان می دهد ، ارائه می شود. . لایه هایی که برنامه شما تقسیم شده است عبارتند از:
-
Application
: کد اصلی برنامه -
Runtime
: زمان اجرا NNAPI -
IPC
: ارتباط بین فرآیند بین زمان اجرا NNAPI و کد درایور -
Driver
: فرآیند درایور شتاب دهنده.
داده های Profiling Analysys را تولید کنید
با فرض اینکه درخت منبع AOSP را در $ android_build_top بررسی کرده اید و با استفاده از مثال طبقه بندی تصویر TFLITE به عنوان برنامه هدف ، می توانید داده های پروفایل NNAPI را با مراحل زیر تولید کنید:
- Android Systrace را با دستور زیر شروع کنید:
$ANDROID_BUILD_TOP/external/chromium-trace/systrace.py -o trace.html -a org.tensorflow.lite.examples.classification nnapi hal freq sched idle load binder_driver
پارامتر -o trace.html
نشان می دهد که اثری در trace.html
نوشته خواهد شد. هنگام پروفایل برنامه خود ، باید جایگزین org.tensorflow.lite.examples.classification
با نام فرآیند مشخص شده در برنامه خود باشید.
این یکی از کنسول های پوسته شما را مشغول نگه می دارد ، دستور را در پس زمینه اجرا نکنید زیرا در انتظار enter
دادن به تعاملی است.
- پس از شروع جمع کننده Systrace ، برنامه خود را شروع کرده و تست معیار خود را اجرا کنید.
در مورد ما می توانید اگر برنامه قبلاً نصب شده است ، برنامه طبقه بندی تصویر را از Android Studio یا مستقیماً از UI تلفن تست خود شروع کنید. برای تولید برخی از داده های NNAPI ، باید با انتخاب NNAPI به عنوان دستگاه هدف در گفتگوی پیکربندی برنامه ، برنامه را برای استفاده از NNAPI پیکربندی کنید.
پس از اتمام آزمون ، Systrace را با فشار دادن
enter
در ترمینال کنسول فعال از مرحله 1 خاتمه دهید.اجرای برنامه
systrace_parser
آمار تجمعی را تولید کنید:
$ANDROID_BUILD_TOP/frameworks/ml/nn/tools/systrace_parser/parse_systrace.py --total-times trace.html
پارسر پارامترهای زیر را می پذیرد: - --total-times
: کل زمان صرف شده در یک لایه را نشان می دهد از جمله زمان صرف شده در انتظار اجرای در تماس با یک لایه زیرین - --print-detail
: تمام رویدادهایی را که بوده است چاپ می کند جمع آوری شده از Systrace - --per-execution
: فقط به جای آمار برای همه مراحل ، اجرای و زیرمجموعه های آن (به عنوان زمان هرگونه اعدام) را چاپ می کند - --json
: خروجی را در قالب JSON تولید می کند
نمونه ای از خروجی در زیر نشان داده شده است:
===========================================================================================================================================
NNAPI timing summary (total time, ms wall-clock) Execution
----------------------------------------------------
Initialization Preparation Compilation I/O Compute Results Ex. total Termination Total
-------------- ----------- ----------- ----------- ------------ ----------- ----------- ----------- ----------
Application n/a 19.06 1789.25 n/a n/a 6.70 21.37 n/a 1831.17*
Runtime - 18.60 1787.48 2.93 11.37 0.12 14.42 1.32 1821.81
IPC 1.77 - 1781.36 0.02 8.86 - 8.88 - 1792.01
Driver 1.04 - 1779.21 n/a n/a n/a 7.70 - 1787.95
Total 1.77* 19.06* 1789.25* 2.93* 11.74* 6.70* 21.37* 1.32* 1831.17*
===========================================================================================================================================
* This total ignores missing (n/a) values and thus is not necessarily consistent with the rest of the numbers
اگر رویدادهای جمع آوری شده نمایانگر اثری کامل برنامه نباشند ، ممکن است تجزیه کننده شکست بخورد. به طور خاص ممکن است اگر وقایع Systrace ایجاد شود تا انتهای یک بخش در ردیابی و بدون یک رویداد شروع بخش مرتبط وجود داشته باشد ، شکست بخورد. این امر معمولاً در صورتی اتفاق می افتد که برخی از رویدادها از یک جلسه پروفایل قبلی هنگام شروع جمع کننده Systrace ایجاد می شوند. در این حالت باید مجدداً پروفایل خود را اجرا کنید.
آماری را برای کد برنامه خود به خروجی systrace_parser اضافه کنید
برنامه parse_systrace مبتنی بر قابلیت داخلی Android Systrace است. با استفاده از API Systrace ( برای جاوا ، برای برنامه های بومی ) می توانید اثری را برای عملیات خاص در برنامه خود اضافه کنید.
برای مرتبط کردن رویدادهای سفارشی خود با فازهای چرخه عمر برنامه ، نام رویداد خود را با یکی از رشته های زیر آماده کنید:
-
[NN_LA_PI]
: رویداد سطح برنامه برای اولیه سازی -
[NN_LA_PP]
: رویداد سطح برنامه برای آماده سازی -
[NN_LA_PC]
: رویداد سطح برنامه برای تدوین -
[NN_LA_PE]
: رویداد سطح برنامه برای اجرای
در اینجا نمونه ای از چگونگی تغییر کد مثال طبقه بندی تصویر tflite با اضافه کردن یک بخش runInferenceModel
برای مرحله Execution
و لایه Application
حاوی بخش های دیگر preprocessBitmap
که در آثار NNAPI در نظر گرفته نمی شود ، آورده شده است. بخش runInferenceModel
بخشی از رویدادهای Systrace است که توسط تجزیه کننده NNAPI Systrace پردازش می شود:
کاتلین
/** Runs inference and returns the classification results. */ fun recognizeImage(bitmap: Bitmap): List{ // This section won’t appear in the NNAPI systrace analysis Trace.beginSection("preprocessBitmap") convertBitmapToByteBuffer(bitmap) Trace.endSection() // Run the inference call. // Add this method in to NNAPI systrace analysis. Trace.beginSection("[NN_LA_PE]runInferenceModel") long startTime = SystemClock.uptimeMillis() runInference() long endTime = SystemClock.uptimeMillis() Trace.endSection() ... return recognitions }
جاوا
/** Runs inference and returns the classification results. */ public ListrecognizeImage(final Bitmap bitmap) { // This section won’t appear in the NNAPI systrace analysis Trace.beginSection("preprocessBitmap"); convertBitmapToByteBuffer(bitmap); Trace.endSection(); // Run the inference call. // Add this method in to NNAPI systrace analysis. Trace.beginSection("[NN_LA_PE]runInferenceModel"); long startTime = SystemClock.uptimeMillis(); runInference(); long endTime = SystemClock.uptimeMillis(); Trace.endSection(); ... Trace.endSection(); return recognitions; }
کیفیت خدمات
در Android 11 و بالاتر ، NNAPI با اجازه دادن به یک برنامه کاربردی می تواند اولویت های نسبی مدل های خود ، حداکثر زمان انتظار برای تهیه یک مدل معین را نشان دهد ، و حداکثر مدت زمان انتظار برای تکمیل محاسبه با توجه Android 11 همچنین کدهای نتیجه NNAPI اضافی را معرفی می کند که برنامه ها را قادر می سازد تا خرابی هایی مانند مهلت اجرای از دست رفته را درک کنند.
اولویت بار کاری را تعیین کنید
برای تعیین اولویت بار کاری NNAPI ، قبل از تماس با ANeuralNetworksCompilation_setPriority()
ANeuralNetworksCompilation_finish()
تماس بگیرید.
مهلت ها
برنامه ها می توانند مهلت هایی را برای تدوین مدل و استنتاج تعیین کنند.
- برای تنظیم زمان بندی تدوین ، قبل از تماس با
ANeuralNetworksCompilation_finish()
ANeuralNetworksCompilation_setTimeout()
بگیرید. - برای تنظیم زمان استنتاج ، قبل از شروع تدوین ، با
ANeuralNetworksExecution_setTimeout()
تماس بگیرید.
اطلاعات بیشتر در مورد اپراند
در بخش زیر موضوعات پیشرفته در مورد استفاده از اپراند وجود دارد.
تنشور کمکی
تانسور کمکی یک روش جمع و جور برای نشان دادن یک آرایه N بعدی از مقادیر نقطه شناور است.
NNAPI از تانسرهای کمکی نامتقارن 8 بیتی پشتیبانی می کند. برای این تانسرها ، مقدار هر سلول توسط یک عدد صحیح 8 بیتی نشان داده شده است. همراه با تانسور یک مقیاس و یک مقدار نقطه صفر است. اینها برای تبدیل عدد صحیح 8 بیتی به مقادیر نقطه شناور که در حال نمایش هستند استفاده می شود.
فرمول این است:
(cellValue - zeroPoint) * scale
در جایی که مقدار Zeropoint یک عدد صحیح 32 بیتی و مقیاس یک نقطه شناور 32 بیتی است.
در مقایسه با تانسور از مقادیر نقطه شناور 32 بیتی ، تنسورهای کمیت 8 بیتی دارای دو مزیت هستند:
- برنامه شما کوچکتر است ، زیرا وزن های آموزش دیده یک چهارم از اندازه تانسور 32 بیتی را می گیرند.
- محاسبات اغلب می توانند سریعتر اجرا شوند. این به دلیل کمتری از داده هایی است که باید از حافظه و کارآیی پردازنده هایی مانند DSP در انجام ریاضی عدد صحیح بدست آورند.
در حالی که امکان تبدیل یک مدل نقطه شناور به یک مدل کمیت امکان پذیر است ، تجربه ما نشان داده است که با آموزش یک مدل کمکی به طور مستقیم نتایج بهتری حاصل می شود. در واقع ، شبکه عصبی یاد می گیرد که افزایش دانه بندی هر مقدار را جبران کند. برای هر تانسور کمکی ، مقادیر مقیاس و Zeropoint در طی فرآیند آموزش تعیین می شود.
در NNAPI ، شما با تنظیم نوع قسمت نوع ساختار داده ANeuralNetworksOperandType
به ANEURALNETWORKS_TENSOR_QUANT8_ASYMM
، انواع تانسور کمیت را تعریف می کنید. شما همچنین مقیاس و مقدار ZerOpoint تانسور را در آن ساختار داده مشخص می کنید.
علاوه بر تانسرهای کمکی نامتقارن 8 بیتی ، NNAPI از موارد زیر پشتیبانی می کند:
-
ANEURALNETWORKS_TENSOR_QUANT8_SYMM_PER_CHANNEL
که می توانید برای نشان دادن وزنه ها به عملیاتCONV/DEPTHWISE_CONV/TRANSPOSED_CONV
استفاده کنید. -
ANEURALNETWORKS_TENSOR_QUANT16_ASYMM
که می توانید برای وضعیت داخلیQUANTIZED_16BIT_LSTM
استفاده کنید. -
ANEURALNETWORKS_TENSOR_QUANT8_SYMM
که می تواند ورودی بهANEURALNETWORKS_DEQUANTIZE
باشد.
عملیات اختیاری
چند عمل ، مانند ANEURALNETWORKS_LSH_PROJECTION
، عملیات های اختیاری را انجام دهید. برای نشان دادن این مدل که عملگر اختیاری حذف شده است ، با عملکرد ANeuralNetworksModel_setOperandValue()
تماس بگیرید ، عبور NULL
برای بافر و 0 برای طول.
اگر تصمیم در مورد حضور یا عدم وجود این عمل برای هر اجرا متفاوت است ، شما نشان می دهید که عمل با استفاده از ANeuralNetworksExecution_setInput()
یا ANeuralNetworksExecution_setOutput()
حذف می شود ، عبور NULL
برای بافر و 0 برای طول.
تانسور از رتبه ناشناخته
Android 9 (سطح API 28) اپراند مدل از ابعاد ناشناخته اما رتبه شناخته شده (تعداد ابعاد) را معرفی کرد. Android 10 (API سطح 29) تانسرهای دارای رتبه ناشناخته را معرفی کرد ، همانطور که در AneuralNetworkSoperAndType نشان داده شده است.
معیار NNAPI
معیار NNAPI در AOSP در platform/test/mlts/benchmark
(برنامه معیار) و platform/test/mlts/models
(مدل ها و مجموعه داده ها) در دسترس است.
این معیار تأخیر و دقت را ارزیابی می کند و درایورها را با همان کارهایی که با استفاده از TensorFlow Lite در حال اجرا بر روی CPU انجام می شود ، برای همان مدل ها و مجموعه داده ها مقایسه می کند.
برای استفاده از معیار ، موارد زیر را انجام دهید:
یک دستگاه Android Target را به رایانه خود وصل کنید ، یک پنجره ترمینال را باز کنید و مطمئن شوید که دستگاه از طریق ADB قابل دسترسی است.
اگر بیش از یک دستگاه Android متصل است ، متغیر محیط
ANDROID_SERIAL
دستگاه هدف را صادر کنید.به فهرست منبع سطح بالا Android بروید.
دستورات زیر را اجرا کنید:
lunch aosp_arm-userdebug # Or aosp_arm64-userdebug if available ./test/mlts/benchmark/build_and_run_benchmark.sh
در پایان یک معیار ، نتایج آن به عنوان یک صفحه HTML که به
xdg-open
منتقل می شود ارائه می شود.
سیاهههای مربوط به NNAPI
NNAPI اطلاعات تشخیصی مفیدی را در سیاهههای مربوط به سیستم ایجاد می کند. برای تجزیه و تحلیل سیاههها ، از ابزار LogCat استفاده کنید.
با تنظیم ویژگی debug.nn.vlog
(با استفاده از adb shell
) در لیست زیر از مقادیر ، جدا شده توسط فضا ، روده بزرگ یا کاما ، ورود به سیستم nnapi برای مراحل یا مؤلفه های خاص را فعال کنید:
-
model
: ساختمان مدل -
compilation
: تولید برنامه اجرای مدل و گردآوری -
execution
: اجرای مدل -
cpuexe
: اجرای عملیات با استفاده از اجرای CPU NNAPI -
manager
: برنامه های افزودنی NNAPI ، رابط های موجود و اطلاعات مربوط به قابلیت ها -
all
یا1
: تمام عناصر فوق
به عنوان مثال ، برای فعال کردن ورود به سیستم کامل Verbose ، از دستور adb shell setprop debug.nn.vlog all
استفاده کنید. برای غیرفعال کردن ورود به سیستم Verbose ، از دستور adb shell setprop debug.nn.vlog '""'
استفاده کنید.
پس از فعال شدن ، ورود به سیستم Verbose ورودی های ورود به سیستم را در سطح اطلاعات با یک برچسب تنظیم شده روی نام فاز یا مؤلفه ایجاد می کند.
در کنار پیام های کنترل شده debug.nn.vlog
، اجزای API NNAPI ورودی های دیگر را در سطوح مختلف ارائه می دهند که هر یک از آنها با استفاده از یک برچسب ورود به سیستم خاص استفاده می کنند.
برای به دست آوردن لیستی از مؤلفه ها ، با استفاده از عبارت زیر ، درخت منبع را جستجو کنید:
grep -R 'define LOG_TAG' | awk -F '"' '{print $2}' | sort -u | egrep -v "Sample|FileTag|test"
این عبارت در حال حاضر برچسب های زیر را برمی گرداند:
- بیدر
- تماس های تلفنی
- گرداننده
- CPUEXTORTOR
- اعدام کننده
- اعدام کننده
- اعدام
- برنامه اعدام
- فیبوناکسیور
- گرافیک
- indexedshapewrapper
- یون Watcher
- مدیر
- حافظه
- حافظه
- متامودل
- مدلی
- مدل ساز
- کارگاههای عصبی
- عملگر
- عملیات
- عملیات
- بسته بندی
- توکننده
- خفه کننده
- Utils
- معتبر
- نسخه های نسخه
برای کنترل سطح پیام های ورود به سیستم توسط logcat
، از متغیر محیط ANDROID_LOG_TAGS
استفاده کنید.
برای نشان دادن مجموعه کامل پیام های ورود به سیستم NNAPI و غیرفعال کردن سایر موارد ، ANDROID_LOG_TAGS
را به موارد زیر تنظیم کنید:
BurstBuilder:V Callbacks:V CompilationBuilder:V CpuExecutor:V ExecutionBuilder:V ExecutionBurstController:V ExecutionBurstServer:V ExecutionPlan:V FibonacciDriver:V GraphDump:V IndexedShapeWrapper:V IonWatcher:V Manager:V MemoryUtils:V Memory:V MetaModel:V ModelArgumentInfo:V ModelBuilder:V NeuralNetworks:V OperationResolver:V OperationsUtils:V Operations:V PackageInfo:V TokenHasher:V TypeManager:V Utils:V ValidateHal:V VersionedInterfaces:V *:S.
می توانید ANDROID_LOG_TAGS
با استفاده از دستور زیر تنظیم کنید:
export ANDROID_LOG_TAGS=$(grep -R 'define LOG_TAG' | awk -F '"' '{ print $2 ":V" }' | sort -u | egrep -v "Sample|FileTag|test" | xargs echo -n; echo ' *:S')
توجه داشته باشید که این فقط یک فیلتر است که مربوط به logcat
است. برای تولید اطلاعات ورود به سیستم Verbose ، هنوز هم باید debug.nn.vlog
را روی all
تنظیم کنید.