Les applications mobiles modernes reposent fortement sur les contenus multimédias générés par les utilisateurs pour favoriser l'engagement et la fidélisation. La qualité des contenus varie naturellement en raison du large éventail de capacités des appareils, des conditions d'éclairage et de l'expérience utilisateur. Pour les applications qui gèrent de grands volumes de photos et de vidéos provenant de diverses sources, il est possible d'améliorer la qualité de base de ces contenus générés par les utilisateurs. Pour maintenir une qualité optimale, il est nécessaire de trouver un équilibre entre la compression requise pour les opérations telles que la modification, l'importation et le téléchargement, tout en conservant suffisamment de détails pour une consommation haute fidélité.
Présentation de l'API Media Enhancement
L'API Media Enhancement des services Google Play fournit une solution d'IA complète sur l'appareil pour combler cette lacune. Elle utilise l'accélération du processeur graphique (GPU) sur l'appareil pour améliorer la qualité et réduire la latence des images et des vidéos. Elle apporte ces améliorations grâce à des fonctionnalités telles que le mappage automatique des tons, le défloutage, la réduction du bruit et l'upscaling.
Fournie de manière native via les services Google Play, cette API décharge les tâches de restauration d'images et de vidéos nécessitant beaucoup de calculs directement sur le GPU natif et l'unité de traitement neuronal (NPU) de l'appareil hôte. L'API fournit un pipeline à faible latence et préservant la confidentialité, sans gonflement d'APK, en téléchargeant les modèles à la demande uniquement lorsque cela est nécessaire pour respecter l'espace disque de l'appareil.
Fonctionnalités et cas d'utilisation de base
Le framework cible des points de défaillance multimédias spécifiques grâce à trois fonctionnalités de machine learning de base, que vous pouvez configurer indépendamment ou simultanément :
| Capacité | Fonctionnalité algorithmique | Cas d'utilisation optimal de l'application |
|---|---|---|
| Mappage des tons | Algorithme de mappage des tons local SDR-SDR qui améliore les images à plage dynamique standard (SDR) pour imiter les qualités de type HDR (comme un contraste local amélioré et des ombres éclaircies), tout en restant dans la plage SDR affichable. Cet algorithme en temps réel et économe en énergie est optimisé pour les performances mobiles. | Récupération de photos de paysages plats et nuageux ou de portraits d'intérieur fortement rétroéclairés. |
| Défloutage | Reconstruit les bords nets en estimant le noyau de flou mathématique causé par le mouvement du sujet ou le tremblement de l'appareil photo. Applique un filtrage spatial pour lisser le grain chromatique et agit comme un filtre de déblocage pour atténuer les artefacts de compression près des bords nets. | Récupération de photos floues ou tremblantes, amélioration des images granuleuses en basse lumière et suppression des artefacts en blocs des images JPEG et des flux vidéo compressés. |
| Haut de gamme | Utilise un modèle génératif de super-résolution pour multiplier le nombre de pixels et reconstruire les détails haute fréquence manquants. | Mise à l'échelle de petites miniatures ou de fichiers vidéo en définition standard pour un affichage en plein écran. |
Configuration matérielle requise
L'exécution d'inférences sur l'appareil avec des modèles de machine learning ou de deep learning prend du temps, et les performances dépendent en grande partie des accélérateurs matériels utilisés par l'appareil. L'API Media Enhancement est optimisée pour les appareils haut de gamme équipés de Tensor Cores dédiés et d'une mémoire à bande passante élevée (par exemple, le Pixel 10 Pro ou le Samsung Galaxy S26 Ultra).
Si le matériel d'un appareil ne répond pas aux seuils de performances minimales, le processus d'initialisation s'arrête et signale un état non compatible pour éviter les pertes d'images ou la limitation thermique.