Novedades sobre productos
Mejoramos el desarrollo de Android asistido por IA y los LLM con Android Bench
Lectura de 2 min
Queremos que te resulte más rápido y fácil compilar apps para Android de alta calidad, y una forma en la que te ayudamos a ser más productivo es poniendo la IA a tu alcance. Sabemos que quieres una IA que comprenda realmente los matices de la plataforma de Android, por lo que hemos estado midiendo el rendimiento de los LLM en las tareas de desarrollo de Android. Hoy lanzamos la primera versión de Android Bench, nuestra tabla de clasificación oficial de LLMs para el desarrollo en Android.
Nuestro objetivo es proporcionar a los creadores de modelos una comparativa para evaluar las capacidades de los LLM para el desarrollo de Android. Al establecer un punto de referencia claro y confiable sobre cómo se ve el desarrollo de Android de alta calidad, ayudamos a los creadores de modelos a identificar brechas y acelerar las mejoras, lo que permite a los desarrolladores trabajar de manera más eficiente con una gama más amplia de modelos útiles para elegir la asistencia de IA, lo que, en última instancia, conducirá a apps de mayor calidad en todo el ecosistema de Android.
Diseñado con tareas de desarrollo para Android del mundo real
Para crear el benchmark, seleccionamos un conjunto de tareas en función de una variedad de áreas comunes de desarrollo de Android. Se compone de desafíos reales de dificultad variable, obtenidos de repositorios públicos de GitHub para Android. Entre los casos de uso, se incluyen la resolución de cambios disruptivos en las versiones de Android, las tareas específicas del dominio, como las redes en dispositivos wearables, y la migración a la versión más reciente de Jetpack Compose, por nombrar algunos.
En cada evaluación, se intenta que un LLM corrija el problema informado en la tarea, que luego verificamos con pruebas de unidades o de instrumentación. Este enfoque independiente del modelo nos permite medir la capacidad de un modelo para navegar por bases de código complejas, comprender las dependencias y resolver el tipo de problemas que encuentras todos los días.
Validamos esta metodología con varios creadores de LLM, incluido JetBrains.
"Medir el impacto de la IA en Android es un desafío enorme, por lo que es genial ver un marco de trabajo tan sólido y realista. Si bien realizamos comparativas de rendimiento de forma activa, Android Bench es una incorporación única y bienvenida. Esta metodología es exactamente el tipo de evaluación rigurosa que los desarrolladores de Android necesitan en este momento".
, Kirill Smelov, jefe de Integraciones de IA en JetBrains.
Los primeros resultados de Android Bench
En esta versión inicial, queríamos medir puramente el rendimiento del modelo y no enfocarnos en el uso de herramientas o agentes. Los modelos pudieron completar correctamente entre el 16% y el 72% de las tareas. Este es un rango amplio que demuestra que algunos LLMs ya tienen un modelo de referencia sólido para el conocimiento de Android, mientras que otros tienen más margen de mejora. Independientemente del estado actual de los modelos, prevemos una mejora continua a medida que alentamos a los creadores de LLMs a mejorar sus modelos para el desarrollo de Android.
El LLM con la puntuación promedio más alta para este primer lanzamiento es Gemini 3.1 Pro, seguido de cerca por Claude Opus 4.6. Puedes probar todos los modelos que evaluamos para la asistencia de IA en tus proyectos de Android con claves de API en la versión estable más reciente de Android Studio.
Proporcionamos transparencia a los desarrolladores y creadores de LLM
Valoramos un enfoque abierto y transparente, por lo que hicimos que nuestra metodología, nuestro conjunto de datos y nuestro arnés de prueba estén disponibles públicamente en GitHub.
Un desafío para cualquier comparativa pública es el riesgo de contaminación de datos, en el que los modelos pueden haber visto tareas de evaluación durante su proceso de entrenamiento. Tomamos medidas para garantizar que nuestros resultados reflejen un razonamiento genuino en lugar de memorización o conjeturas, lo que incluye una revisión manual exhaustiva de las trayectorias del agente o la integración de una cadena canary para desalentar el entrenamiento.
En el futuro, seguiremos mejorando nuestra metodología para preservar la integridad del conjunto de datos y, al mismo tiempo, realizaremos mejoras para las versiones futuras de la comparativa, por ejemplo, aumentando la cantidad y la complejidad de las tareas.
Esperamos ver cómo Android Bench puede mejorar la asistencia de la IA a largo plazo. Nuestra visión es cerrar la brecha entre el concepto y el código de calidad. Estamos sentando las bases para un futuro en el que, sin importar lo que imagines, puedas crearlo en Android.
Seguir leyendo
-
Novedades sobre productos
Hoy, durante The Android Show, se anunció que Android está pasando de ser un sistema operativo a un sistema inteligente, lo que crea más oportunidades de participación con tus apps.
Matthew McCullough • Lectura de 4 min
-
Novedades sobre productos
Hoy, mejoramos el desarrollo de Android con Gemma 4, nuestro modelo abierto de vanguardia más reciente, diseñado con capacidades complejas de razonamiento y de llamada a herramientas autónomas.
Matthew McCullough • Lectura de 2 min
-
Novedades sobre productos
Hoy, Android 17 alcanzó oficialmente la estabilidad de la plataforma con la versión beta 3. Esto significa que la superficie de la API está bloqueada, por lo que puedes realizar las pruebas finales de compatibilidad y enviar tus apps orientadas a Android 17 a Play Store.
Matthew McCullough • Lectura de 5 min
Mantente al día
Recibe la información más reciente sobre el desarrollo de Android en tu bandeja de entrada todas las semanas.