Notícias sobre produtos
Como melhorar o desenvolvimento no Android com assistência de IA e aprimorar os LLMs com o Android Bench
Leitura de 2 minutos
Queremos tornar mais rápido e fácil para você criar apps Android de alta qualidade. Uma das maneiras de ajudar você a ser mais produtivo é colocar a IA ao seu alcance. Sabemos que você quer uma IA que entenda de verdade as nuances da plataforma Android. Por isso, estamos medindo o desempenho dos LLMs em tarefas de desenvolvimento para Android. Hoje lançamos a primeira versão do Android Bench, nosso ranking oficial de LLMs para desenvolvimento no Android.
Nosso objetivo é oferecer aos criadores de modelos um comparativo de mercado para avaliar os recursos de LLM para desenvolvimento no Android. Ao estabelecer uma base clara e confiável para o desenvolvimento de alta qualidade no Android, ajudamos os criadores de modelos a identificar lacunas e acelerar melhorias. Isso permite que os desenvolvedores trabalhem com mais eficiência com uma variedade maior de modelos úteis para escolher a assistência de IA. No fim das contas, isso vai levar a apps de maior qualidade em todo o ecossistema Android.
Projetado com tarefas de desenvolvimento para Android do mundo real
Criamos o comparativo de mercado selecionando um conjunto de tarefas em várias áreas comuns de desenvolvimento do Android. Ele é composto de desafios reais de dificuldade variada, extraídos de repositórios públicos do GitHub Android. Os cenários incluem a resolução de mudanças incompatíveis em versões do Android, tarefas específicas do domínio, como rede em wearables, e a migração para a versão mais recente do Jetpack Compose, entre outros.
Cada avaliação tenta fazer com que um LLM corrija o problema informado na tarefa, que depois é verificado usando testes de unidade ou de instrumentação. Essa abordagem independente de modelo nos permite medir a capacidade de um modelo de navegar por bases de código complexas, entender dependências e resolver os tipos de problemas que você encontra todos os dias.
Validamos essa metodologia com vários criadores de LLMs, incluindo a JetBrains.
"Medir o impacto da IA no Android é um grande desafio. Por isso, é ótimo ver uma estrutura tão sólida e realista. Embora façamos comparativos de mercado, o Android Bench é uma adição única e bem-vinda. Essa metodologia é exatamente o tipo de avaliação rigorosa que os desenvolvedores Android precisam agora."
- Kirill Smelov, chefe de integrações de IA na JetBrains.
Os primeiros resultados do Android Bench
Nesta versão inicial, queríamos medir apenas a performance do modelo, sem focar no uso de agentes ou ferramentas. Os modelos conseguiram concluir de 16 a 72% das tarefas. Essa é uma ampla variedade que demonstra que alguns LLMs já têm uma base sólida de conhecimento do Android, enquanto outros têm mais espaço para melhorias. Independente do estágio atual dos modelos, esperamos melhorias contínuas à medida que incentivamos os criadores de LLMs a aprimorar os modelos para o desenvolvimento do Android.
O LLM com a maior pontuação média para esse primeiro lançamento é o Gemini 3.1 Pro, seguido de perto pelo Claude Opus 4.6. Você pode testar todos os modelos que avaliamos para assistência de IA nos seus projetos Android usando chaves de API na versão estável mais recente do Android Studio.
Oferecer transparência a desenvolvedores e criadores de LLMs
Valorizamos uma abordagem aberta e transparente. Por isso, disponibilizamos nossa metodologia, conjunto de dados e plataforma de teste publicamente no GitHub.
Um desafio para qualquer comparativo público é o risco de contaminação de dados, em que os modelos podem ter visto tarefas de avaliação durante o processo de treinamento. Tomamos medidas para garantir que nossos resultados reflitam um raciocínio genuíno, em vez de memorização ou adivinhação, incluindo uma análise manual completa das trajetórias dos agentes ou a integração de uma string canário para desencorajar o treinamento.
No futuro, vamos continuar evoluindo nossa metodologia para preservar a integridade do conjunto de dados e fazer melhorias para as próximas versões do comparativo, por exemplo, aumentando a quantidade e a complexidade das tarefas.
Estamos ansiosos para ver como o Android Bench pode melhorar a assistência de IA a longo prazo. Nossa visão é diminuir a distância entre o conceito e o código de qualidade. Estamos construindo a base para um futuro em que você poderá criar o que quiser no Android.
Continuar lendo
-
Notícias sobre produtos
Anunciado hoje durante o The Android Show, o Android está passando de um sistema operacional para um sistema de inteligência, criando mais oportunidades de interação com seus apps.
Matthew McCullough • Leitura de 4 minutos
-
Notícias sobre produtos
Hoje, estamos aprimorando o desenvolvimento para Android com o Gemma 4, nosso mais recente modelo aberto de última geração projetado com recursos complexos de raciocínio e chamada de ferramentas autônoma.
Matthew McCullough • Leitura de 2 minutos
-
Notícias sobre produtos
O Android 17 atingiu oficialmente a estabilidade da plataforma hoje com a Beta 3. Isso significa que a superfície da API está bloqueada. Você pode realizar testes de compatibilidade finais e enviar seus apps direcionados ao Android 17 para a Google Play Store.
Matthew McCullough • Leitura de 5 minutos
Fique por dentro
Receba os insights mais recentes sobre desenvolvimento Android na sua caixa de entrada semanalmente.