Notícias sobre produtos

Como a otimização automática de comandos libera ganhos de qualidade para a API Prompt da GenAI do Kit de ML

Leitura de 3 minutos

Otimização automática de comandos (APO)

Para ajudar ainda mais a levar seus casos de uso da API Prompt do Kit de ML à produção, temos o prazer de anunciar a otimização automática de comandos (APO, na sigla em inglês) para modelos no dispositivo na Vertex AI. A otimização automática de comandos é uma ferramenta que ajuda você a encontrar automaticamente o comando ideal para seus casos de uso.

A era da IA no dispositivo não é mais uma promessa, mas uma realidade de produção. Com o lançamento do Gemini Nano v3, estamos colocando recursos multimodais e de compreensão de linguagem sem precedentes diretamente nas mãos dos usuários. Com a família de modelos Gemini Nano, temos uma ampla cobertura de dispositivos compatíveis em todo o ecossistema Android. Mas, para os desenvolvedores que criam a próxima geração de apps inteligentes, o acesso a um modelo avançado é apenas a primeira etapa. O verdadeiro desafio está na personalização: como adaptar um modelo de base para um desempenho de nível especializado para seu caso de uso específico sem violar as restrições do hardware móvel?

No mundo do lado do servidor, os LLMs maiores tendem a ser altamente capazes e exigem menos adaptação de domínio. Mesmo quando necessário, opções mais avançadas, como o ajuste fino LoRA (adaptação de classificação baixa), podem ser viáveis. No entanto, a arquitetura exclusiva do Android AICore prioriza um modelo de sistema compartilhado e com eficiência de memória. Isso significa que a implantação de adaptadores LoRA personalizados para cada app individual apresenta desafios nesses serviços de sistema compartilhados.

Mas há um caminho alternativo que pode ser igualmente impactante. Ao aproveitar a otimização automática de comandos (APO) na Vertex AI, os desenvolvedores podem alcançar uma qualidade próxima ao ajuste fino, tudo isso trabalhando perfeitamente no ambiente de execução nativo do Android. Ao se concentrar em instruções de sistema superiores, a APO permite que os desenvolvedores personalizem o comportamento do modelo com maior robustez e escalonabilidade do que as soluções tradicionais de ajuste fino.

Observação: o Gemini Nano V3 é uma versão com qualidade otimizada do modelo Gemma 3N, muito aclamado. Todas as otimizações de comandos feitas no modelo de código aberto Gemma 3N também serão aplicadas ao Gemini Nano V3. Em dispositivos compatíveis, as APIs GenAI do Kit de ML aproveitam o modelo nano-v3 para maximizar a qualidade para desenvolvedores Android.

APO block diagram.jpg

A APO trata o comando não como um texto estático, mas como uma superfície programável que pode ser otimizada. Ela aproveita modelos do lado do servidor (como o Gemini Pro e o Flash) para propor comandos, avaliar variações e encontrar o ideal para sua tarefa específica. Esse processo emprega três mecanismos técnicos específicos para maximizar a performance:

  1. Análise de erros automatizada:a APO analisa padrões de erros de dados de treinamento para identificar automaticamente pontos fracos específicos no comando inicial.
  2. Destilação de instruções semânticas:ela analisa exemplos de treinamento massivos para destilar a "intenção real" de uma tarefa, criando instruções que refletem com mais precisão a distribuição de dados reais.
  3. Teste de candidatos paralelos:em vez de testar uma ideia por vez, a APO gera e testa vários candidatos de comandos em paralelo para identificar o máximo global de qualidade.

Por que a APO pode se aproximar da qualidade de ajuste fino

É um equívoco comum que o ajuste fino sempre produz uma qualidade melhor do que o comando. Para modelos de base modernos, como o Gemini Nano v3, a engenharia de comandos pode ser impactante por si só:

  • Preservação de recursos gerais:o ajuste fino ( PEFT/LoRA) força os pesos de um modelo a indexar demais em uma distribuição específica de dados. Isso geralmente leva ao "esquecimento catastrófico", em que o modelo melhora na sintaxe específica, mas piora na lógica geral e na segurança. A APO deixa os pesos intactos, preservando os recursos do modelo de base.
  • Seguimento de instruções e descoberta de estratégias:o Gemini Nano v3 foi rigorosamente treinado para seguir instruções complexas do sistema. A APO aproveita isso encontrando a estrutura de instrução exata que libera os recursos latentes do modelo, muitas vezes descobrindo estratégias que podem ser difíceis de encontrar para engenheiros humanos. 

Para validar essa abordagem, avaliamos a APO em diversas cargas de trabalho de produção. Nossa validação mostrou ganhos de acurácia consistentes de 5 a 8% em vários casos de uso.Em vários recursos implantados no dispositivo, a APO proporcionou melhorias significativas de qualidade.

Caso de usoTipo de tarefaDescrição da tarefaMétricaMelhoria da APO
Classificação de tópicosClassificação de textoClassificar um artigo de notícias em tópicos como finanças, esportes etc.Precisão+5%
Classificação de intençãoClassificação de textoClassificar uma consulta de atendimento ao cliente em intençõesPrecisão+8,0%
Tradução de páginas da WebTradução de textosTraduzir uma página da Web do inglês para um idioma localBLEU+8,57%

Um fluxo de trabalho de desenvolvedor contínuo e completo

É um equívoco comum que o ajuste fino sempre produz uma qualidade melhor do que o comando. Para modelos de base modernos, como o Gemini Nano v3, a engenharia de comandos pode ser impactante por si só:

  • Preservação de recursos gerais:o ajuste fino ( PEFT/LoRA) força os pesos de um modelo a indexar demais em uma distribuição específica de dados. Isso geralmente leva ao "esquecimento catastrófico", em que o modelo melhora na sintaxe específica, mas piora na lógica geral e na segurança. A APO deixa os pesos intactos, preservando os recursos do modelo de base.
  • Seguimento de instruções e descoberta de estratégias:o Gemini Nano v3 foi rigorosamente treinado para seguir instruções complexas do sistema. A APO aproveita isso encontrando a estrutura de instrução exata que libera os recursos latentes do modelo, muitas vezes descobrindo estratégias que podem ser difíceis de encontrar para engenheiros humanos. 

Para validar essa abordagem, avaliamos a APO em diversas cargas de trabalho de produção. Nossa validação mostrou ganhos de acurácia consistentes de 5 a 8% em vários casos de uso.Em vários recursos implantados no dispositivo, a APO proporcionou melhorias significativas de qualidade.

Conclusão

O lançamento da otimização automática de comandos (APO) marca um ponto de inflexão para a IA generativa no dispositivo. Ao preencher a lacuna entre modelos de base e desempenho de nível especializado, estamos oferecendo aos desenvolvedores as ferramentas para criar aplicativos móveis mais robustos. Se você está começando com a otimização zero-shot ou escalonando para produção com o refinamento orientado por dados, o caminho para a inteligência de alta qualidade no dispositivo agora está mais claro. Inicie seus casos de uso no dispositivo para produção hoje mesmo com a API Prompt do Kit de ML e a otimização automática de comandos da Vertex AI. 

Links relevantes: 

Escrito por:

Continuar lendo