Inferência híbrida

O Google oferece uma ampla seleção de modelos e APIs de IA líderes do setor para inferência baseada na nuvem e no dispositivo. Com a inferência híbrida, é possível equilibrar as cargas de trabalho de IA entre o dispositivo local e a nuvem, otimizando o desempenho, o custo e a disponibilidade.

A inferência híbrida oferece duas vantagens principais para seu app Android:

  • Maximizar Alcance: os modelos de nuvem servem como um substituto essencial quando os modelos no dispositivo, como o Gemini Nano, não estão disponíveis devido a restrições de hardware ou SO do dispositivo. Isso ajuda a garantir que os recursos de IA permaneçam funcionais no maior número possível de dispositivos dos usuários.
  • Custo e recursos off-line: os modelos no dispositivo ajudam a garantir que os recursos de IA funcionem sem problemas quando o usuário está off-line. Além disso, ao descarregar tarefas rotineiras para o dispositivo local, é possível reduzir os custos de inferência na nuvem.
Diagrama mostrando a lógica da inferência no dispositivo em comparação com a inferência na nuvem.
Figura 1: os respectivos benefícios da inferência no dispositivo e na nuvem.

Opções de implementação

É possível implementar a inferência híbrida usando as seguintes abordagens:

API híbrida do Firebase AI Logic

A API híbrida do Firebase AI Logic oferece uma interface única e unificada para dividir a inferência entre ambientes de nuvem e no dispositivo.

Ele inclui um parâmetro onDeviceConfig que oferece controles simples para definir o modo de inferência e gerenciar o roteamento:

  • PREFER_ON_DEVICE: tenta usar o modelo no dispositivo, voltando automaticamente para o modelo hospedado na nuvem se o modelo no dispositivo não estiver disponível ou não for compatível com a solicitação.
  • PREFER_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, voltando ao modelo no dispositivo apenas se o dispositivo estiver off-line.
  • ONLY_ON_DEVICE: tenta usar o modelo no dispositivo, mas gera uma exceção se ele não estiver disponível ou não for compatível com a solicitação.
  • ONLY_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, gerando uma exceção em todos os outros casos.
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

Para detalhes da implementação, consulte a documentação do Firebase e confira o exemplo de IA híbrida no catálogo de IA.

Roteamento personalizado

Se o app tiver requisitos específicos de negócios ou UX, também será possível implementar uma lógica de roteamento personalizada. Isso permite determinar dinamicamente o caminho de inferência com base em fatores em tempo real, como:

  • Latência de rede
  • Integridade do sistema do dispositivo (por exemplo, níveis de bateria e carga do processador)
  • Complexidade da consulta do usuário

Essa abordagem de inferência híbrida personalizada é usada por apps líderes que implementaram o próprio roteamento personalizado para oferecer experiências de IA confiáveis, incluindo:

  • GBoard: o Gboard usa inferência híbrida personalizada para ativar os recursos de escrita, como revisão e reescrita.

  • Kakao Mobility: a Kakao Mobility criou uma ferramenta de extração de entidades usando inferência híbrida personalizada para o serviço de entrega de encomendas, que extrai automaticamente nomes de destinatários, endereços e números de telefone de mensagens em linguagem natural para simplificar formulários de pedidos.