Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inferência híbrida

O Google oferece uma ampla seleção de modelos e APIs de IA líderes do setor para inferência baseada na nuvem e no dispositivo. Com a inferência híbrida, é possível equilibrar as cargas de trabalho de IA entre o dispositivo local e a nuvem, otimizando o desempenho, o custo e a disponibilidade.

A inferência híbrida oferece duas vantagens principais para seu app Android:

Maximizar Alcance: os modelos de nuvem servem como um substituto essencial quando os modelos no dispositivo, como o Gemini Nano, não estão disponíveis devido a restrições de hardware ou SO do dispositivo. Isso ajuda a garantir que os recursos de IA permaneçam funcionais no maior número possível de dispositivos dos usuários.
Custo e recursos off-line: os modelos no dispositivo ajudam a garantir que os recursos de IA funcionem sem problemas quando o usuário está off-line. Além disso, ao descarregar tarefas rotineiras para o dispositivo local, é possível reduzir os custos de inferência na nuvem.

Diagrama mostrando a lógica da inferência no dispositivo em comparação com a inferência na nuvem. — **Figura 1**: os respectivos benefícios da inferência no dispositivo e na nuvem.

Opções de implementação

É possível implementar a inferência híbrida usando as seguintes abordagens:

API híbrida do Firebase AI Logic

A API híbrida do Firebase AI Logic oferece uma interface única e unificada para dividir a inferência entre ambientes de nuvem e no dispositivo.

Ele inclui um parâmetro onDeviceConfig que oferece controles simples para definir o modo de inferência e gerenciar o roteamento:

PREFER_ON_DEVICE: tenta usar o modelo no dispositivo, voltando automaticamente para o modelo hospedado na nuvem se o modelo no dispositivo não estiver disponível ou não for compatível com a solicitação.
PREFER_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, voltando ao modelo no dispositivo apenas se o dispositivo estiver off-line.
ONLY_ON_DEVICE: tenta usar o modelo no dispositivo, mas gera uma exceção se ele não estiver disponível ou não for compatível com a solicitação.
ONLY_IN_CLOUD: tenta usar o modelo hospedado na nuvem quando o dispositivo está on-line e o modelo está disponível, gerando uma exceção em todos os outros casos.

val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

Para detalhes da implementação, consulte a documentação do Firebase e confira o exemplo de IA híbrida no catálogo de IA.

Roteamento personalizado

Se o app tiver requisitos específicos de negócios ou UX, também será possível implementar uma lógica de roteamento personalizada. Isso permite determinar dinamicamente o caminho de inferência com base em fatores em tempo real, como:

Latência de rede
Integridade do sistema do dispositivo (por exemplo, níveis de bateria e carga do processador)
Complexidade da consulta do usuário

Essa abordagem de inferência híbrida personalizada é usada por apps líderes que implementaram o próprio roteamento personalizado para oferecer experiências de IA confiáveis, incluindo:

GBoard: o Gboard usa inferência híbrida personalizada para ativar os recursos de escrita, como revisão e reescrita.
Kakao Mobility: a Kakao Mobility criou uma ferramenta de extração de entidades usando inferência híbrida personalizada para o serviço de entrega de encomendas, que extrai automaticamente nomes de destinatários, endereços e números de telefone de mensagens em linguagem natural para simplificar formulários de pedidos.

Inferência híbrida Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Opções de implementação

API híbrida do Firebase AI Logic

Roteamento personalizado

Inferência híbrida