O Google Cloud anunciou a adição do suporte à GPU NVIDIA L4 para o Cloud Run, em versão preliminar. Isso abre uma ampla gama de novos casos de uso para desenvolvedores do Cloud Run, incluindo:

* Realizar inferência em tempo real com modelos abertos leves, como os modelos Gemma (2B/7B) abertos do Google ou o Llama 3 (8B) da Meta para criar chatbots personalizados ou resumos de documentos instantâneos, além de escalonar para lidar com picos de tráfego de usuários.

* Fornecer modelos de IA generativos personalizados e ajustados, como geração de imagens adaptada à marca da sua empresa, e reduzir para otimizar os custos quando ninguém os estiver usando.

* Acelerar seus serviços do Cloud Run com uso intensivo de computação, como reconhecimento de imagem sob demanda, transcodificação e streaming de vídeo e renderização 3D.

Como uma plataforma totalmente gerenciada, o Cloud Run permite que você execute seu código diretamente na infraestrutura escalável do Google, combinando a flexibilidade dos contêineres com a simplicidade do serverless para ajudar a aumentar sua produtividade. Com o Cloud Run, você pode executar serviços de front-end e back-end, trabalhos em lote, implantar sites e aplicativos e lidar com cargas de trabalho de processamento de fila — tudo isso sem precisar gerenciar a infraestrutura subjacente.

Ao mesmo tempo, muitas cargas de trabalho que executam inferência de IA, especialmente aplicativos que exigem processamento em tempo real, exigem aceleração de GPU para oferecer experiências do usuário responsivas. Com suporte para GPUs NVIDIA, você pode executar inferência de IA online sob demanda usando os LLMs de sua escolha em segundos.

Os primeiros clientes estão entusiasmados com a combinação do Cloud Run e das GPUs NVIDIA.

“O suporte à GPU do Cloud Run mudou as regras do jogo para nossos aplicativos de inferência em tempo real. A baixa latência de inicialização a frio é impressionante, permitindo que nossos modelos forneçam previsões quase instantaneamente, o que é fundamental para experiências do cliente sensíveis ao tempo. Além disso, as GPUs do Cloud Run mantêm uma latência de veiculação mínima e consistente sob diversas cargas, garantindo que nossos aplicativos de IA generativa sejam sempre responsivos e confiáveis — tudo isso enquanto são reduzidos para zero sem esforço durante períodos de inatividade. No geral, as GPUs do Cloud Run aumentaram significativamente nossa capacidade de fornecer resultados rápidos, precisos e eficientes para nossos usuários finais.” - Thomas MENARD, chefe de IA - Global Beauty Tech, L’Oréal

No geral, a adição do suporte à GPU NVIDIA ao Cloud Run é um desenvolvimento significativo para desenvolvedores que buscam criar aplicativos de inferência de IA em tempo real. Esse recurso permitirá que os desenvolvedores aproveitem o poder das GPUs NVIDIA, enquanto desfrutam da facilidade de uso e escalabilidade do Cloud Run.

Para começar a usar o Cloud Run com GPUs NVIDIA, inscreva-se no programa de visualização em g.co/cloudrun/gpu.