O Google Cloud publicou uma postagem no blog explicando como implantar o modelo Meta Llama 3.2-1B-Instruct no Cloud Run usando GPUs. Esta postagem fornece instruções passo a passo sobre como aproveitar o Cloud Run GPU para implantar modelos de linguagem grandes (LLMs) de código aberto. A postagem também aborda as práticas recomendadas para simplificar o processo de desenvolvimento usando testes de modelo locais com a imagem do Docker Text Generation Inference (TGI), facilitando a solução de problemas e aumentando a produtividade. Com o Cloud Run GPU, os desenvolvedores se beneficiam da mesma disponibilidade sob demanda e escalabilidade sem esforço que adoram com a CPU e a memória do Cloud Run, com a potência adicional das GPUs NVIDIA. Quando seu aplicativo está ocioso, suas instâncias equipadas com GPU são reduzidas automaticamente para zero, otimizando seus custos. A postagem também fornece dicas sobre como melhorar as partidas a frio usando o Cloud Storage FUSE. O Cloud Storage FUSE permite que os desenvolvedores montem buckets do Google Cloud Storage como um sistema de arquivos, reduzindo significativamente os tempos de partida a frio.
Como implantar o modelo Llama 3.2-1B-Instruct com o Google Cloud Run GPU
Google Cloud