O Google Cloud anunciou atualizações significativas em sua camada de software AI Hypercomputer, com foco em aprimorar o desempenho de treinamento e inferência, melhorar a resiliência em escala e fornecer um hub centralizado para recursos do AI Hypercomputer.

Uma das principais atualizações é o suporte para MaxText em VMs A3 Mega, permitindo um treinamento mais rápido e eficiente de modelos de linguagem grandes (LLMs). Essas VMs, equipadas com GPUs NVIDIA H100 Tensor Core, oferecem uma melhoria de 2X na largura de banda de rede GPU para GPU em relação às VMs A3.

Adicionalmente, o Google Cloud introduziu o SparseCore no Cloud TPU v5p, fornecendo aceleração de hardware para operações de incorporação, levando a um desempenho maior para sistemas de recomendação.

Para aprimorar a inferência de LLM, o Google Cloud também introduziu a quantização de cache KV e kernels de atenção irregular no JetStream, melhorando o desempenho de inferência em até 2X no Cloud TPU v5e.

Com essas atualizações, o Google Cloud continua a capacitar organizações a acelerar suas jornadas de IA, fornecendo uma infraestrutura de alto desempenho e econômica. O foco em hardware e software otimizados, juntamente com recursos abrangentes, torna o AI Hypercomputer uma solução atraente para empresas que buscam aproveitar o poder da IA.