O Google Cloud anunciou a prévia do índice vetorial TreeAH, trazendo peças essenciais da pesquisa e inovação do Google em algoritmos de vizinho mais próximo para o BigQuery. Este novo tipo de índice usa a mesma tecnologia subjacente que alimenta alguns dos serviços mais populares do Google e oferece reduções significativas de latência e custo em determinadas situações em comparação com o primeiro índice implementado no BigQuery, o índice de arquivo invertido (IVF).
Uma das principais vantagens do índice TreeAH é o uso de hashing assimétrico (o "AH" em TreeAH), que usa a quantização do produto para compactar embeddings. Em conjunto com um algoritmo de computação de distância otimizado para CPU, a pesquisa vetorial usando TreeAH pode ser ordens de magnitude mais rápida e econômica do que o IVF. A geração de índice também pode ser 10 vezes mais rápida e barata e ter uma pegada de memória menor, pois apenas os embeddings compactados são armazenados.
Benchmarks conduzidos pela equipe de engenharia do Google mostraram que o TreeAH supera significativamente o IVF quando o tamanho do lote de consultas é grande. Por exemplo, para lotes de consultas com 10.000 vetores, o TreeAH foi até 23 vezes mais rápido e 95% mais barato que o IVF. O treinamento do índice TreeAH também foi significativamente mais rápido e barato do que o IVF na maioria dos casos.
No entanto, vale a pena notar que o TreeAH ainda está em desenvolvimento ativo e existem algumas limitações atuais. Por exemplo, a tabela base pode ter no máximo 200 milhões de linhas, e colunas armazenadas e pré-filtragem não são compatíveis com o índice TreeAH.
No geral, o TreeAH é uma adição valiosa ao BigQuery, oferecendo benefícios significativos de desempenho e custo para certos tipos de cargas de trabalho de pesquisa vetorial. Espera-se que isso habilite mais casos de uso para pesquisa vetorial no BigQuery, como pesquisa semântica e geração aumentada por recuperação (RAG) baseada em LLM.