O Google Cloud anunciou novos modelos de incorporação de texto no Vertex AI, "text-embedding-004" e "text-multilingual-embedding-002", que podem gerar incorporações otimizadas com base em "tipos de tarefas". Este é um desenvolvimento significativo para aplicativos de Geração Aumentada por Recuperação (RAG).

A pesquisa tradicional de similaridade semântica geralmente não consegue fornecer resultados precisos em RAG porque as perguntas e as respostas são inerentemente diferentes. Por exemplo, "Por que o céu é azul?" e sua resposta, "O espalhamento da luz solar causa a cor azul", têm significados distintos.

Os "tipos de tarefas" preenchem essa lacuna, permitindo que os modelos entendam a relação entre uma consulta e sua resposta. Ao especificar "QUESTION_ANSWERING" para textos de consulta e "RETRIEVAL_DOCUMENT" para textos de resposta, os modelos podem colocar incorporações mais próximas umas das outras no espaço de incorporação, levando a resultados de pesquisa mais precisos.

Esses novos modelos aproveitam a "destilação de LLM", onde um modelo menor é treinado a partir de um Modelo de Linguagem Grande (LLM). Isso permite que os modelos de incorporação herdem alguns dos recursos de raciocínio dos LLMs, melhorando a qualidade da pesquisa e reduzindo a latência e o custo.

Concluindo, os "tipos de tarefas" no Vertex AI Embeddings são um passo significativo para melhorar a precisão e a eficiência dos sistemas RAG. Ao simplificar a pesquisa semântica, esse recurso permite que os desenvolvedores criem aplicativos mais inteligentes e com reconhecimento de linguagem.