Google reduz em até seis vezes a capacidade de memória cache necessária para IA com o TurboQuant, oferecendo até 8x mais desempenho em GPUs Nvidia H100

Recentemente, uma nova tecnologia chamada TurboQuant foi apresentada pela Google Research. Este algoritmo de compressão, que não exige treinamento, é capaz de quantizar caches de chave-valor (KV) em modelos de linguagem até 3 bits sem perda de precisão. Testes realizados com GPUs Nvidia H100 mostraram que o TurboQuant, ao utilizar uma quantização de 4 bits, pode aumentar o desempenho em até oito vezes em cálculos de atenção, enquanto reduz a memória dos caches KV em pelo menos seis vezes.

Os caches KV armazenam dados de atenção já processados, evitando que os modelos de linguagem precisem recalcular essa informação a cada etapa de geração de tokens. Esses caches estão se tornando gargalos de memória à medida que as janelas de contexto aumentam. Embora métodos tradicionais de quantização possam ajudar a reduzir o tamanho desses caches, eles também adquirem uma leve sobrecarga de memória devido aos bits extras que precisam ser armazenados. Essa pequena adição pode se acumular à medida que as janelas de contexto aumentam.

TurboQuant elimina essa sobrecarga através de um processo em duas etapas. A primeira fase utiliza uma técnica chamada PolarQuant, que converte vetores de dados de coordenadas cartesianas para coordenadas polares. Isso separa cada vetor em uma magnitude e um conjunto de ângulos, permitindo que o PolarQuant evite a etapa de normalização, que normalmente é cara e exigida por quantizadores convencionais. O resultado é uma compressão de alta qualidade sem a sobrecarga de constantes de quantização armazenadas.

A segunda fase aplica uma camada de correção de erro de 1 bit usando um algoritmo conhecido como Quantized Johnson-Lindenstrauss (QJL). O QJL projeta o erro residual de quantização em um espaço de dimensão inferior, reduzindo cada valor a um único bit de sinal, o que elimina viés sistêmico nos cálculos de pontuação de atenção sem custo adicional significativo.

A Google testou os três algoritmos em benchmarks de longo contexto, incluindo LongBench e Needle In A Haystack, utilizando modelos open-source como Gemma e Mistral. O TurboQuant alcançou resultados perfeitos em tarefas de recuperação, compressando a memória KV em pelo menos seis vezes. Na suíte LongBench, que avalia perguntas e respostas, geração de código e resumos, o TurboQuant teve desempenho equivalente ou superior ao padrão de referência KIVI em todas as tarefas.

Além disso, o algoritmo também se destacou em busca vetorial. Em comparação com Product Quantization e RabbiQ, usando o dataset GloVe, o TurboQuant obteve as maiores taxas de recuperação 1@k. É importante ressaltar que o TurboQuant não requer treinamento ou ajustes, além de apresentar uma sobrecarga de execução praticamente irrelevante, tornando-o ideal para implantação em sistemas de inferência em produção e em grande escala.

O trabalho será apresentado no ICLR 2026 no próximo mês.

Google reduz em até seis vezes a capacidade de memória cache necessária para IA com o TurboQuant, oferecendo até 8x mais desempenho em GPUs Nvidia H100

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias