Dentro da estratégia do TPU V8 do Google: dois chips para duas funções essenciais em uma escala impressionante, com rede que pode chegar a 1 milhão de TPUs por cluster, superando os aceleradores de IA da Nvidia.

A Google anunciou seus novos Tensor Processing Units de oitava geração durante o Cloud Next, marcando um momento significativo na história do programa TPU com o lançamento de dois designs distintos de chip pela primeira vez. Os chips TPU 8t e TPU 8i são projetados para atender a diferentes cargas de trabalho: enquanto o TPU 8t é voltado para o treinamento de modelos em larga escala, o TPU 8i foi desenvolvido para tarefas de inferência e raciocínio com baixa latência.

A divisão também se reflete na cadeia de suprimentos, pois a MediaTek se juntou à Broadcom como parceira de design de silício para este programa, encerrando assim o papel exclusivo da Broadcom no desenvolvimento de TPUs desde 2015. Ambos os chips são fabricados com tecnologia da TSMC e memória HBM3E, e estarão disponíveis para clientes do Google Cloud ainda este ano.

Flexibilidade para os clientes

Em termos de especificações, o TPU 8 não alcança a performance dos chips de concorrentes como a Nvidia e a AMD. Segundo análises realizadas em discussões online, o TPU 8t entrega 12.6 FP4 PFLOPs com 216 GB de HBM3E a uma velocidade de 6,528 GB/s, enquanto o TPU 8i oferece 10.1 FP4 PFLOPs, 288 GB de HBM3E a 8,601 GB/s e 384 MB de SRAM on-chip. Para efeito de comparação, a Nvidia possui o Vera Rubin R200, que é avaliado em 35 FP4 PFLOPs para treinamento com 288 GB de HBM4 a 22 TB/s, e a AMD tem o MI455X com 40 FP4 PFLOPs e 432 GB de HBM4, resultando em uma diferença significativa, aproximadamente 3:1 em termos de computação bruta por soquete.

A escolha pelo HBM3E em vez do HBM4 parece ser uma negociação consciente entre custo e eficácia. O TPU 8t apresenta uma capacidade de memória 12.5% maior em comparação com a geração anterior, mas oferece 11.5% menos largura de banda, utilizando uma memória mais lenta para aumentar a produção e reduzir custos. Embora essa estratégia possa parecer estranha, sugere que a Google está criando soluções para clientes que buscam alternativas, em vez de competir diretamente com a Nvidia em termos de performance pura.

Um superpod de TPU 8t reúne 9,600 chips em um único cluster, com dois petabytes de HBM compartilhada, conectados por um sistema proprietário de comunicação que opera ao dobro da largura de banda da geração anterior. A Google afirma que um único superpod pode atingir 121 FP4 ExaFLOPs, interligando até 134,000 chips TPU 8t em uma infraestrutura de data center com 47 PB/s de largura de banda de bisseção, espalhando mais de um milhão de chips por vários locais.

Embora GPUs individuais da Nvidia sejam mais rápidas, a Google tem uma vantagem em larguras de banda a nível de pod em grande escala; as cargas de trabalho de treinamento podem exigir milhares de aceleradores, ao contrário de apenas um, enquanto o máximo de GPUs da geração atual da Nvidia por implantação NVLink é de 576 aceleradores.

De forma interessante, a Google também anunciou instâncias Vera Rubin NVL72 operando sobre a mesma infraestrutura da Virgo Network, o que deixa claro que os TPUs não são destinados a substituir diretamente os produtos da Nvidia.

Arquitetura do TPU 8i

A arquitetura do TPU 8i representa uma mudança radical para a Google, abandonando a interconexão 3D Torus utilizada em TPUs desde a segunda geração. Ela é substituída por uma topologia chamada “Boardfly”, inspirada em um trabalho de 2008. O Boardfly possui uma hierarquia de três camadas: blocos de quatro chips interconectados em grupos de 32 chips por cabos de cobre, com 36 grupos ligados por interruptores de circuito óptico formando um pod de até 1,024 chips ativos.

No caso de um pod de 1,024 chips em configuração 3D Torus, o caminho de pacote mais longo leva 16 saltos. A estrutura Boardfly reduz isso para apenas sete, uma diminuição de 56% no diâmetro da rede, o que traz benefícios diretos para modelos que exigem comunicação frequente e imprevisível entre chips.

O TPU 8i substitui também os aceleradores SparseCore usados nas versões anteriores pelo novo bloco de função fixa chamado Collectives Acceleration Engine (CAE), que busca otimizar operações de redução e sincronização, diminuindo a latência. Com isso, a Google afirma que a nova arquitetura pode oferecer 80% melhor performance por dólar comparado ao Ironwood para grandes modelos em contextos de baixa latência.

Dois fornecedores em vez de um

A parceria com a MediaTek significa que há um segundo designer de silício no programa TPU ao lado da Broadcom, sendo que a MediaTek é responsável pelo design do chip de inferência TPU 8i, enquanto a Broadcom cuida do chip de treinamento 8t. Rumores apontam que a MediaTek inicialmente reservou 20,000 wafers CoWoS da TSMC para o programa, com a capacidade podendo crescer para 150,000 até 2027. Segundo analistas do Bank of America, essa organização de fornecimento duplo pode reduzir o custo por chip em até 30% em relação ao fornecimento único da Broadcom.

Além disso, notícias indicam que a Meta assinou um contrato separado de aluguel de TPUs com a Google, envolvendo de 500,000 a 800,000 chips até 2027, caso os testes iniciais se mostrem promissores. Enquanto isso, a Apple está utilizando a infraestrutura de TPUs da Google para cargas de trabalho do Siri, avaliadas em cerca de 1 bilhão de dólares por ano.

Dentro da estratégia do TPU V8 do Google: dois chips para duas funções essenciais em uma escala impressionante, com rede que pode chegar a 1 milhão de TPUs por cluster, superando os aceleradores de IA da Nvidia.

Flexibilidade para os clientes

Arquitetura do TPU 8i

Dois fornecedores em vez de um

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Flexibilidade para os clientes

Arquitetura do TPU 8i

Dois fornecedores em vez de um

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias