Intel e AMD lançam novas extensões de CPU ACE com foco em inteligência artificial para x86, aumentando a eficiência na multiplicação de matrizes

A maioria das informações sobre “executar um modelo de IA” tende a mencionar o uso de GPUs, mas nem todas as tarefas de IA se adequam a esse tipo de hardware. Modelos menores ou operações sensíveis à latência em um único usuário podem se beneficiar mais ao serem executados diretamente na CPU, evitando o tempo extra associado à transferência de dados entre CPU e GPU. Em muitos casos, pode não haver uma GPU disponível, ou a que existe pode ser uma integrada com limitações.

Recentemente, Intel e AMD apresentaram as especificações completas das extensões de CPU ACE, que facilitam e tornam mais eficientes a execução de tarefas de IA em processadores x86. A ACE oferece um padrão técnico que aproveita os registradores AVX10 existentes, acrescentando silício dedicado à multiplicação de matrizes. Isso traz diversos benefícios, como maior eficiência energética, desenvolvimento e otimização facilitados, além de usar as entradas de 512 bits do AVX, o que permite uma integração mais simples com designs já existentes.

A multiplicação de matrizes é essencial para as cargas de trabalho de IA: basicamente, trata-se de pegar uma tabela de números e executar um loop de multiplicação e adição. Isso sempre pode ser feito em qualquer CPU, mas a uma velocidade limitada. Mesmo hoje, esses loops consomem bastante energia, mesmo usando as instruções AVX10 de multiplicação e acumulação — que são tecnicamente uma solução alternativa, já que o AVX não foi projetado pensando nas operações de multiplicação de matrizes 2D.

Com o ACE, é possível realizar 16 vezes mais operações para o mesmo número de vetores de entrada em comparação com o AVX10. Embora isso não signifique necessariamente um aumento de velocidade de 16 vezes — pois a melhoria dependerá da implementação específica — é razoável esperar que Intel e AMD dediquem mais silício para essa tarefa em designs futuros para melhorar o desempenho. Além disso, cada instrução ACE realiza mais trabalho do que seu equivalente em AVX10, resultando em uma sobrecarga menor do processador e um uso de largura de banda da RAM potencialmente melhor.

Os benefícios vão além da simples redução do número de instruções. O ACE é projetado para ser independente da implementação, o que significa que frameworks de machine learning e suas bibliotecas subjacentes, como PyTorch e TensorFlow, podem usar uma única via de código, sem precisar de variações conforme o hardware e seu nível de suporte ao AVX.

O ACE dá suporte nativo à maioria dos tipos de dados utilizados em operações de machine learning, incluindo INT8, INT32, FP8, FP16, FP32 e BF16. Ele também pode usar formatos MX escalonados do Open Compute Project nativamente, uma funcionalidade que o AVX10 não oferece. Dessa forma, desenvolvedores terão a flexibilidade de mover algumas cargas de trabalho específicas de NPUs de volta para a CPU quando precisarem de resultados rápidos. Isso se torna uma grande vantagem, já que o ACE oferece um alvo consistente em todo o hardware x86.

Intel e AMD lançam novas extensões de CPU ACE com foco em inteligência artificial para x86, aumentando a eficiência na multiplicação de matrizes

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias