Sistema local Kimi K2.5 roda LLM de 1 trilhão de parâmetros com 768GB de memória Intel Optane e único GPU, atingindo cerca de 4 tokens por segundo

Um usuário do Reddit chamou a atenção ao montar uma estação de trabalho usando Optane PMem DIMMs como RAM para executar um modelo de linguagem com 1 trilhão de parâmetros. O usuário APFrisco compartilhou uma mini tutorial no subreddit Local LLaMA, explicando como adquiriu algumas memórias usadas de Intel Optane Persistent Memory por um preço acessível. Essa configuração permitiu rodar o modelo Kimi K2.5 localmente a uma taxa de aproximadamente 4 tokens por segundo em uma estação de trabalho Xeon.

A chave para essa conquista foi a aquisição de seis módulos Optane PMem (DCPMM) de 128 GB cada. Embora esse formato de memória esteja descontinuado, foi projetado para unir a capacidade do DRAM com a do SSD. Com 768 GB de Optane, a latência é significativamente menor do que a das melhores unidades NVMe, embora ainda seja de duas a três vezes mais lenta do que a DRAM. Essa combinação se mostrou vantajosa para frameworks de inferência de LLM, especialmente considerando que o custo dos módulos usados era bem inferior ao da mesma capacidade em DRAM. No entanto, com a descontinuação do Optane, essa solução se torna bastante rara.

As especificações do hardware montado incluem:

Intel Xeon Gold 6246 CPU
Placa-mãe Tyan S5630GMRE-CGN
Placa de vídeo Asus Dual GeForce RTX 3060 OC 12GB
6 módulos de 32GB de Samsung 2666MHz DDR4 ECC DRAM
6 módulos de 128GB de Intel Optane DCPMM PC4-2666 NMA1XBD128GQS
SSD NVMe M.2 2280 Western Digital WD SN850X 2TB
Fonte ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics Platinum Fully Modular
Gabinete Silverstone SST-GD08B (preto)

A configuração foi feita com o Optane operando em modo de memória e a memória DDR4 da Samsung atuando como cache.

No lado do software, foi utilizada a arquitetura mixta de especialistas do Kimi K2.5. APFrisco implementou um método híbrido de inferência em GPU/CPU com llama.cpp. Para otimizar o processamento, componentes de roteamento foram ajustados para caber na GPU de 12GB utilizando a flag ‘override-tensor’ do llama.cpp.

O desempenho alcançado, de cerca de 4 tokens por segundo, impressionou muitos, considerando que se trata de um modelo com 1 trilhão de parâmetros rodando em um hardware relativamente acessível. Há um consenso de que existe uma demanda por um produto de memória que preencha a lacuna entre DRAM e SSDs, especialmente para LLMs. Muitos esperam que essa lacuna seja superada pelo padrão CXL (Compute Express Link), que promete disponibilizar grandes quantidades de memória acessível e endereçável para cargas de trabalho desse tipo.

Sistema local Kimi K2.5 roda LLM de 1 trilhão de parâmetros com 768GB de memória Intel Optane e único GPU, atingindo cerca de 4 tokens por segundo

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias