web counter Sistema local Kimi K2.5 roda LLM de 1 trilhão de parâmetros com 768GB de memória Intel Optane e único GPU, atingindo cerca de 4 tokens por segundo - Super Select
Home » Sistema local Kimi K2.5 roda LLM de 1 trilhão de parâmetros com 768GB de memória Intel Optane e único GPU, atingindo cerca de 4 tokens por segundo
Tecnologia, Hardware e PC

Sistema local Kimi K2.5 roda LLM de 1 trilhão de parâmetros com 768GB de memória Intel Optane e único GPU, atingindo cerca de 4 tokens por segundo

Um usuário do Reddit chamou a atenção ao montar uma estação de trabalho usando Optane PMem DIMMs como RAM para executar um modelo de linguagem com 1 trilhão de parâmetros. O usuário APFrisco compartilhou uma mini tutorial no subreddit Local LLaMA, explicando como adquiriu algumas memórias usadas de Intel Optane Persistent Memory por um preço acessível. Essa configuração permitiu rodar o modelo Kimi K2.5 localmente a uma taxa de aproximadamente 4 tokens por segundo em uma estação de trabalho Xeon.

A chave para essa conquista foi a aquisição de seis módulos Optane PMem (DCPMM) de 128 GB cada. Embora esse formato de memória esteja descontinuado, foi projetado para unir a capacidade do DRAM com a do SSD. Com 768 GB de Optane, a latência é significativamente menor do que a das melhores unidades NVMe, embora ainda seja de duas a três vezes mais lenta do que a DRAM. Essa combinação se mostrou vantajosa para frameworks de inferência de LLM, especialmente considerando que o custo dos módulos usados era bem inferior ao da mesma capacidade em DRAM. No entanto, com a descontinuação do Optane, essa solução se torna bastante rara.

As especificações do hardware montado incluem:

  • Intel Xeon Gold 6246 CPU
  • Placa-mãe Tyan S5630GMRE-CGN
  • Placa de vídeo Asus Dual GeForce RTX 3060 OC 12GB
  • 6 módulos de 32GB de Samsung 2666MHz DDR4 ECC DRAM
  • 6 módulos de 128GB de Intel Optane DCPMM PC4-2666 NMA1XBD128GQS
  • SSD NVMe M.2 2280 Western Digital WD SN850X 2TB
  • Fonte ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics Platinum Fully Modular
  • Gabinete Silverstone SST-GD08B (preto)

A configuração foi feita com o Optane operando em modo de memória e a memória DDR4 da Samsung atuando como cache.

No lado do software, foi utilizada a arquitetura mixta de especialistas do Kimi K2.5. APFrisco implementou um método híbrido de inferência em GPU/CPU com llama.cpp. Para otimizar o processamento, componentes de roteamento foram ajustados para caber na GPU de 12GB utilizando a flag ‘override-tensor’ do llama.cpp.

O desempenho alcançado, de cerca de 4 tokens por segundo, impressionou muitos, considerando que se trata de um modelo com 1 trilhão de parâmetros rodando em um hardware relativamente acessível. Há um consenso de que existe uma demanda por um produto de memória que preencha a lacuna entre DRAM e SSDs, especialmente para LLMs. Muitos esperam que essa lacuna seja superada pelo padrão CXL (Compute Express Link), que promete disponibilizar grandes quantidades de memória acessível e endereçável para cargas de trabalho desse tipo.

Membro da Super Select:

Marcelo Vangrey

A minha jornada como Vangrey no universo dos games começou em 1994 com um Mega Drive e o incrivel Mortal Kombat 2! Seguida pelo Super Nintendo no universo dos lendários cartuchos 16in1 com Top Gear e companhia! Em 1998, conquistou seu primeiro PLAY 1 novamente com Mortal Kombat, dessa vez o MK4, e a partir daí, continuou explorando diversas plataformas. Comprando e vendendo, já passei por: Game Boy Color, PS2, PSP, PS3, Nintendo DS, 3DS, Xbox 360, PS4, PS4 Pro, PS5, Nintendo Switch 1 e 2, e pra finalizar - o Steam Deck =)

Adicionar comentário

Clique aqui para postar um comentário