Empresa investe em infraestrutura de IA com três Mac Studio para atender 200 funcionários

Uma empresa decidiu adotar uma nova abordagem ao substituir um servidor único por uma arquitetura distribuída composta por três Mac Studio M2 Ultra. Essa mudança, conforme informações disponíveis em fóruns e comunidades online, possibilitou que as requisições fossem distribuídas entre diferentes máquinas, resultando em menos filas de processamento e mantendo todos os dados dentro da rede local da empresa.

O projeto foi compartilhado no subreddit r/LocalAIServers pelo usuário conhecido como “deebuildsthings”. Ele utilizou computadores Apple de segunda mão em conjunto com mais de cem notebooks antigos, que funcionam apenas como estações de acesso para os colaboradores. O objetivo era construir uma infraestrutura que demandasse menos energia, refrigeração e investimento do que um servidor convencional. A publicação apresenta fotos da instalação e detalhes sobre o hardware utilizado.

### Por que abandonar um único servidor

O principal problema da configuração anterior não era a potência de processamento, mas a sobrecarga de solicitar que todas as requisições passassem por uma única fila. Assim, quando um usuário realizava uma consulta mais complexa, outros funcionários tinham que aguardar até que os dados da consulta fossem processados. A nova arquitetura resolveu essa limitação ao distribuir automaticamente cada requisição entre três máquinas independentes.

Essa distribuição é realizada por um software chamado Grid, projetado para redirecionar cada solicitação à máquina que estiver menos ocupada no momento.

### Como a infraestrutura foi montada

Cada um dos computadores utilizados neste projeto é um Mac Studio M2 Ultra, equipado com 192 GB de memória unificada e um SSD de 2 TB. Os modelos Qwen 3.6-35B-A3B estão sendo executados localmente através do Ollama, enquanto a geração de imagens utiliza ComfyUI. Cada Mac tem a capacidade de atender aproximadamente 17 sessões simultâneas, totalizando cerca de 50 sessões com todas as máquinas em funcionamento. Com uma média de uso estimada em 25%, acredita-se que a infraestrutura seja adequada para cerca de 200 funcionários.

Esses dados foram apresentados apenas pelo autor da publicação e não foram confirmados de forma independente.

### Memória unificada como uma vantagem

A escolha pelo Mac Studio deve-se principalmente à sua memória unificada. O M2 Ultra oferece uma largura de banda de até 800 GB/s, permitindo que grandes modelos de linguagem utilizem a memória disponível de maneira mais eficaz, sem a separação tradicional entre RAM e VRAM. Isso minimiza limitações observadas em GPUs com 24 GB de memória dedicada, especialmente em contextos extensos.

### Privacidade como motivação para a mudança

A empresa utiliza IA para criar textos para redes sociais, pesquisas internas, documentos e imagens. A decisão de operar tudo localmente foi tomada para evitar o envio de documentos corporativos a serviços na nuvem e eliminar os custos contínuos de plataformas pagas por usuário. Essa abordagem é particularmente interessante para organizações que lidam com informações confidenciais.

Nos comentários, o autor menciona potencial interesse de escritórios de advocacia, empresas do setor financeiro e organizações de saúde, devido às restrições no tratamento de dados internos.

### Sugestões da comunidade

Embora o projeto tenha gerado um bom interesse, vários participantes do Reddit levantaram questões sobre algumas decisões técnicas. Ferramentas como vLLM, MLX, llama.cpp e Exo surgiram como alternativas que poderiam otimizar o uso do hardware da Apple ou permitir a distribuição de modelos maiores entre as máquinas.

O autor explicou que optou pelo Ollama por sua simplicidade, especialmente para funcionários sem experiência técnica, e manifestou interesse em estudar melhorias, como conexões Thunderbolt entre os Mac Studio e formas de simplificar a configuração dos clientes.

### Um projeto em fase experimental

Apesar dos resultados apresentados, há limitações reconhecidas. Cada computador cliente ainda requer configuração manual para acessar a infraestrutura, um processo que leva cerca de dez minutos por máquina, além de uma dependência da rede local para que tudo funcione corretamente.

Atualmente, a maior dificuldade relatada não é a performance do hardware, mas sim convencer os colaboradores a integrar as ferramentas de IA ao seu fluxo de trabalho diário. Essa adaptação é vista como o principal desafio do projeto.

Empresa investe em infraestrutura de IA com três Mac Studio para atender 200 funcionários

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias