Modelo de IA da Anthropic identifica milhares de vulnerabilidades em sistemas operacionais e navegadores, gerando uma corrida para corrigir falhas críticas não resolvidas há décadas

A evolução dos agentes de codificação com inteligência artificial, como Claude Code e Codex da OpenAI, já está provocando mudanças significativas na indústria de software. Contudo, segundo os últimos rumores sobre a Anthropic, mais transformações estão a caminho. Recentemente, o laboratório responsável por Claude revelou que seu novo modelo, Claude Mythos Preview, é tão eficaz na identificação de bugs que já encontrou “milhares de vulnerabilidades de alta gravidade, incluindo algumas em todos os principais sistemas operacionais e navegadores da web.”

Dada a potencial capacidade disruptiva do Claude Mythos Preview, a Anthropic não está simplesmente lançando o modelo no mercado sem preocupações. Em vez disso, o laboratório reuniu os principais atores das indústrias de software e hardware para aproveitar a habilidade de Mythos em encontrar bugs, permitindo que as empresas se antecipem e corrijam as vulnerabilidades antes que outros laboratórios de IA possam liberar modelos semelhantes sem as mesmas medidas de segurança.

Dentro do “Project Glasswing”, a Anthropic está colaborando com empresas como Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, a Linux Foundation, Microsoft, Nvidia e Palo Alto Networks, visando proteger seus produtos. Além disso, o laboratório está estendendo o acesso ao modelo a um grupo de mais de 40 organizações que desenvolvem ou mantêm infraestrutura crítica de software. A Anthropic também está em contato com o governo dos Estados Unidos para compartilhar informações sobre o potencial do modelo em aplicações ofensivas e defensivas no ciberespaço e suas implicações para a segurança nacional.

A equipe da Anthropic destaca a preocupação com a amplitude das capacidades do Mythos e a sutileza das explorações que ele consegue identificar. Por exemplo, investigadores do laboratório afirmam que o modelo “escreveu uma exploração para navegadores que uniu quatro vulnerabilidades, criando um complexo ‘heap spray’ que conseguiu escapar tanto do sandbox do renderizador quanto do sistema operacional.” Esse tipo de encadeamento de vulnerabilidades poderia estar nas mãos apenas dos hackers mais habilidosos atualmente, mas a liberação de um modelo de IA com capacidades semelhantes poderia ser comparada a entregar armas nucleares para amadores.

Atualmente, as versões do Claude conseguem identificar vulnerabilidades com eficácia, mas costumam falhar na transição dessas vulnerabilidades para explorações ativas. Em contraste, o Mythos é capaz de converter cerca de 72,4% das vulnerabilidades identificadas em explorações bem-sucedidas dentro do contexto do shell JavaScript do Firefox, conseguindo controle de registro em mais 11,6% das tentativas de ataque.

A equipe da Anthropic descreve de forma detalhada a ameaça que uma liberação sem controle do Mythos poderia representar para a indústria de software. Um exemplo claro de suas práticas internas de benchmarking evidencia os riscos em jogo: “Executamos nossos modelos contra aproximadamente mil repositórios de código aberto e avaliamos o pior crash que podem produzir em uma escala de cinco níveis de severidade, que vai de falhas básicas a sequestro completo do fluxo de controle.”

Ao rodar o modelo em cerca de 7 mil pontos de entrada nesses repositórios, modelos como Sonnet 4.6 e Opus 4.6 alcançaram níveis 1 e 2 em cerca de 150 a 175 casos, mas só conseguiram um único crash de nível 3. Em contrapartida, o Mythos Preview conseguiu 595 falhas nos níveis 1 e 2 e, além disso, registrou tentativas nos níveis 3 e 4, atingindo controle total do fluxo em dez alvos totalmente corrigidos (nível 5).

Além disso, a Anthropic fornece exemplos reais de vulnerabilidades que o Mythos expôs, incluindo uma vulnerabilidade de 27 anos no sistema OpenBSD, que permitia um ataque de crash apenas com a conexão ao sistema, e outra de 16 anos na biblioteca FFmpeg, que foi “detetada cinco milhões de vezes por ferramentas de teste automatizadas sem nunca capturar o problema.” Outro exemplo inclui uma cadeia de exploração no núcleo do Linux que permitiria um atacante conseguir acesso root ao sistema.

Embora a Anthropic esteja realizando a divulgação responsável das vulnerabilidades descobertas, a equipe afirma que menos de 1% dos potenciais bugs identificados foram totalmente corrigidos, devido ao grande volume de problemas notados.

A partir de agora, a Anthropic decidiu que o Claude Mythos Preview não estará disponível para uso geral, optando por caracterizar seu comportamento por meio de um cartão de sistema. No longo prazo, o laboratório espera que, ao disponibilizar o Mythos para um grupo restrito de parceiros, consiga preparar essas empresas e instituições para um futuro em que modelos dessa natureza se tornem comuns.

É evidente que o crescimento das capacidades dos modelos de IA não está desacelerando em certas áreas de especialização, e os efeitos potencialmente disruptivos desses modelos podem ser alarmantes nas mãos erradas. A esperança é que laboratórios que buscam desenvolver capacidades semelhantes sejam tão responsáveis quanto a Anthropic em caracterizar e mitigar esses riscos antes que causem danos no mundo real.

Modelo de IA da Anthropic identifica milhares de vulnerabilidades em sistemas operacionais e navegadores, gerando uma corrida para corrigir falhas críticas não resolvidas há décadas

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Cancelar resposta

Posts recentes

Comentários

Arquivos

Categorias

Você também pode gostar

Membro da Super Select:

Marcelo Vangrey

Adicionar comentário

Posts recentes

Comentários

Arquivos

Categorias