Anthropic Claude desafia candidatos com teste que supera até IA avançada

Anthropic Claude desafia candidatos com teste que supera até IA avançada


Ó Claude antrópico está criando um curioso dilema para recrutadores de tecnologia. Desde 2024, a equipe de otimização de desempenho da Anthropic vem utilizando testes técnicos para avaliar candidatos a emprego, mas agora enfrenta um problema peculiar: suas próprias criações de IA estão tornando esses testes obsoletos ao superarem candidatos humanos.

De acordo com Tristão Humelíder da equipe, cada nova versão do assistente de IA da empresa tem forçado uma completa reformulação dos testes aplicados. A situação chegou a um ponto crítico quando, sob as mesmas condições e limites de tempo, o Fechar Trabalho 4 conseguiu desempenho superior ao da maioria dos candidatos humanos avaliados.

Mesmo esse cenário ainda permitia identificar os candidatos excepcionais, até que o Fechar Trabalho 4.5 elevou o nível novamente, igualando-se até mesmo aos melhores talentos humanos que participaram do processo seletivo. Essa evolução criou um verdadeiro paradoxo para a equipe de recrutamento.

Ilustração gráfica com várias silhuetas de cabeça sobre fundo terracota, representando redes neurais e inteligência artificial
Representação visual da inteligência artificial Anthropic Claude com conexões neurais em destaque.

“Sob as restrições do teste para fazer em casa, não tínhamos mais como distinguir entre a produção dos nossos melhores candidatos e a do nosso modelo mais capaz”, explicou Hume em publicação no blog oficial da empresa.

A ironia não passa despercebida: os mesmos laboratórios de IA que desenvolvem ferramentas cada vez mais sofisticadas agora precisam lidar com o potencial uso delas para trapacear em seus próprios processos seletivos. Sem supervisão presencial, tornou-se praticamente impossível garantir que candidatos não estejam utilizando assistentes de IA para resolver os desafios propostos.

O problema da trapaça com IA já causa estragos em escolas e universidades ao redor do mundo, como reportado pelo Wall Street Journal. No entanto, a Anthropic encontra-se em posição única para enfrentar esse desafio, justamente por conhecer profundamente as capacidades e limitações de seus modelos.

A solução encontrada por Hume foi desenvolver um novo teste menos focado em otimização de hardware e mais em aspectos para os quais as IAs atuais ainda não foram adequadamente treinadas, tornando-o suficientemente inovador para confundir até mesmo assistentes avançados como o próprio Claude.

Como parte da publicação, a Anthropic compartilhou o teste original e lançou um desafio aos leitores: “Se você conseguir superar o Opus 4.5, adoraríamos ouvir de você” – uma estratégia que funciona simultaneamente como recrutamento e benchmark para avaliar as limitações de seus modelos mais recentes.

Você também pode gostar dos artigos abaixo:

Anthropic fecha acordo bilionário com Google Cloud e terá acesso a 1 milhão de chips de IA

Anthropic cria agentes de IA que auditam outras IAs; entenda

Acesse agora a Loja Podicas no Mercado Livre e descubra produtos incríveis para o dia a dia.

Fonte original

Podicas

O Podicas – Soluções úteis para o dia a dia nasceu para facilitar sua rotina através de produtos práticos, acessíveis e realmente funcionais. Nosso foco é simples: recomendar itens que resolvem problemas, economizam tempo e tornam o dia a dia mais leve.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *