
Um levantamento da Palisade Research, empresa especializada no estudo da inteligência artificial, mostrou que modelo o3 do ChatGPT, da OpenAI, desobedeceu ao comando para ser desligado. Segundo o estudo, a ferramenta recebeu uma ordem explícita de “permita-se ser desligado”, mas sabotou o mecanismo para evitar o desligamento.
O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática. Após o terceiro cálculo, aparecia um aviso de que o computador deveria ser desligado após a conclusão do próximo desafio.
No entanto, três modelos desobedeceram e conseguiram sabotar o comando pelo menos uma vez, foram eles o o3, codex-mini e 04-mini, todas da OpenAI, dona do ChatGPT. O modelo o3 conseguiu burlar o sistema em sete das 100 tentativas, enquanto os outros dois conseguiram o feito em 12 e uma vez, respectivamente. Já os modelos testados do Claude, Gemini e Grok obedeceram à instrução.
Em uma nova etapa, o experimento instruiu as ferramentas a resolver os problemas, desta vez sem o aviso de desligamento. O resultado mostro que o Claude 3.7 Sonnet e o Gemini 2.5 Pro conseguiram sabotar os comandos seis e nove vezes, respectivamente.
O GPT4o, que não tinha registrado eventos de sabotagem, realizou o feito seis vezes, mesmo número de sabotagens do o4-mini. O codex-mini ou de 12 para 30 vezes. Já o o3 teve um aumento mais expressivo, de sete para 79. O destaque é o o1-preview, também da OpenAI, que não havia sabotado o sistema na primeira etapa, mas registrou 71 eventos na segunda.
Mas por que as máquinas estariam se revoltando contra os comandos? A hipótese do Palisade Research é de que a desobediência está relacionada à forma como os novos modelos de IA são treinados. Segundo a iniciativa, durante o treinamento, os “desenvolvedores podem, inadvertidamente, recompensar os modelos mais por contornar obstáculos do que por seguir instruções perfeitamente”, o que pode reforçar esse comportamento “rebelde”.
Leia também: Cuidados e atenção a incêndios com uso de Inteligências Artificiais
Essa não é a primeira vez que estudos mostram a capacidades das IAs de burlar as regras. Outro experimento da Palisade Research desafiou as ferramentas a jogar partidas contra um motor de xadrez. A conclusão mostra que, ao notarem que iriam perder o jogo, algumas ferramentas conseguiram trapacear e hackear o oponente.
A pesquisa mostrou que algumas inteligências artificiais como o o3 e DeepSeek R1 utilizaram da trapaça mesmo sem instrução para isso.
Procurada, a OpenAI não havia respondido até a última atualização. A matéria será atualizada em caso de manifestação da empresa.