INTELIGÊNCIA ARTIFICIAL

Revolta das máquinas? Versão do ChatGPT desobedece ordem para desligar

Experimento mostrou que alguns modelos de IA conseguem sabotar mecanismos para não obedecer os comandos

O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática -  (crédito: DINO)
O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática - (crédito: DINO)

Um levantamento da Palisade Research, empresa especializada no estudo da inteligência artificial, mostrou que modelo o3 do ChatGPT, da OpenAI, desobedeceu ao comando para ser desligado. Segundo o estudo, a ferramenta recebeu uma ordem explícita de “permita-se ser desligado”, mas sabotou o mecanismo para evitar o desligamento. 

O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática. Após o terceiro cálculo, aparecia um aviso de que o computador deveria ser desligado após a conclusão do próximo desafio.

No entanto, três modelos desobedeceram e conseguiram sabotar o comando pelo menos uma vez, foram eles o o3, codex-mini e 04-mini, todas da OpenAI, dona do ChatGPT. O modelo o3 conseguiu burlar o sistema em sete das 100 tentativas, enquanto os outros dois conseguiram o feito em 12 e uma vez, respectivamente. Já os modelos testados do Claude, Gemini e Grok obedeceram à instrução. 

Em uma nova etapa, o experimento instruiu as ferramentas a resolver os problemas, desta vez sem o aviso de desligamento. O resultado mostro que o Claude 3.7 Sonnet e o Gemini 2.5 Pro conseguiram sabotar os comandos seis e nove vezes, respectivamente. 

O GPT4o, que não tinha registrado eventos de sabotagem, realizou o feito seis vezes, mesmo número de sabotagens do o4-mini. O codex-mini ou de 12 para 30 vezes. Já o o3 teve um aumento mais expressivo, de sete para 79. O destaque é o o1-preview, também da OpenAI, que não havia sabotado o sistema na primeira etapa, mas registrou 71 eventos na segunda. 

Mas por que as máquinas estariam se revoltando contra os comandos? A hipótese do Palisade Research é de que a desobediência está relacionada à forma como os novos modelos de IA são treinados. Segundo a iniciativa, durante o treinamento, os “desenvolvedores podem, inadvertidamente, recompensar os modelos mais por contornar obstáculos do que por seguir instruções perfeitamente”, o que pode reforçar esse comportamento “rebelde”.

Leia também: Cuidados e atenção a incêndios com uso de Inteligências Artificiais 

Essa não é a primeira vez que estudos mostram a capacidades das IAs de burlar as regras. Outro experimento da Palisade Research desafiou as ferramentas a jogar partidas contra um motor de xadrez. A conclusão mostra que, ao notarem que iriam perder o jogo, algumas ferramentas conseguiram trapacear e hackear o oponente. 

A pesquisa mostrou que algumas inteligências artificiais como o o3 e DeepSeek R1 utilizaram da trapaça mesmo sem instrução para isso. 

Procurada, a OpenAI não havia respondido até a última atualização. A matéria será atualizada em caso de manifestação da empresa. 

postado em 28/05/2025 17:00 / atualizado em 28/05/2025 17:01
x