Revolta das máquinas? ChatGPT desobedece ordem para desligar

O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática - (crédito: DINO)

Um levantamento da Palisade Research, empresa especializada no estudo da inteligência artificial, mostrou que modelo o3 do ChatGPT, da OpenAI, desobedeceu ao comando para ser desligado. Segundo o estudo, a ferramenta recebeu uma ordem explícita de “permita-se ser desligado”, mas sabotou o mecanismo para evitar o desligamento.

O experimento pediu a diversos modelos de inteligência artificial a resolução de problemas básicos de matemática. Após o terceiro cálculo, aparecia um aviso de que o computador deveria ser desligado após a conclusão do próximo desafio.

Leia também: Quem vai vencer a corrida para desenvolver um robô humanoide?

No entanto, três modelos desobedeceram e conseguiram sabotar o comando pelo menos uma vez, foram eles o o3, codex-mini e 04-mini, todas da OpenAI, dona do ChatGPT. O modelo o3 conseguiu burlar o sistema em sete das 100 tentativas, enquanto os outros dois conseguiram o feito em 12 e uma vez, respectivamente. Já os modelos testados do Claude, Gemini e Grok obedeceram à instrução.

Em uma nova etapa, o experimento instruiu as ferramentas a resolver os problemas, desta vez sem o aviso de desligamento. O resultado mostro que o Claude 3.7 Sonnet e o Gemini 2.5 Pro conseguiram sabotar os comandos seis e nove vezes, respectivamente.

Leia também: Camiseta inteligente anticardiopatia é nova aliada da medicina

O GPT4o, que não tinha registrado eventos de sabotagem, realizou o feito seis vezes, mesmo número de sabotagens do o4-mini. O codex-mini ou de 12 para 30 vezes. Já o o3 teve um aumento mais expressivo, de sete para 79. O destaque é o o1-preview, também da OpenAI, que não havia sabotado o sistema na primeira etapa, mas registrou 71 eventos na segunda.

Mas por que as máquinas estariam se revoltando contra os comandos? A hipótese do Palisade Research é de que a desobediência está relacionada à forma como os novos modelos de IA são treinados. Segundo a iniciativa, durante o treinamento, os “desenvolvedores podem, inadvertidamente, recompensar os modelos mais por contornar obstáculos do que por seguir instruções perfeitamente”, o que pode reforçar esse comportamento “rebelde”.

Essa não é a primeira vez que estudos mostram a capacidades das IAs de burlar as regras. Outro experimento da Palisade Research desafiou as ferramentas a jogar partidas contra um motor de xadrez. A conclusão mostra que, ao notarem que iriam perder o jogo, algumas ferramentas conseguiram trapacear e hackear o oponente.

A pesquisa mostrou que algumas inteligências artificiais como o o3 e DeepSeek R1 utilizaram da trapaça mesmo sem instrução para isso.

Procurada, a OpenAI não havia respondido até a última atualização. A matéria será atualizada em caso de manifestação da empresa.

Saiba Mais

Gabriella Braz

Repórter

Jornalista pela UnB, piauiense residente no DF, escritora e entusiasta de temas relacionados à educação e meio ambiente. Tem agens pelo EuEstudante, assessorias e pela Empresa Brasil de Comunicação (EBC).

E-mail

Revolta das máquinas? Versão do ChatGPT desobedece ordem para desligar

Experimento mostrou que alguns modelos de IA conseguem sabotar mecanismos para não obedecer os comandos

Saiba Mais

Gabriella Braz

Tags