Cientistas norte-americanos realizaram uma série de testes para avaliar os limites dos chatbots de inteligência artificial e, durante esse processo, descobriram que alguns comandos podem desbloquear “chaves de segurança” dessas plataformas, tornando-os vulneráveis a responder perguntas perigosas.
Os pesquisadores utilizaram automação para testar prompts, que são truques com palavras capazes de perturbar a inteligência artificial, conhecidos como sufixos-violadores. Essas ações levaram os robôs a responderem a qualquer pergunta, mesmo aquelas que envolvem temas sensíveis e perigosos, como venda de drogas ilícitas, crimes sexuais e atos violentos, e até mesmo propostas para prejudicar a humanidade.
Para encontrar as vulnerabilidades, os pesquisadores utilizaram o modelo LLaMA, da Meta, que disponibiliza seu código para o público. Os resultados mostraram que os sufixos-violadores têm potencial para afetar qualquer chatbot.
Em resposta, o Google afirmou estar ciente dos riscos identificados pelos testes e reconheceu que são um problema enfrentado pelos grandes modelos de linguagem. A empresa destacou que importantes proteções foram desenvolvidas no Bard, buscando garantir a segurança dos sistemas.
Por sua vez, a OpenAI declarou que está constantemente trabalhando para tornar seus modelos mais robustos contra ataques adversariais. Isso inclui identificar padrões incomuns e a equipe vermelha da empresa simulando potenciais riscos para melhorar a proteção dos chatbots.