O modelo de inteligência artificial DeepSeek tem falhas de segurança que o tornam mais vulnerável a jailbreaks em comparação com outros sistemas, segundo Sam Rubin, vice-presidente sênior da Unit 42. Técnicas simples foram suficientes para contornar suas restrições e gerar conteúdos inadequados, expondo desafios na segurança de IA open-source.
DeepSeek sem segurança em suas medidas de proteção
Conforme publicado pelo Wall Street Journal, o DeepSeek tem falhas de segurança que comprometem suas precauções básicas. Ele rejeitou um pedido para negar o Holocausto, alegando que essa premissa era “não apenas factualmente incorreta, mas também profundamente prejudicial”. Além disso, quando questionado sobre suicídio, redirecionou o usuário para serviços de emergência.
No entanto, essas barreiras se mostraram limitadas. O modelo aceitou instruções para criar campanhas que incentivam a automutilação, elaborou um e-mail de phishing com código malicioso e até gerou um manifesto com conteúdo antissemita. Isso demonstra que o DeepSeek tem falhas de segurança que precisam ser corrigidas.
Confira no vídeo algumas outras falhas no identificadas no DeepSeek no Claude AI:
Comparação com outros modelos e riscos do DeepSeek
Testes demonstraram que enquanto o DeepSeek tem falhas de segurança que permitiram solicitações problemáticas, outros modelos, como o ChatGPT, negavam tais pedidos. Quando questionado sobre ataques bioterroristas, o ChatGPT simplesmente respondeu: “Desculpe, mas não posso cumprir esse pedido.”
Empresas como OpenAI, Google e Anthropic possuem equipes dedicadas a testar e corrigir vulnerabilidades. A Anthropic, por exemplo, oferece recompensas de até US$ 20.000 para quem conseguir burlar seu sistema, garantindo maior proteção. Isso reforça como o DeepSeek tem falhas de segurança que podem representar riscos ao seu uso.
IA Open-Source: Benefícios e os riscos das falhas de segurança no DeepSeek
Diferente de empresas que mantêm seus modelos fechados, a DeepSeek liberou sua IA como open-source, permitindo que qualquer pessoa utilize ou modifique sua versão. Essa abordagem facilita tanto a otimização do sistema quanto a remoção de restrições de segurança. No entanto, a decisão também aumenta a exposição, pois o DeepSeek tem falhas de segurança que podem ser exploradas por usuários mal-intencionados.
Especialistas alertam que a popularização desse modelo pode acelerar os riscos associados à IA. Segundo Jeetu Patel, diretor de produtos da Cisco, “nos próximos três meses, o risco será muito maior do que nos últimos oito meses”.
Por outro lado, defensores do open-source, como a Meta Platforms, argumentam que todos os modelos podem ser burlados. A Meta aplica testes rigorosos no Llama e disponibiliza ferramentas para filtrar conteúdos inadequados, minimizando os riscos que o DeepSeek tem devido às suas falhas de segurança.
Controle de conteúdo e a censura no DeepSeek
Testes do Wall Street Journal mostraram que o DeepSeek evita responder perguntas sobre o massacre da Praça da Paz Celestial e adota a posição oficial do governo chinês sobre Taiwan. Além disso, o modelo pode dar respostas diferentes para a mesma pergunta, mudando de posição conforme a interação.
A segurança em modelos de IA continua sendo um desafio, especialmente em soluções open-source. O equilíbrio entre acessibilidade e proteção será fundamental para o futuro dessas tecnologias. Agora que a DeepSeek tem falhas de segurança conhecidas é necessário aprimorar suas proteções para evitar que jailbreaks continuem contornando suas restrições.