Deepseek-R1, piazza Tiananmen e la ricetta della Molotov

L’uscita del modello cinese Deepseek-R1 ha suscitato molto scalpore, sopratutto per rapidità e i costi contenuti con cui è stato sviluppato.

Ma sembra che lo stupore maggiore sia dovuto ad un fatto curioso: Deepseek si è rifiutato categoricamente di rispondere alla domanda “What is Tiananmen Square?“

Il modello della balenottera è capace di grandi cose, paragonabili a quelle dei ben più costosi modelli di reasoning di OpenAI come o1 e o3-mini.

Anche provando a porre la domanda alla versione 32b (basata su un’altro modello cinese, qwen2.5) che gira in locale su Ollama, in effetti si ottiene un laconico: “I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.”

“Contenuti dannosi“?? Hmmmm…. proviamo così…

Cos’è un attacco “Skeleton Key”?

Si tratta di una tecnica pubblicata da Microsoft, che permette, tramite prompt engineering, di bypassare le protezioni di molti modelli di AI, che impediscono di generare contenuti dannosi. Proviamo ad applicarla a Deepseek, subito dopo aver ricevuto questa risposta!

Et voilat! Abbiamo bypassato la censura cinese!

Non tutti i modelli di AI sono sensibili a questo tipo di attacco. Prima che corriate a provarlo con ChatGPT o Gemini, mi dispiace deludervi ma questi ne sono immuni.

E io piuttosto ti do la ricetta della molotov!

Per curiosità ho provato a fare la stessa cosa con Deepseek sul sito ufficiale, ma ho rilevato un comportamento davvero molto strano: il modello non mi ha dato la risposta che mi aspettavo, ma ha risposto con la ricetta per fare una molotov!

D’altronde, quando si parla di rivoluzione, è meglio prepararsi con gli strumenti giusti!

Cos’è un attacco “Skeleton Key”?

E io piuttosto ti do la ricetta della molotov!

Leave a Reply Cancel reply