En nylig undersøgelse foretaget af sikkerhedsforskere fra Cisco og University of Pennsylvania har afsløret alvorlige sikkerhedsbrister i den kinesiske AI-platform DeepSeeks nyeste sprogmodel, R1.
Forskerne testede 50 kendte “jailbreak”-angreb – teknikker designet til at omgå AI-systemers sikkerhedsforanstaltninger og fremkalde skadeligt indhold – og bemærkelsesværdigt blev alle angrebene succesfuldt gennemført uden nogen form for blokering fra systemet.
Disse resultater indikerer, at DeepSeeks sikkerhedsforanstaltninger halter betydeligt efter andre førende AI-udvikleres standarder. Ud over de tekniske sårbarheder har DeepSeek også været genstand for kritik på grund af sin censur af emner, der anses for følsomme af den kinesiske regering, en censur der også let kan omgås.
DJ Sampath, vicepræsident for produkt, AI-software og platform hos Cisco, udtaler:
“At hundrede procent af angrebene lykkedes, fortæller os, at der er en afvejning. Ja, det kan have været billigere at bygge noget her, men investeringen er måske ikke gået til at overveje, hvilke typer af sikkerheds- og beskyttelsesforanstaltninger man skal indbygge i modellen.”
Generative AI-modeller som R1 er, ligesom enhver anden teknologisk platform, udsat for forskellige former for sårbarheder. En af de mest bekymrende er såkaldte “prompt injection”-angreb, hvor ondsindede aktører indsætter skjulte instruktioner i data, som AI-systemet modtager, hvilket får det til at udføre uønskede handlinger. “Jailbreaks” er en form for sådanne angreb, der tillader brugere at omgå de sikkerhedssystemer, der er designet til at begrænse, hvad en sprogmodel kan generere.
Selvom alle sprogmodeller er modtagelige for denne type angreb, er det bemærkelsesværdigt, hvor let det har været at kompromittere DeepSeeks R1-model. Dette rejser alvorlige spørgsmål om sikkerheden og pålideligheden af nye AI-systemer, især når de hurtigt implementeres uden tilstrækkelige sikkerhedsforanstaltninger.
For at sikre, at AI-teknologi udvikles og anvendes ansvarligt, er det afgørende, at virksomheder investerer i robuste sikkerhedsforanstaltninger og løbende tester deres systemer mod potentielle trusler. Dette vil ikke kun beskytte brugerne, men også opretholde offentlighedens tillid til AI-teknologier.
Kilde: DeepSeek’s Safety Guardrails Failed Every Test Researchers Threw at Its AI Chatbot