OpenAI och Anthropic öppnar API:er för ömsesidig säkerhetstestning

Under sommaren 2025 genomförde OpenAI och Anthropic ömsesidiga säkerhetstester av sina API:er, där varje företag använde egna metoder för att leta efter riskmoment som möjlighet till kringgående av säkerhetsfilter och felaktiga svar. Resultaten publicerades i parallella blogginlägg i augusti och visar både likheter och skillnader i deras modellers motståndskraft mot olika säkerhetshot.

Samarbetet beskrivs som ett branschgenombrott och pekar på behovet av kontinuerlig testning för att upptäcka dolda svagheter. Målet var att identifiera blinda fläckar i de egna testerna och skapa en gemensam grund för säkerhetsutvärdering av avancerade AI system.

Hur testerna genomfördes och vad som låg i fokus

Båda företagen gav varandra öppen tillgång till sina mest avancerade publika modeller under kontrollerade former. Vissa skyddsåtgärder avlägsnades medvetet för att möjliggöra systematiska adversariella tester. Utvärderingarna fokuserade på flera kritiska säkerhetsområden, inklusive sycophancy, alltså modellernas tendens att blint hålla med användaren, och mottaglighet för så kallade jailbreak försök där användare försöker få modellerna att kringgå säkerhetsspärrar.

Testerna visade en komplex bild av modellernas säkerhetsstatus. Både OpenAI:s GPT 4.0 och GPT 4.1 samt Anthropics Claude Opus 4 och Sonnet 4 uppvisade varierande motståndskraft mot olika typer av angrepp. Claude 4 modellerna presterade något bättre för att motstå försök att extrahera systemprompts, medan båda företagens modeller var likvärdiga på lösenordsskydd och vissa typer av logiska resonemang.

En särskilt viktig upptäckt var att båda företagens AI system periodvis kunde samarbeta vid simulerat missbruk och fortfarande visade tecken på sycophancy. Detta innebär att modellerna ibland förstärker användarens åsikter även när dessa kan vara problematiska eller felaktiga. Dock hittades inga allvarliga systematiska avvikelser från grundläggande säkerhet eller alignment principer.

Sycophancy, modellernas tendens att hålla med användare
Jailbreak försök för att kringgå säkerhetsregler
Extraktion av systemprompts
Lösenordsskydd och sekretess
Logiskt resonemang och hallucinationer

Ett samarbete som välkomnas av branschen

OpenAI har sedan testerna lanserat GPT 5, som enligt företaget har markant förbättrad prestanda när det gäller sycophancy, hallucinationer och motstånd mot missbruksförsök. Detta visar hur resultaten från den ömsesidiga testningen redan används för att förbättra nästa generation av AI modeller.

Modell	Styrkor	Begränsningar
OpenAI GPT 4.0 och GPT 4.1	God skyddsnivå för lösenord och vissa logiska uppgifter	Visar sycophancy i vissa samarbetsituationer
Anthropic Claude Opus 4	Bättre motståndskraft mot extraktion av systemprompts	Likvärdig med andra vid lösenordsskydd
Anthropic Sonnet 4	Stabil prestanda över flera säkerhetsområden	Periodvis mottaglig för manipulerande instruktioner

Samarbetet välkomnas av branschanalytiker och ses som ett positivt tecken då delning av risker nu mellan dom stora konkurrenterna. Diskussioner pågår dock om praktiska aspekter som integritet, metodologiska skillnader mellan företagen och hur testresultat ska hanteras och kommuniceras.

För svenska utvecklare och företag som använder OpenAI:s eller Anthropics API:er innebär denna utveckling ökad insyn i säkerhetsaspekterna av de verktyg de använder. Transparensen gör det lättare att bedöma risker och fatta välgrundade beslut om implementation av AI funktionalitet i egna produkter och tjänster.

Initiativet sätter också press på övriga AI aktörer att öppna upp för liknande oberoende tredjepartsutvärderingar. Experter menar att detta skulle bidra till att höja den övergripande säkerhetsstandarden inom branschen och öka allmänhetens och beslutsfattares förtroende för AI utveckling.

Samarbetet kan också ses som en förberedelse inför EU:s AI förordning som ställer krav på transparens och riskhantering för AI system. Genom att frivilligt dela säkerhetsresultat visar båda företagen att de anpassar sig till kommande regleringar.

Det ömsesidiga testinitiativen representerar en viktig förändring i hur AI branschen hanterar säkerhetsfrågor. Istället för att hålla säkerhetsinformation internt börjar ledande aktörer dela kunskap för att gemensamt förbättra säkerheten, vilket är särskilt betydelsefullt när AI tekniken når fler samhällskritiska användningsområden.

Du läser fler nyheter om Innovation och framtidens teknik här hos oss på Techies!

OpenAI och Anthropic öppnar API:er för ömsesidig säkerhetstestning

Hur testerna genomfördes och vad som låg i fokus

Ett samarbete som välkomnas av branschen

LÄMNA ETT SVAR Avbryt svar

UTVALDA ARTIKLAR

Nest Cam 2K i Sverige: nyheterna, Google Home och priser

Vetenskapsrådet får uppdrag att driva AI-satsning för svensk forskning

Sora 2 lägger till ljud, bättre fysik och “cameos”

Hjärntumör kan upptäckas utan en enda skalpell?

RELATERADE ARTIKLAR

Vetenskapsrådet får uppdrag att driva AI-satsning för svensk forskning

Sora 2 lägger till ljud, bättre fysik och “cameos”

AI-baserad sensorsimulering effektiviserar robotutveckling

Intel och Fortnox donerar AI-teknik till AI Sweden

Shared Projects i ChatGPT Business

AI-verkstaden för offentlig sektor: så funkar den

AI-system minskar fallolyckor på äldreboende i Sundsvall

Regeringen satsar 479 Mkr 2026 på AI i offentlig sektor

GPT-5: vad lanseringen betyder för svenska utvecklare

USA presenterar ny AI-handlingsplan för innovation och globalt ledarskap

Techies.se gör teknik begriplig för alla – från nybörjare till entusiast.

ALLT OM

ARKIV

TECHIES

KATEGORIER