måndag, september 8, 2025
ARTIFICIELL INTELLIGENSOpenAI och Anthropic öppnar API:er för ömsesidig säkerhetstestning

OpenAI och Anthropic öppnar API:er för ömsesidig säkerhetstestning

Under sommaren 2025 genomförde OpenAI och Anthropic ömsesidiga säkerhetstester av sina API:er, där varje företag använde egna metoder för att leta efter riskmoment som möjlighet till kringgående av säkerhetsfilter och felaktiga svar. Resultaten publicerades i parallella blogginlägg i augusti och visar både likheter och skillnader i deras modellers motståndskraft mot olika säkerhetshot.

Samarbetet beskrivs som ett branschgenombrott och pekar på behovet av kontinuerlig testning för att upptäcka dolda svagheter. Målet var att identifiera blinda fläckar i de egna testerna och skapa en gemensam grund för säkerhetsutvärdering av avancerade AI system.

Hur testerna genomfördes och vad som låg i fokus

Båda företagen gav varandra öppen tillgång till sina mest avancerade publika modeller under kontrollerade former. Vissa skyddsåtgärder avlägsnades medvetet för att möjliggöra systematiska adversariella tester. Utvärderingarna fokuserade på flera kritiska säkerhetsområden, inklusive sycophancy, alltså modellernas tendens att blint hålla med användaren, och mottaglighet för så kallade jailbreak försök där användare försöker få modellerna att kringgå säkerhetsspärrar.

Testerna visade en komplex bild av modellernas säkerhetsstatus. Både OpenAI:s GPT 4.0 och GPT 4.1 samt Anthropics Claude Opus 4 och Sonnet 4 uppvisade varierande motståndskraft mot olika typer av angrepp. Claude 4 modellerna presterade något bättre för att motstå försök att extrahera systemprompts, medan båda företagens modeller var likvärdiga på lösenordsskydd och vissa typer av logiska resonemang.

En särskilt viktig upptäckt var att båda företagens AI system periodvis kunde samarbeta vid simulerat missbruk och fortfarande visade tecken på sycophancy. Detta innebär att modellerna ibland förstärker användarens åsikter även när dessa kan vara problematiska eller felaktiga. Dock hittades inga allvarliga systematiska avvikelser från grundläggande säkerhet eller alignment principer.

  • Sycophancy, modellernas tendens att hålla med användare
  • Jailbreak försök för att kringgå säkerhetsregler
  • Extraktion av systemprompts
  • Lösenordsskydd och sekretess
  • Logiskt resonemang och hallucinationer

Ett samarbete som välkomnas av branschen

OpenAI har sedan testerna lanserat GPT 5, som enligt företaget har markant förbättrad prestanda när det gäller sycophancy, hallucinationer och motstånd mot missbruksförsök. Detta visar hur resultaten från den ömsesidiga testningen redan används för att förbättra nästa generation av AI modeller.

ModellStyrkorBegränsningar
OpenAI GPT 4.0 och GPT 4.1God skyddsnivå för lösenord och vissa logiska uppgifterVisar sycophancy i vissa samarbetsituationer
Anthropic Claude Opus 4Bättre motståndskraft mot extraktion av systempromptsLikvärdig med andra vid lösenordsskydd
Anthropic Sonnet 4Stabil prestanda över flera säkerhetsområdenPeriodvis mottaglig för manipulerande instruktioner

Samarbetet välkomnas av branschanalytiker och ses som ett positivt tecken då delning av risker nu mellan dom stora konkurrenterna. Diskussioner pågår dock om praktiska aspekter som integritet, metodologiska skillnader mellan företagen och hur testresultat ska hanteras och kommuniceras.

För svenska utvecklare och företag som använder OpenAI:s eller Anthropics API:er innebär denna utveckling ökad insyn i säkerhetsaspekterna av de verktyg de använder. Transparensen gör det lättare att bedöma risker och fatta välgrundade beslut om implementation av AI funktionalitet i egna produkter och tjänster.

Initiativet sätter också press på övriga AI aktörer att öppna upp för liknande oberoende tredjepartsutvärderingar. Experter menar att detta skulle bidra till att höja den övergripande säkerhetsstandarden inom branschen och öka allmänhetens och beslutsfattares förtroende för AI utveckling.

Samarbetet kan också ses som en förberedelse inför EU:s AI förordning som ställer krav på transparens och riskhantering för AI system. Genom att frivilligt dela säkerhetsresultat visar båda företagen att de anpassar sig till kommande regleringar.

Det ömsesidiga testinitiativen representerar en viktig förändring i hur AI branschen hanterar säkerhetsfrågor. Istället för att hålla säkerhetsinformation internt börjar ledande aktörer dela kunskap för att gemensamt förbättra säkerheten, vilket är särskilt betydelsefullt när AI tekniken når fler samhällskritiska användningsområden.

Du läser fler nyheter om Innovation och framtidens teknik här hos oss på Techies!

LÄMNA ETT SVAR

Vänligen ange din kommentar!
Vänligen ange ditt namn här
Captcha verification failed!
Captcha användarpoäng misslyckades. vänligen kontakta oss!

UTVALDA ARTIKLAR

RELATERADE ARTIKLAR

Techies.se gör teknik begriplig för alla – från nybörjare till entusiast.

Vi hjälper dig att utforska framtidens teknik, innovation och digital utveckling. Här hittar du guider, analyser och nyheter som gör det lättare att förstå och använda ny teknik i vardagen.

 

ALLT OM

ARKIV