Språkmodeller lär sig ställa rätt frågor med QuestBench

Stora språkmodeller (LLM) blir allt mer en del av vår vardag. Samtidigt står de inför ett problem: att klara sig utan komplett information. För att möta detta har Google DeepMind tagit fram QuestBench – ett nytt test som mäter hur bra modeller är på att hitta och efterfråga saknad information.

Vad är QuestBench?

QuestBench sätter språkmodeller på prov i situationer där viktig information saknas. Till skillnad från tidigare tester, som förutsätter att all data finns från början, tvingar QuestBench modellerna att vara aktiva och ställa rätt frågor för att lösa problemet.

Testet omfattar fyra huvudkategorier:

Logic-Q: Logiska resonemangsuppgifter där en viktig pusselbit saknas.
Planning-Q: Planeringsproblem där utgångsläget inte är helt känt.
GSM-Q: Grundskolematematik med en borttappad variabel.
GSME-Q: Ekvationsproblem som bygger vidare på GSM-Q.

Genom dessa utmaningar får vi en bättre bild av hur flexibla och frågvisa modeller verkligen är.

Hur klarar sig dagens språkmodeller?

Resultaten från QuestBench visar en tydlig trend. Modeller som GPT-4o och Claude 3.5 Sonnet hanterar matematiska problem relativt väl. Däremot kämpar de betydligt mer med logik- och planeringsuppgifter där informationen inte är komplett.

Detta pekar på ett viktigt utvecklingsområde: om vi vill att språkmodeller ska fungera i verkligheten, måste de bli bättre på att upptäcka och efterfråga saknade bitar.

Därför är det viktigt att förstå underspecificerade problem

I verkliga livet är det sällan vi får all information serverad på silverfat. Istället behöver vi ofta ställa rätt frågor för att fylla i luckorna. På samma sätt måste framtidens språkmodeller kunna agera aktivt när något saknas.

QuestBench tar ett viktigt steg i rätt riktning genom att testa modeller på så kallade Constraint Satisfaction Problems, där informationen är otydlig eller gömd.

Nästa steg: smartare och mer nyfikna AI-system

Resultaten från QuestBench visar att vi behöver bygga språkmodeller som inte bara svarar – utan också frågar. Modeller som aktivt söker efter saknad information kan bli mycket mer robusta och användbara i riktiga applikationer.

För den som vill gräva djupare finns QuestBenchs kodbas och datagenerering öppet tillgängliga på GitHub. Detta öppnar dörren för ännu fler forskare och utvecklare att förbättra hur AI löser verkliga problem.

Läs mer om AI och artificiell intelligens här