Språkmodeller kan tolka krav vid mjukvaruutveckling

Författarna till studien om språkmodeller: Shang Gao, Tanja E. Havstorm, Panagiota Chatzipetrou och Fredrik Karlsson, informatikforskare vid Örebro universitet.
Att sortera tusentals krav vid utveckling av programvara är både komplext och tidskrävande. Nu visar forskare vid Örebro universitet att stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan effektivisera arbetet – men att det samtidigt gäller att hitta rätt balans mellan modellernas stabilitet och kreativitet.
Till den vetenskapliga artikeln: How Reliable Are GPT-4o and LLAMA3.3-70B in Classifying Natural Language Requirements?
När nya IT-system ska utvecklas är det avgörande att användarkraven tolkas korrekt. Det gäller både funktionella krav, som beskriver vad systemet ska göra, och de icke-funktionella, som anger hur systemet ska fungera och vilken kvalitet det ska ha.
I en ny studie har Örebroforskare testat hur väl två stora språkmodeller – GPT-4o och LLAMA 3.3-70B – klarar att automatiskt klassificera dessa krav.
– De språkmodeller vi testade är väldigt bra på att klassa funktionella krav. De visade sig vara sämre på att klassificera icke-funktionella krav, säger Fredrik Karlsson, professor i informatik vid Örebro universitet.
Balans mellan precision och variation
Totalt testade forskarna 625 krav med en metod där modellerna inte har tränats på uppgiften i förväg. De undersökte också hur resultaten påverkas av en parameterinställning som kallas temperatur och hur konsekventa modellerna är i sina klassningar. En låg temperatur gör modellernas svar mer förutsägbara, medan en hög temperatur ger större variation.
– GPT-4o presterar bäst när temperaturinställning tillåter en viss variation. Modellen blir då relativt träffsäker när det kommer till funktionella krav, säger Fredrik Karlsson.
Samtidigt förbättrades klassificeringen av icke-funktionella krav vid högre temperaturer.
– Det innebär att det krävs en avvägning mellan stabilitet och kreativitet, beroende på vad som är viktigast i sammanhanget.
Studien visar också att LLAMA 3.3-70B uppvisar större konsekvens i sina klassificeringar, oavsett temperatur.
Kombination av språkmodeller och människa
Stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan kraftigt effektivisera arbetet med att klassificera krav uttryckta i naturligt språk. Men enligt forskarna får det inte ske helt utan mänsklig granskning.
– Modellerna kan spara mycket tid, men vi rekommenderar att en människa alltid granskar resultatet och regelbundet kontrollerar av att klassificeringen fungerar som den ska. Det gäller särskilt i sektorer med höga krav, som inom sjukvård eller flyg, säger Fredrik Karlsson.
Text: Jasenka Dobric
Foto: Privat