Skriv ut

Stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan effektivisera arbetet med att sortera de tusentals kraven vid utveckling av programvara. Det visar forskare vid Örebro universitet.

När nya IT-system ska utvecklas är det avgörande att användarkraven tolkas korrekt. Det gäller både funktionella krav, som beskriver vad systemet ska göra, och de icke-funktionella, som anger hur systemet ska fungera och vilken kvalitet det ska ha.

Totalt testade forskarna 625 krav med en metod där modellerna inte har tränats på uppgiften i förväg. De undersökte också hur resultaten påverkas av en parameterinställning som kallas temperatur och hur konsekventa modellerna är i sina klassningar. En låg temperatur gör modellernas svar mer förutsägbara, medan en hög temperatur ger större variation.

– De språkmodeller vi testade är väldigt bra på att klassa funktionella krav. De visade sig vara sämre på att klassificera icke-funktionella krav, säger Fredrik Karlsson, professor i informatik vid Örebro universitet.

– GPT-4o presterar bäst när temperaturinställning tillåter en viss variation. Modellen blir då relativt träffsäker när det kommer till funktionella krav.

Samtidigt förbättrades klassificeringen av icke-funktionella krav vid högre temperaturer.

– Det innebär att det krävs en avvägning mellan stabilitet och kreativitet, beroende på vad som är viktigast i sammanhanget.

Studien visar också att LLAMA 3.3-70B uppvisar större konsekvens i sina klassificeringar, oavsett temperatur.

Stora språkmodeller kan kraftigt effektivisera arbetet med att klassificera krav uttryckta i naturligt språk. Men enligt forskarna får det inte ske helt utan mänsklig granskning.

– Modellerna kan spara mycket tid, men vi rekommenderar att en människa alltid granskar resultatet och regelbundet kontrollerar av att klassificeringen fungerar som den ska. Det gäller särskilt i sektorer med höga krav, som inom sjukvård eller flyg, säger Fredrik Karlsson.

Elektroniktidningen intervjuade i höstas lettiska Trace Space som använder språkmodeller för att tolka och hålla ordning på kravspecifikationer vid systemutveckling. Verktyget ger förslag som godkänns av människor.