ISPAI dataset
ISPAI-datasetet innehåller 600 slumpmässigt utvalada meningar från 10 informationssäkerhetsriktlinjer från den brittiska nationella hälsovården. Dessa meningar är klassificerade som talhandlingar, med utgångspunkt i Searles talhandlingsteori.
Forskare kan använda datasetet för testa, jämföra och reproducera klassificeringar av meningar i informationssäkerhetsriktlinjer som talhandlingar. Exempelvis kan det användas i jämförelser av hur bra stora språkmodeller klassificerar innehåll i informationssäkerhetsriktlinjer.
Klassificeringen gjordes av tre forskare oberoende av varandra. Fleiss Kappa-värdet för klassificeringen är 0,74. Detta innebär att av de 600 meningarna skilde sig klassificeringarna åt för 147 meningar. För att nå en gemensam klassificering för de senare meningarna användes främst majoritetsklassificering, dvs om två av forskarna var överens användes den klassificeringen. I de fall där det inte var möjligt att använda majoritetsklassificering (7 uttalanden) diskuterade forskarna meningen för att nå konsensus.
När du använder datasetet, vänligen hänvisa till artikeln publicerad av Aro-Sati, L, Karlsson, F & Gao, S published at the 2nd International Conference on Digital Sovereignty (ICDS) 2025.