ARC@ORU: Litar du på din Large Language Model?

21 oktober 2025 13:15 – 14:30 Visual Lab, ARC, eller digitalt via Zoom

ARC@ORU.

I dagens ARC@ORU-seminarium presenterar Matteo Gioele Collu de sårbarheter som möjliggör så kallade indirect prompt injection-attacker – där skadliga instruktioner göms i externt innehåll och sedan omedvetet utförs av stora språkmodeller.

  • Värd: Alberto Giaretta, biträdande lektor i datavetenskap och ställföreträdande föreståndare för ARC
  • Enhet / forskningsområde: Datavetenskap
  • Föreläsare: Matteo Gioele Collu, doktorand vid universitetet i Padua
  • Tid: 21 oktober, kl. 13.15–14.30

ARC@ORU: Litar du på din Large Language Model? En introduktion till indirekt prompt injection

Om seminariet

I den här föreläsningen presenterar Matteo Gioele Collu de sårbarheter som möjliggör så kallade indirect prompt injection-attacker – där skadliga instruktioner göms i externt innehåll och sedan omedvetet utförs av stora språkmodeller.

För att visa hur dessa attacker kan se ut tar han upp två fallstudier: tävlingen LLMail Inject, där deltagarna utvecklade kreativa adversariella attacker, samt ett injektionsscenario riktat mot granskningsprocessen inom akademisk publicering.

Om föreläsaren

Matteo Gioele Collu är doktorand vid universitetet i Padua, Italien, med specialisering i skärningspunkten mellan Explainable AI (XAI) och säkerheten hos stora språkmodeller (LLM). Hans forskning fokuserar på adversariella attacker mot LLM:er, särskilt nya strategier som rollspelsbaserad misalignment och indirekt prompt injection.

Han är medgrundare av CTF-laget LL_corsairs, som placerade sig på femte plats i Microsofts tävling LLMail Inject. I sitt nuvarande arbete undersöker han varför LLM-modeller misslyckas under adversariella angrepp, med målet att stärka både robusthet och tolkbarhet.

--

In English:

ARC@ORU: Do you trust your Large Language Model? An introduction to Indirect Prompt Injection

About the seminar

In this talk, I will introduce the vulnerabilities that enable indirect prompt injection attacks, where malicious instructions are hidden in external content and unknowingly executed by large language models.

To illustrate the risks, I will present two case studies: the LLMail Inject competition, which demonstrated creative adversarial attacks, and an injection scenario targeting the peer review process.

Bio

Matteo Gioele Collu is a PhD candidate at the University of Padova, Italy, specializing in the intersection of Explainable AI (XAI) and the security of Large Language Models (LLMs). His research addresses adversarial attacks in LLMs, focusing on novel attack strategies such as role-playing based misalignment and indirect prompt injection.

He is also the co-founder of the CTF team LL_corsairs, which achieved 5th place in Microsoft’s LLMAIL-Inject competition. His current work focuses on understanding the underlying reasons why LLMs fail under adversarial attacks, with the goal of advancing both the robustness and interpretability of these models.

Registration for ARC@ORU - Do you trust your Large Language Model?

I am participating:

GDPR

By submitting, I consent to Örebro University processing the personal data I have entered in the registration form, for the purpose of event administration and for as long as the event is being administered. You may request that any data provided be changed or deleted by contacting carolina.wittenfelt@oru.se.

More information on how Örebro University handles personal data can be found on the Processing of personal data page at Örebro University.

I understand and give my consent to Örebro University processing my personal data in line with the purpose of the event and in accordance with the data protection legislation in force.