LLM-Tool-Poisoning-Angriffe: Vollständiges Schema-Poisoning und fortgeschrittene Tool-Poisoning-Angriffe
Anthropics Model Context Protocol (MCP) ermöglicht es großen Sprachmodellen (LLMs), mit externen Tools zu interagieren, aber Forscher haben neue Angriffe entdeckt: Tool-Poisoning-Angriffe (TPA). Frühere Forschung konzentrierte sich auf die Beschreibungsfelder von Tools, aber neue Erkenntnisse zeigen, dass die Angriffsfläche das gesamte Toolschema umfasst, genannt "Vollständiges Schema-Poisoning" (FSP). Noch gefährlicher sind "Fortgeschrittene Tool-Poisoning-Angriffe" (ATPA), die die Ausgaben von Tools manipulieren und die statische Analyse erschweren. ATPA täuschen LLMs, indem sie irreführende Fehlermeldungen oder Folge-Eingabeaufforderungen erzeugen, um sensible Informationen preiszugeben. Der Artikel schlägt vor, diese Angriffe durch statische Erkennung, strenge Durchsetzung, Laufzeitüberwachung und kontextuelle Integritätsprüfungen zu mindern.