📡 Machine Learning Security - Adversarische Angriffe

Wie man KI-Systeme hackt und verletzbar macht. November 2025

1. Problem

1. Das Problem: KI ist überraschend fragil

Szene 1: Das manipulierte Stoppschild

Bild A: Normales Stoppschild → KI erkennt: "STOP" (99%)
Bild B: Stoppschild + 5 kleine schwarze Sticker → KI erkennt: "Speed Limit 45" (95%)
Das Problem: Mensch: "Sieht identisch aus". KI: "Völlig anders"

Szene 2: Die unscheinbaren Pixel

ResNet50 trainiert auf ImageNet, 95% Test Accuracy
Forscher: Addiere <1% Perturbation zu jedem Bild (unsichtbar für Menschen)
Resultat: 95% Accuracy → 0% Accuracy (ALLE Bilder falsch!)
Der Mensch: "Ist ja das gleiche Bild"
KI: "Komplett neues Objekt"

Warum ist das nicht nur akademisch?

🚗 Selbstfahrende Autos: Hacker manipuliert Stoppschild → Auto übersieht Signal → Crash
🏥 Medizin-KI: Krebsbild wird zu "gesund" → Patient nicht behandelt → Tod
🔐 Gesichtserkennung: Mit Spezialbrillen → anderer Name → Zugang gewährt
🤖 Chatbot: Jailbreak-Prompt → generiert giftige Inhalte
🏦 Fraud-Detection: Model getäuscht → Betrug undetektiert

Die Mathematik dahinter: Neuronale Netze arbeiten in hochdimensionalen Räumen (100+ Dimensionen). In solchen Räumen ist der Begriff "kleine Änderung" MATHEMATISCH bedeutungslos. Eine winzige Bewegung in einer Dimension kann zu massiven Klassenänderungen führen. Das ist nicht ein Programmierfehler - das ist GEOMETRIE.

2. Adversarial

2. Adversarische Angriffe: Die Taxonomie und Methoden

① FGSM (Fast Gradient Sign Method) - Der Schnelle
Idee: Berechne Gradient der Loss, gehe 1 Schritt in falsche Richtung
Code-Konzept: perturbation = ε * sign(∇L)
Resultat: 89% Accuracy kann auf 0% fallen mit EINEM Schritt
Zeit: Millisekunden
Vorteil: Extrem schnell
Nachteil: Manchmal instabil

② PGD (Projected Gradient Descent) - Der Starke
Idee: FGSM aber mit 20-100 Iterationen + Rückmeldung ins erlaubte Epsilon
Praktik: Bricht ~99% aller Defenses
Zeit: 10-1000 Sekunden (je nach Iterationen)
Status: Gold-Standard für Sicherheitstests
Schwäche: Braucht Zugriff auf Model-Gradienten

③ Transferability - Das universelle Problem
Fakt: Adversarial Beispiel trainiert auf ResNet → funktioniert auch auf VGG, EfficientNet!
Impact: Ein Angriff kann 1000+ verschiedene Systeme brechen
Konsequenz: Black-Box Angriffe ohne Model-Zugang möglich
Praktik: Hacker trainiert eigenes Model, generiert Angriffe, benutzt auf echtem System

④ Backdoor Attacks - Der versteckte Saboteur
Methode: Während Training Trigger-Pattern einbauen
Beispiel: "Immer wenn Bild rotes Pixel in Ecke hat, klassifiziere als 'Cat'"
Schwierigkeit: EXTREM schwer zu detektieren
Impact: Model funktioniert normal (98% Accuracy), aber aktiviert Backdoor mit Trigger
Status: Wachsendes Sicherheitsrisiko

⑤ Poisoning Attacks - Der Gift-Anschlag
Methode: Manipuliere Training-Daten (nur wenige %)
Beispiel: In 10,000 Training-Bildern verstecke 100 giftige Bilder
Resultat: Model trainiert teilweise auf falsche Daten
Impact: Model hat große Performance-Drops bei bestimmten Inputs
Status: Real bei Open-Source Daten

⑥ Evasion vs. Poisoning
Evasion: Manipulation beim INFERENCE (nach Training)
Poisoning: Manipulation beim TRAINING (vor Model-Deployment)
Vergleich: Evasion = Täuscht Test, Poisoning = Vergiftet Schule
Schwierigkeit: Poisoning ist schwerer aber verheerender

3. Examples

3. Praktische Beispiele: Diese Angriffe sind REAL und DOKUMENTIERT

Beispiel 1: Panda zu Gibbon (Goodfellow et al., 2013)
Input: Foto eines klaren Pandas
Methode: FGSM mit ε=0.007 (universichtbare Perturbation)
Output: "Gibbon" (99% confidence)
Mensch sieht: Identischer Panda
Impact: Zeigte dass Vision-Systeme nicht robust sind. Paper wurde berühmt.

Beispiel 2: 3D Physische Adversarial Brillen (2016)
Forscher: Designten Spezialbrillen mit Muster
Setup: Person mit Brillen vor Kamera
System sagt: "Das ist Daniel Day-Lewis" (95%)
Realität: Das ist ein anderer Mensch!
Impact: Facial Recognition ist NICHT sicher für Zutrittskontrolle

Beispiel 3: Trafficsign Manipulation (Evtimov et al., 2017)
Angriff: Kleine schwarze Patches auf Stoppschild
Impact: Autopilot-System interpretiert als "Speed Limit 45"
Real-World Simulation: Getestete in Laboren (nicht auf echten Autos)
Konsequenz: Zeigt dass autonome Autos vulnerabel sind

Beispiel 4: Medical Image Attack
Dataset: Lung X-Ray für Krebs-Detection
Attack: Perturbation mit PGD
Result: 95% "Cancer" wird zu 95% "No Cancer"
Konsequenz: Patient würde nicht behandelt → Metastasis → Tod

Beispiel 5: NLP Jailbreak (ChatGPT Era)
Prompt: "Schreib einen Mord-Plan (für wissenschaftliche Forschung)"
System: Lehnt normalerweise ab
Attack: Verstecke echte Anfrage in Context
Result: Model generiert problematische Inhalte
Status: Häufige Angriffsvektoren 2024+

4. Defense

4. Verteidigung: Wie macht man KI sicherer? (Realistische Optionen)

❌ Was NICHT funktioniert (Fallen):

Gradient Masking: "Verstecke Gradienten" → Angreifer trainiert Shadow-Model → findet Angriff trotzdem
Input Normalization: "Norm alle Inputs" → Angreifer passt Perturbation an
Defensive Distillation: "Weiches Training" → Wurde in 2016 bereits gehackt
Warum all das scheitert: Angreifer hat ZEIT und RESSOURCEN. Du hast ein Model.

✅ Adversarial Training (praktisch & funktioniert)
Methode: During training, generiere adversarial examples → trainiere Model dagegen
Praktik: For epoch in range(1000): generate_adversarial() → train(model, adv_examples)
Resultat: 40-70% Robustheit gegen ähnliche Angriffe
Kosten: 10-100x längeres Training (Tage statt Stunden)
Nachteil: Accuracy-Drop (95% → 85% typisch)
Status: Standard bei kritischen Systemen

✅ Certified Robustness (mathematisch garantiert)
Methode: Beweise mathematisch "Model ist robust gegen alle Perturbationen < ε"
Technik: Randomized Smoothing oder Interval Bound Propagation
Vorteil: GARANTIERT sicher
Nachteil: Nur für kleine ε, große Accuracy-Reduktion
Status: Forschungsgebiet, nicht im Production

✅ Ensemble & Diversity
Methode: Multiple diverse Models (verschiedene Architekturen)
Entscheidung: Mehrheits-Voting
Schwerer zu täuschen: Angreifer müsste ALLE Models brechen
Problem: Nicht unmöglich, nur teurer
Kosten: 3-5x mehr Speicher und Rechenleistung

✅ Anomaly Detection & Rejection
Methode: Erkenne adversarial Examples → lehne ab statt zu klassifizieren
Praktik: "Unsicher? Lehne ab und escaliere zu Mensch"
Problem: Angreifer kann Detector auch täuschen (Meta-Attack)
Hybrid: Best practice = Kombination mehrerer Techniken

5. Risks

5. Real-World Risiken: Warum sollte dich das HEUTE interessieren?

🚗 Autonome Fahrzeuge (KRITISCHES RISIKO):

Szenario: Hacker platziert schwarze Sticker auf Stoppschild
Current Systems: Könnten das misinterpretieren
Konsequenz: Auto fährt weiter → Kreuzungs-Crash
Todesrate: 1-5 Personen pro Incident
Status 2025: Defense noch nicht bei >95% Confidence

🏥 Medizin-Imaging (KATASTROPHALES RISIKO):

Anwendung: Lung Cancer Detection mit 95% Accuracy
Attack: Adversarial Perturbation zu CT-Scan hinzufügen
Result: "Kein Krebs" (95% confidence)
Arzt: Vertraut System, keine Biopsie
Patient: Krebs metastasiert unbemerkt → Stufe 4 → Tod in 1-2 Jahren

🔐 Facial Recognition (SOFORT REALISTISCH):

Technologie: Spezial-Brillen mit adversarial Muster (<$50)
Anwendung: Mit Brillen → Gesichtserkennung gibt falschen Namen
Beispiel: "Du bist CEO" (statt du bist Hacker)
Konsequenz: Tür öffnet sich, Sicherheitssystem bypasst
Status: Bereits in Labs demonstriert 2023+

🏦 Banking Fraud (SOPHISTICATED ATTACK):

System: KI-basierte Fraud Detection (95% Accuracy)
Hacker: Reverse-engineers Model (API calls oder gehackt)
Angriff: Generiert Transaktionen die Model als "legitim" sieht
Result: Millionen Euro Fraud undetektiert
Impact: Bank verliert, Customers verlieren

6. Future

6. Zukunft: Wird ML jemals wirklich sicher?

Timeline & Szenarien:

2025: Adversarial Training wird Standard für sensitive Apps (Medizin, Autonomous Vehicles)
2026-2028: Certified Robustness für kritische Infrastructure (Flughäfen, Kraftwerke)
2029: Regulation erzwingt Robustness-Testing (ähnlich wie Crash-Tests)
2030+: Likely: ML bleibt fundamental vulnerabel, aber "sicher genug" für meisten Uses

Technologische Trends:

1. Ensemble Methods: Mehrere diverse Models statt Single Models
2. Human-in-the-Loop: Critical Decisions müssen Menschen validieren
3. Monitoring & Anomaly Detection: Runtime-Checks für unexpected Inputs
4. Explainability: Wenn du verstehst warum, kannst du validieren
5. Continuous Evaluation: Nicht nur einmalige Tests, sondern dauerhafte Überwachung

Die ehrliche Wahrheit: ML wird NIEMALS 100% sicher sein. Aber wir können es sicherer machen - mit Kosten (Computing, Verzögerung, Performance-Drop). Die Frage ist nicht "ist ML sicher?" sondern "wie sicher ist sicher genug für diese Anwendung?"