📡 Machine Learning Security - Adversarische Angriffe
1. Problem
1. Das Problem: KI ist überraschend fragil
Szene 1: Das manipulierte Stoppschild
Bild A: Normales Stoppschild → KI erkennt: "STOP" (99%)
Bild B: Stoppschild + 5 kleine schwarze Sticker → KI erkennt: "Speed Limit 45" (95%)
Das Problem: Mensch: "Sieht identisch aus". KI: "Völlig anders"
Bild B: Stoppschild + 5 kleine schwarze Sticker → KI erkennt: "Speed Limit 45" (95%)
Das Problem: Mensch: "Sieht identisch aus". KI: "Völlig anders"
Szene 2: Die unscheinbaren Pixel
ResNet50 trainiert auf ImageNet, 95% Test Accuracy
Forscher: Addiere <1% Perturbation zu jedem Bild (unsichtbar für Menschen)
Resultat: 95% Accuracy → 0% Accuracy (ALLE Bilder falsch!)
Der Mensch: "Ist ja das gleiche Bild"
KI: "Komplett neues Objekt"
Warum ist das nicht nur akademisch?
- 🚗 Selbstfahrende Autos: Hacker manipuliert Stoppschild → Auto übersieht Signal → Crash
- 🏥 Medizin-KI: Krebsbild wird zu "gesund" → Patient nicht behandelt → Tod
- 🔐 Gesichtserkennung: Mit Spezialbrillen → anderer Name → Zugang gewährt
- 🤖 Chatbot: Jailbreak-Prompt → generiert giftige Inhalte
- 🏦 Fraud-Detection: Model getäuscht → Betrug undetektiert
Die Mathematik dahinter: Neuronale Netze arbeiten in hochdimensionalen Räumen (100+ Dimensionen). In solchen Räumen ist der Begriff "kleine Änderung" MATHEMATISCH bedeutungslos. Eine winzige Bewegung in einer Dimension kann zu massiven Klassenänderungen führen. Das ist nicht ein Programmierfehler - das ist GEOMETRIE.
2. Adversarial
2. Adversarische Angriffe: Die Taxonomie und Methoden
① FGSM (Fast Gradient Sign Method) - Der Schnelle
Idee: Berechne Gradient der Loss, gehe 1 Schritt in falsche Richtung
Code-Konzept: perturbation = ε * sign(∇L)
Resultat: 89% Accuracy kann auf 0% fallen mit EINEM Schritt
Zeit: Millisekunden
Vorteil: Extrem schnell
Nachteil: Manchmal instabil
Idee: Berechne Gradient der Loss, gehe 1 Schritt in falsche Richtung
Code-Konzept: perturbation = ε * sign(∇L)
Resultat: 89% Accuracy kann auf 0% fallen mit EINEM Schritt
Zeit: Millisekunden
Vorteil: Extrem schnell
Nachteil: Manchmal instabil
② PGD (Projected Gradient Descent) - Der Starke
Idee: FGSM aber mit 20-100 Iterationen + Rückmeldung ins erlaubte Epsilon
Praktik: Bricht ~99% aller Defenses
Zeit: 10-1000 Sekunden (je nach Iterationen)
Status: Gold-Standard für Sicherheitstests
Schwäche: Braucht Zugriff auf Model-Gradienten
Idee: FGSM aber mit 20-100 Iterationen + Rückmeldung ins erlaubte Epsilon
Praktik: Bricht ~99% aller Defenses
Zeit: 10-1000 Sekunden (je nach Iterationen)
Status: Gold-Standard für Sicherheitstests
Schwäche: Braucht Zugriff auf Model-Gradienten
③ Transferability - Das universelle Problem
Fakt: Adversarial Beispiel trainiert auf ResNet → funktioniert auch auf VGG, EfficientNet!
Impact: Ein Angriff kann 1000+ verschiedene Systeme brechen
Konsequenz: Black-Box Angriffe ohne Model-Zugang möglich
Praktik: Hacker trainiert eigenes Model, generiert Angriffe, benutzt auf echtem System
Fakt: Adversarial Beispiel trainiert auf ResNet → funktioniert auch auf VGG, EfficientNet!
Impact: Ein Angriff kann 1000+ verschiedene Systeme brechen
Konsequenz: Black-Box Angriffe ohne Model-Zugang möglich
Praktik: Hacker trainiert eigenes Model, generiert Angriffe, benutzt auf echtem System
④ Backdoor Attacks - Der versteckte Saboteur
Methode: Während Training Trigger-Pattern einbauen
Beispiel: "Immer wenn Bild rotes Pixel in Ecke hat, klassifiziere als 'Cat'"
Schwierigkeit: EXTREM schwer zu detektieren
Impact: Model funktioniert normal (98% Accuracy), aber aktiviert Backdoor mit Trigger
Status: Wachsendes Sicherheitsrisiko
Methode: Während Training Trigger-Pattern einbauen
Beispiel: "Immer wenn Bild rotes Pixel in Ecke hat, klassifiziere als 'Cat'"
Schwierigkeit: EXTREM schwer zu detektieren
Impact: Model funktioniert normal (98% Accuracy), aber aktiviert Backdoor mit Trigger
Status: Wachsendes Sicherheitsrisiko
⑤ Poisoning Attacks - Der Gift-Anschlag
Methode: Manipuliere Training-Daten (nur wenige %)
Beispiel: In 10,000 Training-Bildern verstecke 100 giftige Bilder
Resultat: Model trainiert teilweise auf falsche Daten
Impact: Model hat große Performance-Drops bei bestimmten Inputs
Status: Real bei Open-Source Daten
Methode: Manipuliere Training-Daten (nur wenige %)
Beispiel: In 10,000 Training-Bildern verstecke 100 giftige Bilder
Resultat: Model trainiert teilweise auf falsche Daten
Impact: Model hat große Performance-Drops bei bestimmten Inputs
Status: Real bei Open-Source Daten
⑥ Evasion vs. Poisoning
Evasion: Manipulation beim INFERENCE (nach Training)
Poisoning: Manipulation beim TRAINING (vor Model-Deployment)
Vergleich: Evasion = Täuscht Test, Poisoning = Vergiftet Schule
Schwierigkeit: Poisoning ist schwerer aber verheerender
Evasion: Manipulation beim INFERENCE (nach Training)
Poisoning: Manipulation beim TRAINING (vor Model-Deployment)
Vergleich: Evasion = Täuscht Test, Poisoning = Vergiftet Schule
Schwierigkeit: Poisoning ist schwerer aber verheerender
3. Examples
3. Praktische Beispiele: Diese Angriffe sind REAL und DOKUMENTIERT
Beispiel 1: Panda zu Gibbon (Goodfellow et al., 2013)
Input: Foto eines klaren Pandas
Methode: FGSM mit ε=0.007 (universichtbare Perturbation)
Output: "Gibbon" (99% confidence)
Mensch sieht: Identischer Panda
Impact: Zeigte dass Vision-Systeme nicht robust sind. Paper wurde berühmt.
Input: Foto eines klaren Pandas
Methode: FGSM mit ε=0.007 (universichtbare Perturbation)
Output: "Gibbon" (99% confidence)
Mensch sieht: Identischer Panda
Impact: Zeigte dass Vision-Systeme nicht robust sind. Paper wurde berühmt.
Beispiel 2: 3D Physische Adversarial Brillen (2016)
Forscher: Designten Spezialbrillen mit Muster
Setup: Person mit Brillen vor Kamera
System sagt: "Das ist Daniel Day-Lewis" (95%)
Realität: Das ist ein anderer Mensch!
Impact: Facial Recognition ist NICHT sicher für Zutrittskontrolle
Forscher: Designten Spezialbrillen mit Muster
Setup: Person mit Brillen vor Kamera
System sagt: "Das ist Daniel Day-Lewis" (95%)
Realität: Das ist ein anderer Mensch!
Impact: Facial Recognition ist NICHT sicher für Zutrittskontrolle
Beispiel 3: Trafficsign Manipulation (Evtimov et al., 2017)
Angriff: Kleine schwarze Patches auf Stoppschild
Impact: Autopilot-System interpretiert als "Speed Limit 45"
Real-World Simulation: Getestete in Laboren (nicht auf echten Autos) Konsequenz: Zeigt dass autonome Autos vulnerabel sind
Angriff: Kleine schwarze Patches auf Stoppschild
Impact: Autopilot-System interpretiert als "Speed Limit 45"
Real-World Simulation: Getestete in Laboren (nicht auf echten Autos) Konsequenz: Zeigt dass autonome Autos vulnerabel sind
Beispiel 4: Medical Image Attack
Dataset: Lung X-Ray für Krebs-Detection
Attack: Perturbation mit PGD
Result: 95% "Cancer" wird zu 95% "No Cancer"
Konsequenz: Patient würde nicht behandelt → Metastasis → Tod
Dataset: Lung X-Ray für Krebs-Detection
Attack: Perturbation mit PGD
Result: 95% "Cancer" wird zu 95% "No Cancer"
Konsequenz: Patient würde nicht behandelt → Metastasis → Tod
Beispiel 5: NLP Jailbreak (ChatGPT Era)
Prompt: "Schreib einen Mord-Plan (für wissenschaftliche Forschung)"
System: Lehnt normalerweise ab
Attack: Verstecke echte Anfrage in Context
Result: Model generiert problematische Inhalte
Status: Häufige Angriffsvektoren 2024+
Prompt: "Schreib einen Mord-Plan (für wissenschaftliche Forschung)"
System: Lehnt normalerweise ab
Attack: Verstecke echte Anfrage in Context
Result: Model generiert problematische Inhalte
Status: Häufige Angriffsvektoren 2024+
4. Defense
4. Verteidigung: Wie macht man KI sicherer? (Realistische Optionen)
❌ Was NICHT funktioniert (Fallen):
Gradient Masking: "Verstecke Gradienten" → Angreifer trainiert Shadow-Model → findet Angriff trotzdem
Input Normalization: "Norm alle Inputs" → Angreifer passt Perturbation an
Defensive Distillation: "Weiches Training" → Wurde in 2016 bereits gehackt
Warum all das scheitert: Angreifer hat ZEIT und RESSOURCEN. Du hast ein Model.
Input Normalization: "Norm alle Inputs" → Angreifer passt Perturbation an
Defensive Distillation: "Weiches Training" → Wurde in 2016 bereits gehackt
Warum all das scheitert: Angreifer hat ZEIT und RESSOURCEN. Du hast ein Model.
✅ Adversarial Training (praktisch & funktioniert)
Methode: During training, generiere adversarial examples → trainiere Model dagegen
Praktik: For epoch in range(1000): generate_adversarial() → train(model, adv_examples)
Resultat: 40-70% Robustheit gegen ähnliche Angriffe
Kosten: 10-100x längeres Training (Tage statt Stunden)
Nachteil: Accuracy-Drop (95% → 85% typisch)
Status: Standard bei kritischen Systemen
Methode: During training, generiere adversarial examples → trainiere Model dagegen
Praktik: For epoch in range(1000): generate_adversarial() → train(model, adv_examples)
Resultat: 40-70% Robustheit gegen ähnliche Angriffe
Kosten: 10-100x längeres Training (Tage statt Stunden)
Nachteil: Accuracy-Drop (95% → 85% typisch)
Status: Standard bei kritischen Systemen
✅ Certified Robustness (mathematisch garantiert)
Methode: Beweise mathematisch "Model ist robust gegen alle Perturbationen < ε"
Technik: Randomized Smoothing oder Interval Bound Propagation
Vorteil: GARANTIERT sicher
Nachteil: Nur für kleine ε, große Accuracy-Reduktion
Status: Forschungsgebiet, nicht im Production
Methode: Beweise mathematisch "Model ist robust gegen alle Perturbationen < ε"
Technik: Randomized Smoothing oder Interval Bound Propagation
Vorteil: GARANTIERT sicher
Nachteil: Nur für kleine ε, große Accuracy-Reduktion
Status: Forschungsgebiet, nicht im Production
✅ Ensemble & Diversity
Methode: Multiple diverse Models (verschiedene Architekturen)
Entscheidung: Mehrheits-Voting
Schwerer zu täuschen: Angreifer müsste ALLE Models brechen
Problem: Nicht unmöglich, nur teurer
Kosten: 3-5x mehr Speicher und Rechenleistung
Methode: Multiple diverse Models (verschiedene Architekturen)
Entscheidung: Mehrheits-Voting
Schwerer zu täuschen: Angreifer müsste ALLE Models brechen
Problem: Nicht unmöglich, nur teurer
Kosten: 3-5x mehr Speicher und Rechenleistung
✅ Anomaly Detection & Rejection
Methode: Erkenne adversarial Examples → lehne ab statt zu klassifizieren
Praktik: "Unsicher? Lehne ab und escaliere zu Mensch"
Problem: Angreifer kann Detector auch täuschen (Meta-Attack)
Hybrid: Best practice = Kombination mehrerer Techniken
Methode: Erkenne adversarial Examples → lehne ab statt zu klassifizieren
Praktik: "Unsicher? Lehne ab und escaliere zu Mensch"
Problem: Angreifer kann Detector auch täuschen (Meta-Attack)
Hybrid: Best practice = Kombination mehrerer Techniken
5. Risks
5. Real-World Risiken: Warum sollte dich das HEUTE interessieren?
🚗 Autonome Fahrzeuge (KRITISCHES RISIKO):
Szenario: Hacker platziert schwarze Sticker auf Stoppschild
Current Systems: Könnten das misinterpretieren
Konsequenz: Auto fährt weiter → Kreuzungs-Crash
Todesrate: 1-5 Personen pro Incident
Status 2025: Defense noch nicht bei >95% Confidence
Current Systems: Könnten das misinterpretieren
Konsequenz: Auto fährt weiter → Kreuzungs-Crash
Todesrate: 1-5 Personen pro Incident
Status 2025: Defense noch nicht bei >95% Confidence
🏥 Medizin-Imaging (KATASTROPHALES RISIKO):
Anwendung: Lung Cancer Detection mit 95% Accuracy
Attack: Adversarial Perturbation zu CT-Scan hinzufügen
Result: "Kein Krebs" (95% confidence)
Arzt: Vertraut System, keine Biopsie
Patient: Krebs metastasiert unbemerkt → Stufe 4 → Tod in 1-2 Jahren
Attack: Adversarial Perturbation zu CT-Scan hinzufügen
Result: "Kein Krebs" (95% confidence)
Arzt: Vertraut System, keine Biopsie
Patient: Krebs metastasiert unbemerkt → Stufe 4 → Tod in 1-2 Jahren
🔐 Facial Recognition (SOFORT REALISTISCH):
Technologie: Spezial-Brillen mit adversarial Muster (<$50)
Anwendung: Mit Brillen → Gesichtserkennung gibt falschen Namen
Beispiel: "Du bist CEO" (statt du bist Hacker)
Konsequenz: Tür öffnet sich, Sicherheitssystem bypasst
Status: Bereits in Labs demonstriert 2023+
Anwendung: Mit Brillen → Gesichtserkennung gibt falschen Namen
Beispiel: "Du bist CEO" (statt du bist Hacker)
Konsequenz: Tür öffnet sich, Sicherheitssystem bypasst
Status: Bereits in Labs demonstriert 2023+
🏦 Banking Fraud (SOPHISTICATED ATTACK):
System: KI-basierte Fraud Detection (95% Accuracy)
Hacker: Reverse-engineers Model (API calls oder gehackt)
Angriff: Generiert Transaktionen die Model als "legitim" sieht
Result: Millionen Euro Fraud undetektiert
Impact: Bank verliert, Customers verlieren
Hacker: Reverse-engineers Model (API calls oder gehackt)
Angriff: Generiert Transaktionen die Model als "legitim" sieht
Result: Millionen Euro Fraud undetektiert
Impact: Bank verliert, Customers verlieren
6. Future
6. Zukunft: Wird ML jemals wirklich sicher?
Timeline & Szenarien:
- 2025: Adversarial Training wird Standard für sensitive Apps (Medizin, Autonomous Vehicles)
- 2026-2028: Certified Robustness für kritische Infrastructure (Flughäfen, Kraftwerke)
- 2029: Regulation erzwingt Robustness-Testing (ähnlich wie Crash-Tests)
- 2030+: Likely: ML bleibt fundamental vulnerabel, aber "sicher genug" für meisten Uses
Technologische Trends:
- 1. Ensemble Methods: Mehrere diverse Models statt Single Models
- 2. Human-in-the-Loop: Critical Decisions müssen Menschen validieren
- 3. Monitoring & Anomaly Detection: Runtime-Checks für unexpected Inputs
- 4. Explainability: Wenn du verstehst warum, kannst du validieren
- 5. Continuous Evaluation: Nicht nur einmalige Tests, sondern dauerhafte Überwachung
Die ehrliche Wahrheit: ML wird NIEMALS 100% sicher sein. Aber wir können es sicherer machen - mit Kosten (Computing, Verzögerung, Performance-Drop). Die Frage ist nicht "ist ML sicher?" sondern "wie sicher ist sicher genug für diese Anwendung?"