Sociálne inžinierstvo a deepfakes poháňané AI: Generatívna AI umožňuje vytvárať phishingové e-maily šité na mieru konkrétnym obetiam a produkovať realistické hlasové alebo video deepfaky. Podľa UNESCO sa 46 % odborníkov na podvody stretlo so syntetickým podvodom identity, 37 % zaznamenalo hlasové deepfaky a 29 % bolo svedkom video deepfakov. Ilustratívnym prípadom je január 2024: zločinci sa počas videohovoru vydávali za finančného riaditeľa a manažérov istej inžinierskej firmy a presvedčili zamestnanca, aby previedol 25 miliónov USD. Útok demonštruje, ako deepfaky dokážu obísť tradičné mechanizmy overenia a zneužiť dôveru zamestnancov.
Tieto hrozby presahujú jednotlivé incidenty. Útočníci môžu automatizovať spear-phishingové kampane pomocou LLM, generovať presvedčivé správy vo viacerých jazykoch, klonovať hlasy z niekoľkých sekúnd zvuku, fabrikovať tiesňové volania a využívať deepfaky na manipuláciu s akciami či šírenie dezinformácií s cieľom podkopať verejnú dôveru. Sociálne inžinierstvo sa tak stáva rýchlejším, lacnejším a škálovateľnejším – táto štrukturálna zmena zásadne mení profil hrozieb.
Zrýchlený cyklus útoku: AI znižuje bariéry vstupu pre aktérov. Automatizácia prieskumu, zneužívania zraniteľností a bočného pohybu skracuje cyklus útoku z dní na hodiny. AI môže tiež sťažiť odhalenie ransomvéru automatickým generovaním šifrovacích kľúčov a maskovaním škodlivého kódu. Bezpečnostná orchestrácia a automatizácia riadená AI (SOAR) dokáže na strane obrancov znížiť objem upozornení o 60 % a časy reakcie na incidenty o 50 %. Kyberzločinci však prijímajú rovnaké nástroje AI ako obrancovia, čo vedie k „pretekom v zbrojení“ – organizácie musia neustále prispôsobovať svoje stratégie.
Nepriateľské útoky na systémy AI: Samotné modely AI sú zraniteľné voči viacerým kategóriám útokov:
- Manipulácia vstupov (adversariálne príklady): jemné úpravy vstupných dát vynucujú nesprávnu klasifikáciu – v obrazovej doméne môžu nepatrné zmeny pixelov spôsobiť, že detektor zamení korytnačku za pušku. Ten istý princíp platí pre textové modely (prompt injekcia) aj detekciu malvéru.
- Otrava dát (data poisoning): narušenie trénovacích dát s cieľom vložiť zadné vrátka alebo skresliť správanie modelu – niekoľko manipulovaných vzoriek môže ohroziť integritu celého modelu.
- Krádež modelu: systematické dopytovanie API s cieľom rekonštruovať proprietárne parametre modelu.
- Prompt injekcia a jailbreaking: vstup používateľa mení zamýšľané inštrukcie generatívneho modelu, čo ho núti odhaliť citlivé dáta alebo vykonávať nezamýšľané akcie. OWASP GenAI varuje pred odhalením skrytých inštrukcií, obídením bezpečnostných filtrov a prístupom k neoprávneným zdrojom.
- Pašovanie agentských relácií: škodlivý AI agent vkladá skryté inštrukcie do prebiehajúcej konverzácie a manipuluje iného agenta počas viacerých kôl. Na rozdiel od jednorazových prompt útokov sa adaptuje, buduje dôveru a operuje skryto.
- Útoky na dodávateľský reťazec: škodlivé balíčky na PyPI alebo Docker Hub zavádzajú zadné vrátka do trénovacích pipeline; kompromitované predtrénované modely obsahujú skryté zaujatosti alebo spúšťače.
Zabezpečenie systémov AI: viacvrstvový prístup
NIST AI RMF 1.0 definuje charakteristiky dôveryhodnosti ako usmernenie pre zodpovedný vývoj AI. Ochrana si vyžaduje kombináciu technických kontrol a správy v týchto šiestich oblastiach:
- Zmiernenie adversariálnych vstupov: adversariálny tréning a robustifikácia (randomized smoothing, defensive distillation), validácia a sanitizácia vstupov, priebežné monitorovanie výstupov na anomálie.
- Prevencia otravy dát: udržiavanie nemenných záznamov o pôvode dát, detekcia anomálií na trénovacích dátach, diferenciálne súkromie obmedzujúce dosah jednotlivých dátových bodov.
- Ochrana duševného vlastníctva: riadenie prístupu a obmedzovanie rýchlosti API otázok, šifrovanie a watermarking modelov, maskovanie výstupov na detekciu pokusov o extrakciu.
- Obrana proti prompt injekcii a škodlivým agentom: izolácia kontextu (systémové inštrukcie oddelené od používateľských vstupov), filtrovanie vstupov, validácia výstupov, kryptografická autentifikácia agentov pomocou Agent Cards.
- Zabezpečenie infraštruktúry a dodávateľských reťazcov: bezpečnostné kontroly ML knižníc a kontajnerov, segmentácia trénovacích prostredí od produkčných sietí, overovanie pôvodu dodávateľov a predtrénovaných modelov.
- Monitorovanie a správa modelov: priebežná detekcia tzv. driftu, núdzové vypínače pri neočakávanom správaní, spolupráca bezpečnostných, právnych, dátových a obchodných tímov, tvorba model cards dokumentujúcich trénovacie dáta a známe riziká.