Tým vědců ze sdružení CESNET a FIT ČVUT v Praze vytvořil průlomovou datovou sadu, která promění oblast detekce hrozeb v počítačových sítích

Publikace v časopise Nature Scientific Data potvrzuje výjimečnost dlouhodobého sběru síťových dat

Vědecký tým ze sdružení CESNET a Fakulty informačních technologií ČVUT v Praze (FIT ČVUT), vytvořil unikátní datovou sadu zachycující roční síťový provoz v národní akademické síti. Tato datová sada, využitelná pro pokročilé metody strojového učení a detekci kybernetických hrozeb, získala prestižní publikační prostor v časopise Nature Scientific Data.

Dlouhodobá anonymizovaná datová sada, která věrohodně odráží celoroční síťový provoz, představuje významný posun ve výzkumu bezpečnosti sítí a detekci kybernetických hrozeb. Dosavadní datové sady obvykle obsahovaly pouze několik dnů síťového provozu, kvůli náročnosti dlouhodobého sběru a objemu celkových dat, což omezovalo možnost zkoumat časově proměnné fenomény. Algoritmy strojového učení proto často dosahují výborných přesností pouze během návrhu (v laboratorním prostředí), ale v reálném nasazení selhávají a jejich detekční schopnosti jsou na hraně použitelnosti.

Vědci z CESNETu a FIT ČVUT ve složení Karel Hynek, Jan Luxemburk, Jaroslav Pešek, Tomáš Čejka a Pavel Šiška nyní nabízejí obsáhlou datovou základnu pro studium adaptace algoritmů strojového učení na nové kybernetické hrozby, což pomůže zlepšit bezpečnost v digitálním prostředí.

V rámci projektu „Analýza šifrovaného provozu pomocí síťových toků“, který získal podporu z výzvy IMPAKT 1 Ministerstva vnitra ČR, se výzkumníci zaměřili na detekci neobvyklého síťového provozu pomocí pokročilých metod strojového učení. Rozšíření nově vzniklých detektorů však brzdí tzv. datový posun – jev, kdy naučené modely umělé inteligence (AI) po čase ztrácejí přesnost kvůli změnám v síťovém provozu, např. aktualizací e-mailového klienta, který náhle začne komunikovat jinak.

„Model strojového učení se často spoléhá na data, která časem ztrácejí aktuálnost. Změna charakteru síťového provozu kvůli novým útokům nebo službám může znamenat, že modely začnou být méně přesné, nebo dokonce přesnou fungovat úplně,“ říká Karel Hynek, výzkumník y FIT ČVUT a ze sdružení CESNET. „Proto jsme chtěli vytvořit datovou sadu zachycující síťový provoz z celého roku. Taková datová sada nemá kvůli náročnosti svého vytvoření obdoby.“

Pomocí krátkodobých datových sad dokážeme vytvořit vysoce přesný AI model, který ovšem v reálném provozu rychle zastará a je potřeba nahradit novým. Nově publikovaná datová sada nyní otevírá cestu k dlouhodobě udržitelným algoritmům pro detekci kybernetických hrozeb.

„Tato datová sada nám poskytla příležitost analyzovat vliv času na výkon algoritmů, což je pro oblast kyberbezpečnosti zásadní. Můžeme díky tomu lépe pochopit, jaké faktory způsobují datový posun a jak tomu předejít,“ dodává Jan Luxemburk, výzkumník z FIT ČVUT, který prováděl analýzu této datové sady.

Kvalitu a výjimečnost výsledného datasetu dokládá i jeho publikace v časopise Nature Scientific Data. Tento úspěch vyžadoval mimořádně důsledný přístup nejen k vědecké kvalitě samotných dat, ale také k jejich etické stránce.

„Publikace v takto prestižním časopise vždy vyžaduje o něco více práce, protože se klade důraz na kvalitu a etickou stránku výzkumu,“ vysvětluje Karel Hynek. „Od začátku jsme si uvědomovali rizika spojená s naším výzkumem, a proto jsme postupovali extrémně opatrně. Postup tvorby datové sady jsme dlouho připravovali a promýšleli. Metodu kladně zhodnotila i Komise pro etiku vědecké práce ČVUT, bez jejíhož souhlasného stanoviska by data časopis nezveřejnil.“

Nově publikovaná datová sada z dílny sdružení CESNET a FIT ČVUT poskytuje vědecké komunitě cenný nástroj pro pochopení dynamických změn v síťovém provozu. Díky dlouhodobému sběru dat se otevírají možnosti pro zkoumání adaptace strojového učení na nové kybernetické hrozby, vývoj robustnějších detektorů a novou metodologii vyhodnocování AI modelů v čase, které lépe odráží reálné nasazení.

Více informací o datové sadě v anglickém jazyce
https://www.nature.com/articles/s41597-024-03927-4 

Fakulta informačních technologií ČVUT v Praze se zaměřuje na nejmodernější oblasti informatiky a informačních technologií. Nabízí moderní bakalářský, magisterský a doktorský studijní program Informatika. Velký zájem uchazečů o studium umožňuje dynamický rozvoj fakulty a výběrovost. Více informací najdete na www.fit.cvut.cz.

České vysoké učení technické v Praze patří k největším a nejstarším technickým vysokým školám v Evropě. Podle Metodiky 2017+ je nejlepší českou technikou ve skupině hodnocených technických vysokých škol. V současné době  ČVUT osm fakult (stavební, strojní, elektrotechnická, jaderná a fyzikálně inženýrská, architektury, dopravní, biomedicínského inženýrství, informačních technologií). Studuje na něm přes 19 000 studentů. V akademickém roce 2024/2025 má ČVUT v Praze akreditováno celkem 341 studijních programů, z toho 145 v angličtině. Kromě fakult tvoří ČVUT v Praze také šest ústavů (Kloknerův ústav, Masarykův ústav vyšších studií, Ústav tělesné výchovy a sportu, Univerzitní centrum energeticky efektivních budov, Český institut informatiky, robotiky a kybernetiky a Ústav technické a experimentální fyziky). ČVUT vychovává odborníky v oblasti techniky, vědce a manažery se znalostí cizích jazyků, kteří jsou dynamičtí, flexibilní a dokáží se rychle přizpůsobovat požadavkům trhu. Podle výsledků Metodiky 2017+ bylo ČVUT hodnoceno ve skupině pěti technických vysokých škol a obdrželo nejvyšší hodnocení stupněm A. V celosvětovém žebříčku QS World University Rankings je ČVUT na 420. místě a na 12. pozici v regionálním hodnocení „Emerging Europe and Central Asia“. V rámci hodnocení Subject Rankings 2024 pro „Architecture and Build Environments“ je ČVUT 151.–200., v „Engineering  Civil and Structural” je ČVUT mezi 201.–240. místem, v oblasti „Mechanical, Aeronautical & Manufacturing Engineering“ na 201.–250. místě, u „Electrical & Electronic Engineering“ na 201.–250. pozici. V oblasti „Physics and Astronomy“ na 201.–250. místě, „Natural Sciences“ jsou na 307. příčce. V oblasti „Computer Science and Information Systems” je na 201.–250. místě, v oblasti „Material Sciences“ na 251.–300. místě, v oblasti „Mathematics“ na 301.–350. místě a v oblasti „Engineering and Technology“ je ČVUT na 182. místě. Od roku 2020 je ČVUT členem aliance prestižních technických univerzit EuroTeQ. Ta představuje zajímavou a přínosnou příležitost pro studenty, vědecké pracovníky i zaměstnance zapojit se do projektu, který si klade za ambici posunout kvalitu vysokého školství na vyšší úroveň. Dalšími členy skupiny EuroTeQ jsou Technical University of Munich, Technical University of Denmark, Technical University of Eindhoven, École Polytechnique – L´X, Tallinn University of Technology, École polytechnique fédérale de Lausanne a Technion Israel Institute of Technology. Roku 2023 byla aliance rozšířena o HEC Paris a IESE Business School (University of Navarra). Více na www.cvut.cz.