Deep learning: het nieuwe wapen tegen malware?
Onderzoekers van Microsoft en Intel werken samen aan een compleet nieuwe manier voor het classificeren en detecteren van malware. Bij STAMINA draait het niet om het herkennen van handtekeningen, maar om visualisaties van binaire code en deep learning. Hoe ziet de volgende generatie malwaredetectie er volgens deze twee techgiganten uit?
De meeste antivirusprogramma’s maken nog altijd gebruik van signature-based detectie. Virussen worden herkend op basis van hun ‘handtekening’. Feilloos is deze aanpak echter niet. Zo glipt zerodaymalware door de detectie omdat hier nog geen signature voor beschikbaar is. Cybercriminelen slagen er ook steeds beter in om op handtekeningen gebaseerde detectie te misleiden, bijvoorbeeld door de malware licht aan te passen of te vermommen.
Een beeld van malware
Het is tegen deze achtergrond dat steeds meer leveranciers van beveiligingsoplossingen gebruikmaken van machine learning, en van deep learning dat is gebaseerd op kunstmatige neurale netwerken. Die netwerken bestaan uit verschillende lagen die allemaal in staat zijn verschillende specifieke zaken te herkennen. Waaronder ook afwijkende gedragingen in het netwerkverkeer.
Door algoritmes miljoenen malwaresamples te laten analyseren, krijgen de beveiligingsoplossingen een steeds beter beeld van de mogelijke kenmerken van malware. Zo zijn ze in staat om kwaadaardige software te herkennen zonder de malware in kwestie ooit te hebben gezien.
Het STAtic Malware-as-Image Network Analysis (STAMINA)-onderzoeksproject van Microsoft en Intel voegt hier nog een innovatief aspect aan toe. Onderzoekers van de twee bedrijven maakten letterlijk plaatjes van computercode, en scanden die afbeeldingen op patronen die kunnen duiden op malware. Volgens Intel en Microsoft zijn die patronen sneller te herkennen in afbeeldingen dan in binaire code.
Drie stappen
Het onderzoeksproject van Microsoft en Intel bestond op hoofdlijnen uit drie stappen:
Stap 1: Conversie
De onderzoekers vertaalden de ‘nullen en enen’ van computercode naar pixels. De pixelreeks die zo ontstond, werd vervolgens omgezet naar een tweedimensionale afbeelding zodat normale beeldanalyse-algoritmes deze kunnen analyseren.
Stap 2: Deep learning
De afbeeldingen werden vervolgens gevoed aan een Deep Neural Network (DNN) dat de afbeeldingen na een scan classificeerde als ‘schoon’ of ‘geïnfecteerd’. Voor het trainen van het DNN-algoritme gebruikten de onderzoekers geïnfecteerde Portable Executable (PE)-filehashes. Microsoft leverde in totaal 2,2 miljoen filehashes aan. 60 procent werd gebruikt om het algoritme te trainen, 20 procent voor het valideren van het algoritme en 20 procent voor het uitvoeren van de echte tests.
Stap 3: Evaluatie en interpretatie
Tot slot maakten de onderzoekers de balans op, door de prestaties van het systeem te meten en daarover te rapporteren. De eerste resultaten van het onderzoeksproject zijn bemoedigend. Tijdens de eerste tests werd 99,07 procent van de afbeeldingen als malware aangemerkt. In slechts 2,58 procent van de gevallen was dat onterecht.
Snel inzetbaar
Volgens de onderzoekers vormen de resultaten het bewijs dat deep learning via afbeeldingen van malware bijzonder effectief is. Het is niet onwaarschijnlijk dat uw klanten daar op korte termijn al gebruik van kunnen maken.
Microsoft zet machine learning nu al op grote schaal in. Miljarden installaties van Windows Defender maken bijvoorbeeld gebruik van machine-learningmodules. STAMINA wordt waarschijnlijk een van die modules.
Wilt u weten hoe u zich op deze nieuwe technologie voorbereidt? Neem dan contact op met Tech Data.