24 april 2021 12:00

Hoe gevaarlijk is data scraping?

Cybercriminelen maken wel eens gebruik van de techniek data scraping om grote hoeveelheden gegevens te bekomen. Hoe gevaarlijk is dat?

Voor een recent voorbeeld van data scraping hoeven we niet al te ver terug te gaan in de tijd. Begin deze maand ontdekte onderzoekers een database met de persoonlijke gegevens van meer dan 500 miljoen Facebook-gebruikers die op hackersfora rondging. Niet veel later doken gelijkaardige nieuwsberichten over een LinkedIn-database op.

Analyse van beide incidenten toonde aan dat hackers de servers van de socialmediaplatformen zelfs niet hoefden aan te vallen om die gegevens buit te maken. Zij maakte gebruik van een handig trucje dat in vaktermen ‘data scraping’ heet. Hoe werkt deze techniek en hoe groot is het gevaar van data scraping voor internetgebruikers? We gaan op onderzoek.

Screen scraping en web scraping

Data scraping is in essentie een manier om data over te zetten van het ene systeem naar een ander. Maar het verschilt wel van meer conventionele datatransfermethoden. Het grote verschil zit in de output. De geschraapte data dient niet als input voor een ander computerprogramma, maar is bedoeld ter weergave voor de eindgebruiker. Data scraping is dan ook heel ruwe techniek die men enkel zal gebruiken wanneer er geen andere manier bestaat om gegevens uit een systeem te halen, zoals een bestuurssysteem dat niet meer compatibel is met hedendaagse hardware. De output is vaak enorm ongestructureerd omdat zaken als opmaak, binaire gegevens en andere bijkomende informatie niet mee worden overgezet. Programma’s kunnen daardoor zelfs crashen tijdens data scraping.

Je hebt nog verschillende technische varianten binnen data scraping. De oudste vorm is screen scraping. Bij screen scraping wordt een speciale tool verbonden met een verouderd computersysteem. De scrapingtool doet zich voor als een gebruiker en simuleert de toetscommando’s om door de interface van het systeem te navigeren. De tool extraheert dan de gegevens uit het systeem en geeft deze door aan het nieuwe systeem. Deze werkwijze vormde de inspiratie voor modernere automatiseringstools die volgens dezelfde basis werken.

Naast screen scraping is er ook nog web scraping dat dient om gegevens vanuit webpagina’s te halen. Het principe werkt wel of min of meer hetzelfde. Je hebt ook nu meestal een scrapingtool nodig om de webpagina wijs te maken dat je een webbeheerder bent die de pagina gaat aanpassen. De meeste websites hebben tegenwoordig ingebouwde beveiligingsalgoritmen om dergelijke tools te detecteren en hen de toegang te ontzeggen. Grootschalige scrapingincidenten zoals bij Facebook zijn dus echt wel zeer zeldzaam.

Gevaarlijk of niet?

Data scraping is an sich geen illegale praktijk. Erkende cloudleveranciers zoals Amazon AWS bieden in de vorm van gratis api’s zelf veilige webscrapingtools aan. De programmeertaal JSON doet ook min of meer hetzelfde om data over te zetten tussen servers en webapplicaties. Zoals elk computerprogramma wordt data scraping pas gevaarlijk wanneer de tools in de verkeerde handen vallen. Zoals dat gebeurde bij Facebook om weer terug naar dat incident te refereren. Daar maakten de hackers gebruik van een kwetsbaarheid in een nieuwe tool van Facebook die zij dan zelf omvormden tot datascraping tool. Er kwam dus wel een beetje hackwerk bij aan te pas, maar al bij al vergde die aanval vrij weinig technisch vernuft.

Volgens Facebook was het incident ook helemaal niet zo erg als de media deden uitschijnen. Het ging om oude data en met data scraping kan je normaal gezien alleen maar gegevens bekomen die publiek zichtbaar zijn op je profiel. Facebook wil data scraping dan ook zoveel mogelijk als een ‘normaal sectorprobleem’ beschouwen. Dat zeiden ze letterlijk in een mail die per ongeluk op de redactie van DataNews belandde.

Volgens Facebook is data scraping niet zo erg.

Die verklaring is natuurlijk net iets te eenvoudig om het gevaar af te wimpelen. De database bevatte bijvoorbeeld wel degelijk persoonlijke gegevens zoals telefoonnummers en mailadressen. Als die tot bij cybercriminelen terechtkomen, kunnen zij die gegevens gebruiken voor phishingcampagnes. Het klopt dus wel dat data scraping een stuk minder intrusief is dan het hacken van iemands account en je geen directe gevolgen van een scrapingaanval zal ondervinden. Maar op lange termijn kan het je kwetsbaarder maken voor phishingaanvallen.

Hoe bescherm je je website tegen scrapers?

Als gebruiker van een website kan je in principe niet veel doen tegen een scrapingaanval, behalve zorgvuldig beheren welke informatie je deelt over jezelf op die website. Voer daarom regelmatig eens een privacycheck uit op Facebook. De verantwoordelijkheid ligt uiteindelijk wel bij de webbeheerder. Als webbeheerder moet je in het achterhoofd houden dat alles wat zichtbaar en toegankelijk is op je website voor menselijke bezoekers dat ook is voor scrapingbots.

Er zijn enkele technische trucjes die een webbeheerder kan toepassen om de content te beveiligen. Al hebben die trucjes vaak ook wel hun beperkingen. Een scrapingpoging kan je vaak herkennen door een hoog aantal verzoeken dat vanuit één IP-adres naar je website wordt verzonden (niet te verwarren met een DDoS-aanval dat ook op deze techniek steunt). Je kan dat verdacht IP-adres dan uitsluiten. De gemiddelde hacker is wel slim genoeg om dit te omzeilen en de kans bestaat dat het IP-adres een onschuldige VPN-server was.

In andere gevallen kan je met het vergrendelen van content met inloggegevens al ver komen. De scraper moet dan een stukje van zichzelf blootgeven om aan de content te geraken. Het regelmatig veranderen van je HTML kan scrapers (maar ook je webdesigners) zodanig in de war sturen dat ze wel elders gaan schrapen. Het gebruik van CAPTCHA’s of veel mediabestanden kan snoodaards ook flink ontmoedigen. Tenslotte raden beveiligingsexperts ook aan om zogenaamde ‘honeypots’ te creëren. Dit zijn valse databestanden die niet zichtbaar zijn voor je bezoekers maar wel de aandacht kunnen trekken van bots.