Data mining moet realistischer worden

In België gebeurt verrassend veel onderzoek naar data mining. Dat bleek op een recente studiedag van The Data Mining Garden in Leuven. Daar werd ook duidelijk dat dataminingtechnieken veel breder toepasbaar zijn dan tot voor kort gedacht. Al moeten dataminingmodellen dan wel meer rekening houden met de realiteit, en met name met de vakkennis van uw personeel en de economische omstandigheden.
The Data Mining Garden, een groepering van data mining professionals, organiseerde in januari in samenwerking met de KU Leuven een conferentie over ‘New Frontiers in Data Mining’. Er werd een overzicht gegeven van nieuwe ontwikkelingen, met de nadruk op onderzoek dat momenteel gebeurt aan de Belgische universiteiten. Organisator was Dr. Bart Baesens van de onderzoekseenheid Kwantitatieve Beleidsmethoden en Beleidsinformatica aan de KU Leuven.
“Data mining draait om het extraheren van patronen van klantengedrag op basis van historische data die het gedrag van klanten uit het verleden bevat", legt Baesens uit. "Een voorbeeld van een dergelijk patroon is: als het inkomen hoger is dan 2.000 euro en leeftijd hoger dan 30 jaar, dan is de klant een goede terugbetaler. Die patronen worden aangeleerd via het extraheren van data, die dan vervolgens geanalyseerd worden via één of ander dataminingalgoritme.
IT Professional: Data mining was vroeger zowat het voorrecht van banken, verzekeraars en nutsbedrijven. Is dat vandaag anders?
Bart Baesens: Eigenlijk is data mining vooral populair geworden in een marketingcontext. Men probeerde modellen te bouwen die het klantengedrag profileren, om de winst te verhogen. Typische toepassingen zijn cross selling (welke producten worden vaak samen aangekocht), response modeling (wie reageert op een marketingcampagne) en retention modeling (welke klanten hebben de neiging het bedrijf te verlaten). Onder de invloed van nieuwe standaarden voor regulatory compliance, zoals Basel II en Solvency II, wordt data mining steeds populairder in de financiële sector. Bedrijven worden immers verplicht modellen te bouwen die bijvoorbeeld het risico op wanbetaling van een lening inschatten, en ook de kans op bijvoorbeeld verzekeringsfraude. Op basis van die schattingen wordt dan onder meer bepaald hoeveel kapitaal een bank of verzekeringsinstelling moet aanhouden om zich voldoende in te dekken tegen de genomen risico’s.
Uit uw studiedag bleek dat in België heel wat onderzoek gebeurt op het vlak van data mining. Hoe komt dat eigenlijk?
Data mining is inderdaad een onderzoeksdomein dat heel levendig is in België. Eén van de redenen is dat er in België een uitstekende expertise voorhanden is, enerzijds op het vlak van algoritmes (nieuwe algoritmes om bepaalde dataminingtaken uit te voeren), maar ook over hoe deze algoritmes in een bedrijfscontext en in een IT-architectuur kunnen worden ingezet. In de vakgroep LIRIS (KU Leuven) zijn we op beide domeinen heel actief bezig en hebben we een uitstekende wereldwijde reputatie opgebouwd. Samen met een aantal collega’s heb ik in België recentelijk ook de Data Mining Garden opgericht. De bedoeling is om een community te bouwen die dataminers met elkaar in contact brengt. We organiseren in deze context regelmatig workshops en seminaries om aan kennisuitwisseling en networking te doen. De bedoeling is ook om op regelmatige tijdstippen een nieuwsbrief uit te geven.
In uw eigen presentatie had u het over een aantal problemen met data mining zoals het nu gebeurt. Onder meer dat de modellen vaak onbegrijpelijk zijn?
Nu dataminingmodellen steeds meer worden toegepast voor strategische doeleinden, is het van cruciaal belang dat deze modellen begrijpbaar zijn. Dit betekent dat de persoon die deze modellen hanteert, ook de uitkomst van die modellen moet begrijpen. Als men bijvoorbeeld een patroon heeft dat zegt: hoe hoger het inkomen, hoe hoger de kans op wanbetaling, dan is dat compleet tegen de intuïtie in, en is men niet geneigd dat te gaan gebruiken. Het is dus belangrijk dataminingmodellen te hebben die transparant zijn, en volledig in lijn zijn met de domeinkennis.
Wat is die domeinkennis?
Domeinkennis is de kennis die een bedrijfsexpert heeft opgebouwd door zijn jarenlange ervaring binnen een domein, bijvoorbeeld krediettoekenning. Domeinkennis is heel belangrijk naast de kennis die vervat zit in data. Idealiter zouden dataminingmodellen moeten worden gebouwd op basis van kennis die uit data gedistilleerd wordt, samen met de aanwezige bedrijfskennis.
U had het ook over het toevoegen van macro-economische informatie aan deze mix. Waarom, en hoe moet dat dan?
De economie wijzigt voortdurend. Kijk maar naar de pessimistische voorspellingen voor de nabije toekomst. Het is daarom belangrijk te weten wat de impact is van macro-economische variabelen op de uitkomst van dataminingmodellen. Zo worden dataminingmodellen gebruikt om het veiligheidskapitaal te berekenen die een financiële instelling moet aanhouden. Dit moet een voldoende buffer zijn in hoog- en laagconjunctuur. Vandaar dat dataminingmodellen ook moeten toelaten om het effect van de macro-economie mee op te nemen, en zo ook mee te voorspellen.
Kan een doorsnee Belgisch bedrijf iets doen met deze nieuwe dataminingtechnieken, en zo ja wat?
Data mining wordt steeds populairder voor het ondersteunen van bedrijfsbeslissingen op zowel tactisch als strategisch niveau. Er is het berekenen van wanbetalingsrisico, en kans op verzekeringsfraude, maar ook cross selling, churn prediction (voorspellen van klantverloop), customer lifetime value modeling (voorspellen van lifetime waarde van een klant) en proces mining.
Process mining betekent dat je data mining gaat toepassen op je data om zo je businessprocessen te achterhalen. Kan iedereen dat doen?
De analyse van event logs is erg breed toepasbaar. In de toekomst zullen steeds meer systemen event logs bijhouden met de bedoeling om achteraf geanalyseerd te worden. Dat kan gaan van callcenterapplicaties en ERP-paketten tot systemen voor medische beeldvorming. Elk event in zo’n log bevat informatie over het tijdstip van een specifieke gebeurtenis, op een bepaald tijdstip uitgevoerd door een specifieke werknemer of klant, in een specifieke plaats enzovoort. De analyse van deze event logs levert onschatbare informatie op in verband met de performantie, conformiteit en de precieze aard van bedrijfsprocessen. De bedrijfsprocessen die businessanalisten op papier uittekenen, verschillen vaak van de bedrijfsprocessen die echt plaatsvinden. De discrepantie tussen wat gemodelleerd wordt en hoe bedrijfsprocessen écht verlopen kan met onze dataminingtechnieken worden geïdentificeerd.
Zijn de gegevens in mijn database wel goed genoeg om dat toe te laten?
In de praktijk is dat het pijnpunt. Data mining vereist data. En als men naar de kwaliteit van huidige databases in organisaties kijkt, is die vaak schabouwelijk. Er ontbreekt data, er zijn veel outliers (bijvoorbeeld: een leeftijd van 300 jaar), inconsistente data, duplicate data en slecht gedefinieerde data (wat is een slechte klant?). Dat is dan ook de belangrijkste uitdaging naar de toekomst toe. Door de kwaliteit van data te verbeteren, kunnen we betere dataminingmodellen gaan ontwikkelen.
Wat gebeurt er momenteel aan de KU Leuven, wat betreft DM onderzoek?
De LIRIS-vakgroep onder leiding van prof. Vanthienen, waar ikzelf ook toe behoor, doet al geruime tijd onderzoek naar business intelligence en verbetering van bedrijfsprocessen. Op het vlak van data mining leveren we bijdragen op het algoritmisch vlak. Recent is iemand gedoctoreerd over het gebruik van mierengedrag voor data mining. Maar we werken ook op het praktisch vlak, namelijk: hoe kunnen dataminingmodellen succesvol ingezet worden in een bedrijfcontext, in een gegeven informatiesysteemarchitectuur en zo verder.
Waar liggen volgens u de grote uitdagingen en opportuniteiten voor data mining?
De grootste uitdaging is het omvormen van data mining van een academische denkoefening naar een bedrijfsrelevante praktijk. De uitdagingen daarbij zijn verbeteren van datakwaliteit, het ontwikkelen van dataminingmodellen die begrijpbaar en transparant zijn, het integreren van dataminingmodellen binnen de IT-architectuur/gebeuren van een bedrijf en het ontwikkelen van frameworks die toelaten dataminingmodellen constant te monitoren en op te volgen. Dit zodat tijdig kan worden gedetecteerd wanneer de modellen geen goede output meer geven, en moeten worden vervangen.














