Gevoelige GitHub-data duikt op in Microsoft Copilot-AI

Het gezegde dat gegevens die je ooit op het internet deelt, altijd vindbaar blijven, lijkt zelfs voor AI-chatbots te gelden. Dat ontdekte het Israëlische beveiligingsbedrijf Lasso, dat naar eigen zeggen zelf ook is getroffen door het beveiligingsincident van de AI. Lasso kwam het probleem op het spoor toen het zijn GitHub-data terugvond via Microsoft Copilot. De AI-chatbot verkreeg de gegevens volgens de onderzoeker via het cache-systeem van Bing, dat openbare websites, waaronder GitHub-repositories, opslaat in zijn cachegeheugen.
De gegevens blijven ook beschikbaar nadat de websites ontoegankelijk zijn gemaakt, zegt Lasso-oprichter Ophir Dror in een verklaring aan TechCrunch. De GitHub-repositories van Lasso bleven namelijk beschikbaar via Copilot, zelfs nadat ze waren verborgen, terwijl ze niet meer te vinden zijn via een reguliere zoekopdracht op het internet.
16.000 organisaties getroffen
Dit treft alle GitHub-repositories die (tijdelijk) openbaar beschikbaar zijn geweest. Het maakt niet uit hoelang de gegevens toegankelijk zijn geweest: zodra Bing ze in de cache heeft opgeslagen, kan men ze met de juiste vragen ophalen via de AI-chatbot.
Volgens Lasso zou Microsoft Copilot gegevens van ruim 20.000 verborgen of verwijderde GitHub-repositories hebben opgeslagen, wat volgens Dror ruim 16.000 organisaties treft. Opvallend is dat het niet alleen om kleine bedrijven gaat. Ook potentieel gevoelige gegevens van partijen als Amazon Web Services, Google, IBM, PayPal, Tencent en zelfs Microsoft zelf staan opgeslagen in Copilot.
Het gaat onder meer om (vertrouwelijke) archieven met intellectueel eigendom, gevoelige bedrijfsgegevens, toegangssleutels en tokens. Deze gegevens zijn afkomstig van GitHub-repositories die normaliter privé zijn, maar per ongeluk (tijdelijk) openbaar toegankelijk waren.
‘Acceptabel risico’
Lasso heeft na de ontdekking van het beveiligingslek de zwaarst getroffen bedrijven geïnformeerd. Ook Microsoft werd op de hoogte gebracht van de GitHub-data die via Copilot toegankelijk is. De AI-ontwikkelaar zou de bevindingen van Lasso echter als “acceptabel” hebben bestempeld. Wel verwijderde Microsoft na de melding van Lasso in december 2024 de cache-resultaten uit de Bing-zoekmachine.
Hoewel deze gegevens hierdoor niet langer toegankelijk zijn via Bing, blijven ze wel beschikbaar in Copilot. De ernst van het probleem neemt daarmee niet af, al moeten aanvallers specifieke vragen stellen aan de AI-chatbot om toegang te krijgen tot de data.