Drie security-risico’s van ChatGPT – en evenveel praktische adviezen

Tools als ChatGPT zijn een enorm krachtige business enabler – en tegelijkertijd een serieus information security-risico. Dennis Pieterse, chief information security officer bij Conclusion Enablement, signaleert drie risico’s en biedt evenveel praktische adviezen om het gebruik van generatieve AI binnen je organisatie in goede banen te leiden.

23 juni 2023   |   Blog   |   Door: Dennis Pieterse, Chief Information Security Officer bij Conclusion Enablement

Deel

Enablement Data en code

Vol gas geven én tijdig kunnen remmen

Artikelen schrijven, broncode checken, suggesties geven: ondanks alle bekende tekortkomingen is het razend populaire ChatGPT een krachtige tool om het (werkende) leven een stuk efficiënter te maken. Vooropgesteld: als technologiebedrijf juicht Conclusion Enablement dit soort nieuwe ontwikkelingen van harte toe.

Tegelijkertijd moet ik als chief information security offer ook waarschuwen voor de informatiebeveiligingsaspecten van dit soort large language models (LLM’s). Ik signaleer drie belangrijke risico’s. Tegelijkertijd geef ik evenveel adviezen waarmee je medewerkers het gaspedaal vol kunnen intrappen én tijdig kunnen remmen.

Hoe imposant de trainingssets ook zijn, de inhoud van de content die wordt gegenereerd is helaas niet altijd te vertrouwen.

Dennis Pieterse

Risico 1: niet geverifieerde data

Voor de bekende LLM’s (denk ook aan LLaMA en BARD) zijn gigantische hoeveelheden trainingsdata gescrapet van het internet. Hoe imposant de trainingssets ook zijn, de inhoud van de content die wordt gegenereerd is helaas niet altijd te vertrouwen. LLM’s blijven in feite veredelde autocorrecties die op basis van statistiek woorden achter elkaar zetten. Wat ook niet helpt: de trainingsdata van bijvoorbeeld ChatGPT is twee jaar oud.

De gevolgen zijn bekend. De gegenereerde content is in een aantal gevallen (deels) onjuist. Berucht zijn de problemen op het gebied van logisch redeneren, content met een bias en ‘hallucinaties’: het genereren van plausibel klinkende content die feitelijk onjuist is of totaal geen verband houdt met de gegeven context.

Mijn advies? Hoe krachtig en intelligent de tools ook lijken, mijn motto luidt: verifiëren, valideren en nog eens verifiëren.

Risico 2: data die gebruikers toevoegen

Gebruikers nemen in prompts vaak hele lappen tekst op, denk aan een arts die een andere kijk op een patiëntendossier verlangt, een advocaat die een echtscheidingsconvenant laat checken of een developer die fouten in softwarecode wil opsporen.

Wat gebeurt er vervolgens met deze input? Worden de gegevens alleen bewaard of ook weer als trainingsdata gebruikt? En wordt de data dan uitsluitend voor jezelf gebruikt of voor álle gebruikers van het systeem? Nu tools als ChatGPT en AutoGPT steeds vaker geïntegreerd worden met andere applicaties, wordt het risico dat je informatie op oneigenlijke wijze wordt gebruikt – of wordt buitgemaakt bij een hack – ook steeds groter.

Italië stelde dat ChatGPT niet AVG-proof is omdat niet duidelijk omschreven was wat er met persoonsgegevens in de prompts gebeurt (dit probleem is inmiddels opgelost). En Samsung kwam erachter dat grote hoeveelheden van hun broncode waren geüpload, waarop ChatGPT en andere generatieve AI-tools aan banden werden gelegd.

Mijn advies? Wees voorzichtig bij het geven van prompts en wijs medewerkers op deze risico’s. Vermijd gevoelige en persoonlijke data en upload nooit hele stukken code of volledige documenten zonder de gevoelige delen te ‘blurren’. Het gebruik wordt hierdoor niet minder effectief, maar je vermijdt de kans op data- en/of intellectuele eigendomslekken.

Het is één grote black box. En dat is risicovol.

Dennis Pieterse

Risico 3: output die beschermd wordt door rechten

LLM’s en andere AI-tools zijn dus gevoed met gigantische trainingssets. Hoe ziet de set er precies uit? Is de data gemodereerd – en zo ja, hoe? Welke criteria worden gehanteerd? Het is één grote black box. En dat is risicovol.

Niet alleen omdat de output feitelijk onjuist kan zijn. Maar ook omdat de gescrapete data persoonsgegevens kan bevatten of juist content die wordt beschermd door intellectuele eigendoms- of auteursrechten. Dit betekent dat je output kunt krijgen die – als het te letterlijk is terug te voeren op de bron – strijdig is met deze rechten.

Een duidelijk teken dat er beschermd materiaal wordt gescrapet: AI-tools als Midjourney en DALL·E genereren afbeeldingen waarin copyrighttekentjes voorkomen.

Mijn advies?  Ook hier is verifiëren van de output een must. Vermeld dat er gebruik is gemaakt van AI-tooling. En overweeg tools te gebruiken waarbij de input geverifieerd rechtenvrij is én waarbij rechtenvrij gebruik van de output wordt gegarandeerd.

Bedrijfsbreed, iteratief beleid

Inmiddels is het AI-gebruik binnen ieder bedrijf in gang gezet. Wacht met het opstellen van beleid of gedragscodes daarom vooral niet tot de overheid met wetgeving en/of regulering komt, want dat duurt te lang. Wacht ook niet tot de context volledig duidelijk is, aangezien de ontwikkelingen daarvoor te snel gaan. Het opstellen van bedrijfsbreed – maar vooral iteratief – beleid is daarom key voor het omgaan met deze mooie, nieuwe ontwikkelingen.

Dit artikel verscheen eerder in een kortere versie op Computable.

Lees ons eerdere blog over securityBekijk onze casesTerug naar ons nieuwsoverzicht