Risico 1: niet geverifieerde data
Voor de bekende LLM’s (denk ook aan LLaMA en BARD) zijn gigantische hoeveelheden trainingsdata gescrapet van het internet. Hoe imposant de trainingssets ook zijn, de inhoud van de content die wordt gegenereerd is helaas niet altijd te vertrouwen. LLM’s blijven in feite veredelde autocorrecties die op basis van statistiek woorden achter elkaar zetten. Wat ook niet helpt: de trainingsdata van bijvoorbeeld ChatGPT is twee jaar oud.
De gevolgen zijn bekend. De gegenereerde content is in een aantal gevallen (deels) onjuist. Berucht zijn de problemen op het gebied van logisch redeneren, content met een bias en ‘hallucinaties’: het genereren van plausibel klinkende content die feitelijk onjuist is of totaal geen verband houdt met de gegeven context.
Mijn advies? Hoe krachtig en intelligent de tools ook lijken, mijn motto luidt: verifiëren, valideren en nog eens verifiëren.
Risico 2: data die gebruikers toevoegen
Gebruikers nemen in prompts vaak hele lappen tekst op, denk aan een arts die een andere kijk op een patiëntendossier verlangt, een advocaat die een echtscheidingsconvenant laat checken of een developer die fouten in softwarecode wil opsporen.
Wat gebeurt er vervolgens met deze input? Worden de gegevens alleen bewaard of ook weer als trainingsdata gebruikt? En wordt de data dan uitsluitend voor jezelf gebruikt of voor álle gebruikers van het systeem? Nu tools als ChatGPT en AutoGPT steeds vaker geïntegreerd worden met andere applicaties, wordt het risico dat je informatie op oneigenlijke wijze wordt gebruikt – of wordt buitgemaakt bij een hack – ook steeds groter.
Italië stelde dat ChatGPT niet AVG-proof is omdat niet duidelijk omschreven was wat er met persoonsgegevens in de prompts gebeurt (dit probleem is inmiddels opgelost). En Samsung kwam erachter dat grote hoeveelheden van hun broncode waren geüpload, waarop ChatGPT en andere generatieve AI-tools aan banden werden gelegd.
Mijn advies? Wees voorzichtig bij het geven van prompts en wijs medewerkers op deze risico’s. Vermijd gevoelige en persoonlijke data en upload nooit hele stukken code of volledige documenten zonder de gevoelige delen te ‘blurren’. Het gebruik wordt hierdoor niet minder effectief, maar je vermijdt de kans op data- en/of intellectuele eigendomslekken.