Succes met AI begint met betrouwbare data: hoe pak je dit aan?

AI drijft op data. Zonder kwalitatief hoogwaardige, consistente en actuele data kan AI niet optimaal presteren. De metafoor van de ijsberg illustreert dit perfect: het grootste deel van het werk ligt onder de oppervlakte. Maar hoe zorg je ervoor dat je data klaar is voor de AI van vandaag én morgen?

6 januari 2025   |   Nieuws   |   Door: AMIS Conclusion

Deel

Waarom data-integratie essentieel is voor AI

De informatieverwerkende capaciteit van een model of een organisatie is volledig afhankelijk van kwalitatief hoogwaardige data. Data die beschikbaar moet worden gemaakt. Altijd, overal. Zonder deze basis kunnen AI-modellen niet betrouwbaar functioneren. Net als bij rapportages en dashboards speelt 80% van het werk zich onder de oppervlakte af. Het ontsluiten, valideren en integreren van data vormt de fundering voor elk succesvol AI-project. Zonder deze stappen blijft AI beperkt tot experimenten, terwijl een solide datafundament schaalbare en waardevolle toepassingen mogelijk maakt.  

Beschikbaarheid van data in 4 niveaus

Data bevindt zich vaak in een aantal lagen ‘onder de oppervlakte’, verspreid over verschillende databronnen zoals applicaties, databases, bestanden, sensoren, machines of devices. Elk van deze bronnen heeft zijn eigen vorm, toegang, beveiliging en definities. Dit maakt het ontsluiten delen van data complex. De vier niveaus van datatoegankelijkheid helpen om deze uitdaging inzichtelijk te maken:

Niveau 1: Standalone data (silo’s)

Op het eerste niveau zit data vast in één systeem of applicatie. Het wordt alleen gebruikt waarvoor het primair voor bedoeld is, zoals in een specifieke machine waarvan de data alleen toegankelijk is voor de onderhoudsmonteur via ‘dat speciale kabeltje’. Dit beperkt de toegang en maakt de data onbruikbaar voor andere toepassingen. 

Niveau 2: Connected data

Het onttrekken van die data en beschikbaar maken voor andere toepassingen is de eerste stap van integratie. Dit betekent het creëren van veilige toegang, het kiezen van een communicatieprotocol en het vertalen van data naar een toegankelijke, eenduidige vorm. Hierbij is het belangrijk om inconsistente of onbetrouwbare data te filteren. Vanaf dit punt is de data geschikt voor verdere verwerking. 

Niveau 3: Geïntegreerde data

Op het derde niveau werk je met geïntegreerde databronnen. Dit is het niveau waarop data voor je gaat werken. De ene databron voedt de andere, en applicaties worden geïntegreerd, zodat data in elke toepassing actueel en consistent is. Data uit een bron wordt op verschillende plaatsen gebruikt, zonder kopieerslag. Met behulp van IoT-technologie wordt data uit sensoren en machines als streaming data verwerkt. Dit maakt het mogelijk om de staat van apparaten te monitoren en processen in real-time bij te sturen. Gebruikers van systemen en applicaties worden op dit niveau het meest ontlast: er hoeft niets meer handmatig overgetypt of gekopieerd te worden. Bovendien heb je geen discussies meer over 'de waarheid', zoals “mijn systeem zegt…”..

Vaak wordt op dit niveau gebruikgemaakt van zogenaamde business rules. Deze regels zorgen ervoor dat data automatisch verwerkt wordt. Denk aan een inkooporder die automatisch wordt omgezet in een verkooporder, of een factuur die direct leidt tot een betaling. Een scan van een barcode in de ene applicatie die leidt tot een werkorder in een andere. Zelfs de overschrijding van een drempelwaarde kan automatisch een waarschuwing of actie triggeren. Op dit niveau haal je maximaal voordeel uit geïntegreerde data. 

Niveau 4: Intelligente of autonome databronnen

Op het vierde niveau wordt vooral geëxperimenteerd met intelligente of autonome data. Hier draait alles om volledig geautomatiseerde processen of het genereren van voorstellen op basis van data. AI-modellen worden ingezet om voorspellingen te doen, nieuwe data te genereren of de hierboven genoemde drempelwaarden bij te stellen op basis van eerdere gevallen. Denk hierbij aan automatische hertraining van modellen, waardoor ze blijven leren en zich aanpassen aan nieuwe situaties.

Ik zeg experimenteren omdat het vaak stopt na een proof-of-concept of een eerste versie. Dit komt niet doordat AI-tooling onbetrouwbaar of te kostbaar is, maar omdat de data onvoldoende is ontsloten. Zonder goed ontsloten en geïntegreerde data is het vrijwel onmogelijk om AI op een autonoom niveau te laten werken. 

Succesvol naar niveau 4: van data-integratie naar autonome AI

Hoe zorg je er nou voor dat je inzicht krijgt in de voorwaarden om wél succesvol te zijn op niveau 4: intelligent, autonoom en AI-gedreven? 

  1. Inventariseer wat je hebt
    Begin met een scan van alle databronnen die je in huis hebt. Dit biedt vaak al verrassend veel inzicht in het datagebruik binnen je organisatie.
  2. Identificeer het gebruik van elke bron
    Kijk per databron op welk niveau deze wordt gebruikt en of dat structureel of incidenteel is. Wordt data actief gedeeld met één of met alle relevante gebruikers? 
  3. Analyseer betrouwbaarheid en consistentie
    Zorg dat de definities helder zijn en dat de juiste data voor het juiste doel wordt gebruikt. Controleer ook of er sprake is van gecontroleerde toegang en gebruik. Dit minimaliseert fouten en garandeert kwaliteit.
  4. Verbeter efficiëntie en effectiviteit
    Optimaliseer processen door slim gebruik te maken van uniforme toegang, validatie en verwerking. Hiermee elimineer je inefficiënties en verminder je handmatig werk. 
  5. Borg en monitor de beschikbaarheid
    Zorg ervoor dat je databronnen altijd actueel zijn en een voldoende servicelevel bieden om zowel je dienstverlening als AI-algoritmes optimaal te ondersteunen.

Het belang van een soepele dataflow

Uiteindelijk kun je met een soepele flow van data bepalen of je werkt met statische regels of juist meer gebruik wilt maken van actieve bijsturing. AI kan hierin een groot verschil maken, bijvoorbeeld door validatie en monitoring automatisch bij te stellen op basis van nieuwe inzichten. 

AI kan ook helpen om handmatige acties te optimaliseren. Denk aan het doen van voorstellen voor acties (defaults of advies) en het beoordelen wanneer deze worden overgenomen. Op basis hiervan kun je gecontroleerd overstappen op geautomatiseerde of zelfs autonome besluitvorming.  

80% van AI-succes draait om de beschikbaarheid van data

Het werk om AI structureel in te zetten draait vaak om wat we noemen integratie en data-engineering. Dit is een van de meest onderschatte onderdelen van informatieverwerking: 80% van het werk zit in het zorgen dat data in de juiste vorm, op het juiste moment en met de juiste kwaliteit beschikbaar is. Dit maakt dat slechts 20% van de tijd besteed kan worden aan het daadwerkelijk geven van betekenis aan diezelfde data.

Een belangrijke toevoeging is dat die 80% zich niet beperkt tot alleen AI. Stel je eens voor hoeveel efficiencyvoordeel je kunt behalen als data altijd goed verwerkt wordt. Hoeveel extra processen je kunt automatiseren. Hoeveel effectiever je kunt werken als je altijd volledige en actuele informatie tot je beschikking hebt.