Data-extractie is ingewikkeld
Wie denkt: gooi alle data maar in een bak en laat een slim algoritme op zoek gaan naar patronen en afwijkingen daarin, komt van een koude kermis thuis. Data-extractie is veel ingewikkelder dan verwacht. Ook bevatten de opgeslagen data vaak toch niet wat ‘men dacht’. Of er is geen vertrouwen in de opgedane inzichten. Het gevolg is dat je elke stap die half gedaan is, opnieuw moet zetten. Een grondige voorbereiding is dus het halve werk.
Begin met dataclassificatie
Het advies is daarom om altijd te beginnen met het classificeren van je dataresources: welke databronnen zijn er beschikbaar binnen en buiten mijn organisatie? Wat kunnen ze potentieel opleveren? Kan ik ze prioriteren aan de hand van de Moscow-matrix (Must, Should, Could, Would-have)? Bronnen kunnen afhankelijk van de toepassing een andere prioriteit hebben. Neem een ziekenhuis. Een gipskamer kan betere planningen maken als ze de weersvoorspelling integreren in hun datapijplijn: bij sneeuw, natuurijs of ijzel stijgt het aantal botbreuken explosief.
Inventariseer de bruikbaarheid
Heb je een lijst met potentiële bronnen en een classificatie daarvan, ga dan per bron na hoeveel tijd het kost om de data bruikbaar te maken voor je doel. Als je eerst een groot datakwaliteitstraject moet starten omdat de data onvolledig zijn of te veel fouten bevatten, dan wegen de investeringen wellicht niet op tegen de opbrengsten.
Betekent deze werkwijze dat je teruggaat naar het oude extraction, transformation and load (etl)- en datawarehouse-principe, met ingewikkelde integratietrajecten en lange doorlooptijden? Dat hoeft niet, want er is een gulden middenweg: je ontsluit geselecteerde en goed beschreven datasets (die heel groot en ongestructureerd mogen zijn), verzamelt ze in een data lake en gebruikt ze naar behoefte als bouwblokken voor latere analyse en integratie. Op deze manier creëer je een betrouwbare datastroom die maximale waarde en flexibiliteit biedt.