Slechte big data maakt een algoritme alleen maar dommer
20 augustus 2020 | Nieuws | Door: AMIS Conclusion
Deel
Heeft u thuis een robotgrasmaaier? "Met verbazing constateer ik dat mijn maaier telkens dat ene plukje gras mist en steeds vast loopt in die ene kuil in het grasveld. De belofte van algoritmes en Kunstmatige Intelligentie is niet veel beter." "We zien de voordelen van het automatiseren van routinematige taken maar zodra het iets complexer wordt lopen we vast in onjuiste data en aannames." De praktijk wijst uit dat bedrijven die succesvol zijn in hun digitale transformatie meer tijd spenderen aan het opschonen van data dan aan het daadwerkelijk bouwen van algoritmes. Meer dan 80% van bedrijven worstelt met de kwaliteit van data, een zelfde aantal geeft aan dat ze niet voldoende waarde uit de data halen maar dat hun organisatie te complex is om deze data tijdig en juist aan te leveren (onderzoek SAP). Deze bedrijven worstelen met data management, de behoefte aan business analytics, security en de gevolgen van data privacy.
Om het voordeel van algoritmes te benutten is het verstandig om de data op te schonen en de mogelijkheden qua mogelijke uitkomst in het begin te beperken. Je stuurt je robotgrasmaaier ook niet zomaar de wildernis in, maar je zorgt voor een gelijkmatig begaanbaar gazon als begin. Veel bedrijven zijn van hun data strategie niet alleen maar afhankelijk van interne (beheersbare, gevalideerde en gestructureerde) bronnen. Steeds meer organisaties combineren namelijk ook hun interne data met externe bronnen zoals sensors, marktinformatie, social media en ongestructureerde bronnen. Deze toegenomen complexiteit, diversiteit en hoeveelheid van data vereist nieuwe methodieken van verzamelen, bewerken en opschonen.
"Je stuurt je robotgrasmaaier toch ook niet zomaar de wildernis in?"
Zorgen voor grip op de datastromen
Beheersing van de stroom van data is essentieel voor toegevoegde waarde uit algoritmes.
Het idee om de binnenkomende data in een data lake op te slaan wordt steeds populairder. Hier ontstaat wel de uitdaging om de hoog gestructureerde eigen bedrijfsdata samenkomt met de minder betrouwbare externe data. Het idee dat het data lake dit gaat oplossen is een illusie. Ook hier is het van belang om de datastroom goed te identificeren, labelen en op te schonen voordat deze in het data lake terecht komt. Er is nog geen uniforme set aan tools die met al deze typen data om kan gaan. Voor het identificeren, labelen, analyseren, en opschonen van sensordata, video, audio, documenten, tekst, logfiles zijn verschillende tools en methodieken beschikbaar.
Voor het toepassen van een effectieve data analyse en algoritme strategie zijn de volgende drie punten essentieel:
- Zorg ervoor dat je de juiste data hebt. Dus die data die van belang is voor het genereren van waarde. Onafhankelijk van het type oplossing en de bron. Dus als je wilt sturen op de operationele efficiency van een fabriek moet je starten met het verzamelen van de momenten dat een fabriek operationeel is, wordt omgesteld, in onderhoud is of dat hij in storing is. Het startpunt is het vaststellen van de definitie van deze metingen.
- Zorg ervoor dat je de juiste tools en algoritmes hebt om deze typen data te analyseren, labelen en te identificeren. Het platform dat je gebruikt moet geschikt zijn om onjuiste of ongewenste meetwaarden uit te filteren en om te vormen. Als je de performance van je koelhuizen wilt meten moet je ervoor zorgen dat de binnenkomende date uniform geclassificeerd is (dus temperatuur in Celsius, stroomgebruik in KWh, hoeveelheid product in kilogram), anders zijn deze data slechts willekeurige getallen.
- Zorg voor een cloud gebaseerde doel omgeving waarin je snel en geautomatiseerd de analyse software kunt deployen zodat je voldoende ruimte hebt om te experimenteren en op te schalen. Hierbij zijn de best practices uit software ontwikkeling van toepassing. Maak daarbij gebruik van build pipelines, infrastructure as code en automated deployment en automated testing.
Verder is het belangrijk dat je de juiste mensen hebt aangesloten bij je data analyse en bouwen van de algoritmes. Samenwerking tussen:
- De data engineer die begrijpt wat de bron is van de data en in welke vorm deze binnen komt.
- De data scientist die begrijpt hoe ze waardevolle informatie uit de data kunnen halen.
- Het team met devops specialisten die weten hoe ze snel een data analyse lifecycle kunnen leveren.
- En als belangrijkste: de business owner die de behoefte van de organisatie en de klanten kent.
Om dit team maximaal te laten samenwerken moet ze in staat zijn om de business doelen te begrijpen en te vertalen naar de data bronnen. Daarnaast moet het team ook bekend zijn met metadata management, tools en methoden voor beheersbaar opschonen en combineren van data. Het doorlopen van de stappen van ruwe brondata tot bruikbare data in het data lake is een proces dat door dit hele team nauwkeurig en stapsgewijs afgelopen moet worden. Tot slot moet het team bekend zijn met de relatie tussen de data en de te behalen bedrijfsdoelen.
Continuous delivery voor algoritmes
Net als bij reguliere software ontwikkeling moet er voor het bouwen van een algoritme en data een nauwkeurig opgestelde opleverlijn gebruikt worden. Deze lijn breekt het proces van ophalen en opschonen van data op in stukken. Door gebruik te maken van automatisering van dit proces kan je, indien nodig, moeiteloos extra capaciteit opschalen. Vergeet hier uiteraard niet het validatie proces van de data waarbij bij binnenkomst getoetst wordt of de data nog steeds waardevol en juist is. Want ook hier geldt ‘Garbage In is Garbage Out’. Alleen op deze wijze kan een bedrijf maximaal waarde uit de beschikbare data halen en positieve bijdrage aan de marge en klanttevredenheid leveren.
Zorg voor de juiste verwachting en een iteratief proces
Voor een data gedreven strategie is het van belang om vooraf duidelijk te hebben wat de verwachtingen zijn van resultaten van de algoritmes. Maar ook om helder te hebben of de juiste data van de juiste kwaliteit aanwezig is om de gevraagde antwoorden te genereren.
Als we teruggaan naar de grasmaaier is het realistisch om te verwachten dat hij op eigen beweging zorgt dat mijn gazon er netjes uit blijft zien. Dat hij niet werkt op de momenten dat ikzelf in de tuin wil zitten of als het erg hard regent. Maar ook dat hij zelf zorgt voor een optimale route en eventuele blokkades zelf ontwijkt. Hiervoor moet ik zorgen dat hij een kaart heeft van mijn gazon, een duidelijk inzicht krijgt in mijn agenda van tuingebruik en gebruik kan maken van de weersverwachting. En dan nog steeds verwacht ik niet, dat mijn robotmaaier ook zorgt voor het planten van bloembollen, het snoeien van de hortensia’s of bij een tuinfeest zorgt voor het rondbrengen van de hapjes en drankjes. Dat kan wel, maar daarvoor is weer andere data nodig. Ik zie dat bij elke uitdaging een oplossing vanuit data mogelijk is. De kwaliteit van de oplossing is sterk afhankelijk van de juistheid van de data die daarvoor gebruikt wordt. Een goed algoritme kan nog steeds erg slechte keuzes maken als het niet beschikt over de juiste data.
"Voor een data gedreven strategie is het van belang om vooraf duidelijk te hebben wat de verwachtingen zijn van resultaten van de algoritmes. Maar ook om helder te hebben of de juiste data van de juiste kwaliteit aanwezig is om de gevraagde antwoorden te genereren."