Beschikbaar maken en verrijken van data
Voordat diepgaande analyse van data plaatsvindt, wordt de data eerst beschikbaar gemaakt. In een voor het gekozen model beschikbaar format, op een toegankelijke locatie. Van eenvoudige, komma gescheiden bestanden tot genormaliseerde (ster) schema’s in een data warehouse. Ook kan het zijn dat er nog verrijking plaats moet vinden op (een deel van) de data. Maar alleen als de data wordt gebruikt voor het trainen van zogenoemde ‘supervised’ machine learning modellen. Dit wordt ook wel ‘labelen’ genoemd. Dit kan geautomatiseerd, in geval van (gestructureerde) historische data. Of handmatig. Is dat geen optie, dan worden er ‘unsupervised learning’ algoritmes onderzocht. Zoals clustering, neurale netwerken of detectie van uitschieters.
Het trainen en testen van de modellen
Voor het trainen van de modellen is een ruime keuze aan technologieën en platforms beschikbaar. Om gebruik te maken van deze diversiteit werkt Virtual Sciences Conclusion met het Expertise Platform dat beschikt over een service adoption layer. Denk hierbij aan adapters voor IBM Watson, WEKA, Python en SPSS. Modellen worden automatisch getraind, getest en gedeployed mits aan ingestelde specificaties wordt voldaan. Zijn al deze stappen afgerond? Dan wordt de daadwerkelijke analyse uitgevoerd en de uitkomsten gecommuniceerd. Denk aan BI en services.