Giga-expansie vraagt om Big Data

Giga-expansie vraagt om Big Data
Strategische inzet van data door bedrijven maakt het verschil tussen winst en verlies. het merendeel van de uitdijende hoeveelheid data is echter ongestructureerd opgeslagen. Big Data biedt uitkomst.

De exacte ramingen lopen uiteen, maar rond 2049 zou onze wereldbevolking zomaar de acht miljard mensen kunnen overschrijden. Tegen die tijd zal er een computer bestaan die de rekencapaciteit en informatieverwerking van al deze acht miljard mensen samen zal overschrijden.

De aanwas van wereldwijd beschikbare data – één van de meest waardevolle grondstoffen voor informatieverwerking – vertoont momenteel een groei van vijftig procent per maand. Dit zal toenemen tot zeker achthonderd procent in de komende vijf jaar. Het zal u niet verbazen dat voor bedrijfsleven en overheid de belangrijkste vraag is: hoe haal ik zo effectief en zoveel mogelijk waarde uit deze enorme hoeveelheid informatie?

Hierbij gaat het niet alleen om volume, maar ook om variëteit en snelheid. Nieuwe informatiebronnen en apparaten genereren elke seconde van de dag bergen informatie. Gestructureerd, zoals in informatiesystemen en databases, maar ook ongestructureerd, zoals YouTube-video’s, Facebook-posts, tweets, blogs, e-mails, foto’s en muziek. Het aantal berichten dat alleen vandaag al wordt verstuurd, is groter dan de gehele wereldpopulatie!

Dit heeft enorme consequenties voor de manier waarop we met data omgaan. Uit onderzoek blijkt dat 78 procent van de jongeren gebruikmaakt van internet bij het maken van huiswerk. Ze worden daarin steeds effectiever en navigeren pijlsnel in het woud van online informatie. Een dertienjarige is bij het schrijven van een werkstuk niet langer afhankelijk van de plaatselijke openbare bibliotheek. Jongeren zoeken snel en gemakkelijk informatie op internet met behulp van Google en Wikipedia. En als ze de juiste informatie niet direct zelf vinden, vragen ze het gewoon via sociale media aan de mensen in hun netwerk.

STUITEREN EN HOPPEN
Zit u op Twitter en wilt u iets weten? Gebruik dan de hashtag #durftevragen; zo vraagt u advies aan ruim 1,5 miljoen Nederlandse Twitter-gebruikers. Grote kans dat iemand het antwoord weet. Internet kan in die zin worden gezien als de externe harde schijf van het menselijk geheugen. Alle relevante informatie is binnen handbereik en de noodzaak om alles te onthouden wordt daarmee kleiner. Waarom zou je alles in je geheugen opslaan als je het met een klik op de knop terug kunt halen?

Uit onderzoek van professor David Nicholas van het University College London blijkt dat jongeren sneller online informatie tot zich nemen dan oudere generaties. In zijn onderzoek beantwoordden de meeste twaalf- tot achttienjarigen zijn vragen al voordat ze de helft van de beschikbare online informatiebronnen hadden bekeken. Ook bekeken jongeren de bronnen zes keer korter dan hun ouders. Nicholas constateert dat jongeren als het ware over het virtuele landschap stuiteren. Vier van de tien jongeren blijken bij het surfen nooit naar dezelfde pagina terug te keren. ‘Ze hoppen van site naar site, kijken naar één of twee pagina’s, surfen weer verder, kijken opnieuw naar één of twee pagina’s en gaan weer verder.’ Deze vluchtige manier van surfen verschilt met die van eerdere generaties. Mensen die zijn opgegroeid vóór het internettijdperk keren wel regelmatig naar dezelfde informatiebron terug.

SNEL, SCHAALBAAR, FLEXIBEL
Ook voor bedrijven en organisaties is het snel verwerken van grote hoeveelheden gevarieerde data een significante uitdaging. Want hoe ervoor te zorgen dat de juiste data beschikbaar zijn op het juiste moment om een gefundeerde zakelijke beslissing te nemen? Volgens een door McKinsey aangehaalde wetenschappelijke publicatie verhoogt effectief gebruik van data en analytics de productiviteit, winstgevendheid en marktwaarde van bedrijven met vijf à zes procent. In sommige industrieën zal de strategische inzet van data-analyse zelfs het verschil gaan maken tussen winst en verlies.

Voor zakelijke beslissingen maken de meeste bedrijven en organisaties momenteel hoofdzakelijk gebruik van gestructureerde data in strak beheerde en beveiligde informatiesystemen, die zijn gebouwd door oudere generaties. Maar dit geeft slechts een beperkt beeld, aangezien het merendeel van de data (85 procent) op een ongestructureerde manier is opgeslagen en zich zowel binnen als buiten de grenzen van een bedrijf of organisatie kan bevinden. Daarnaast is het de verwachting dat 75 procent van de data warehouses niet schaalbaar genoeg is om in 2016 aan de snelheid- en capaciteitseisen te kunnen voldoen.

Dit vraagt om totaal andere data-systemen dan de bestaande data warehousing-oplossingen: Big Data. Big Datasystemen zijn snel, schaalbaar, flexibel en in staat om zowel gestructureerde als ongestructureerde data te integreren.

PRIORITEITENLIJST
Technisch is er sprake van Big Data als de data:

• Alléén waardevol zijn voor de business bij snelle beschikbaarheid (near realtime);
• Afkomstig zijn uit meerdere bronnen;
• Flexibel ‘verrijkt’ kunnen worden met andere (ongestructureerde) data.

Big Data-systemen zijn in de praktijk steeds vaker gedistribueerde netwerken van eenvoudiger pc’s en servers. Dit maakt Big Data-systemen schaalbaar: opslag- en rekencapaciteit kunnen eenvoudig worden toegevoegd. Speciale Big Data-soft ware knipt de data in stukken en verdeelt en kopieert deze stukken vervolgens naar meerdere locaties binnen het netwerk.

Deze manier van dataverdeling geeft een dergelijk ‘gedistribueerd netwerk’ een aantal bijzondere eigenschappen:
• Snel: bij het opvragen van data worden de snelst beschikbare data-fragmenten parallel vanaf meerderde locaties ingeladen;
• Redundant: alle data zijn op minstens twee fysieke locaties in het netwerk beschikbaar;
• Flexibel en altijd online: in tegenstelling tot klassieke IT-systemen hoeft een systeem nooit offline voor onderhoud.

Een gedistribueerd Big Data-netwerk heeft geen single point of failure. Als we de situatie binnen bedrijven en organisaties gaan aanpakken met Big Data en combineren met de beschreven veranderingen in de manier waarop we met informatie omgaan, dan roept dit de vraag op of gestructureerde informatie nog wel nodig is. Dat dit thema momenteel nog niet bovenaan de prioriteitenlijst staat, is begrijpelijk. Maar gezien de doorslaggevende rol die informatie gaat spelen bij het voortbestaan en succes van de organisatie, is het nu wel tijd om ervoor te zorgen dat de juiste data beschikbaar zijn op het juiste moment, om zo gefundeerde zakelijke beslissingen te nemen.

Jeroen Bronkhorst is Chief Technology Officer Corporate Accounts bij Hewlett Packard Nederland.

Deze analyse over Big Data is gepubliceerd in Management Scope 06 2013.

facebook