Tuesday, June 19, 2012

Beyond datawarehousing?

November 2011 was het weer tijd voor de beurs Security/Storage/Tooling event. Er stond een spreker van IBM op de rol, een global strategist vanuit Amerika. Hoewel het onderwerp niet lokte ('technieken voor massa-opslag van data' of zo), kozen we de lezing omdat een IBM-kanon altijd kwaliteit garandeert, En dat was een goede keuze; de zaal zat maar voor een kwart vol, maar de lezing was zeer goed. (Daarentegen bezochten we ook een lezing over de cloud, waarbij de zaal stampvol zat maar de lezing eigenlijk heel matig was. Zo zie je maar, dat je beter kunt kiezen voor kwaliteitsorganisaties dan voor opgeklopte onderwerpen.)
Marc Teerlink, global strategist IBM, vertelde over onvoorstelbare computerkracht. IBM heeft een intelligente computer, Watson; volgens mij is deze genoemd naar de oprichter van IBM. Watson weet alles, kent alle feiten en raadpleegt een onnoemelijk aantal bronnen: kranten, tijdschriften, databanken, bedenk het maar. En Watson kan daarmee ook aan de slag door te rekenen en te analyseren. 3000 algoritmen binnen de computer gaan de ruwe data te lijf.
Ik vond het interessant, dat er dus geen ETL-mechanisme is, maar dat Watson direct werkt op de 'raw data'. (ETL is het mechanisme waarmee datawarehouses data extraheren en standaardiseren om het geschikt te maken voor laden in het datawarehouse.) Tussen 2005 en 2008 werd er bij UWV gewerkt aan een datawarehouse om de gegevens uit de loonaangifte te gebruiken voor analyses. In 2008 viel die activiteit onder mijn verantwoordelijkheid en in die tijd kwam er een leverancier binnen die beweerde, dat het hele datawarehouse overbodig was en alleen maar gigantische opslagkosten veroorzaakte. Ik moet nu terugdenken aan deze expert; misschien had hij gelijk maar was hij in zijn denken zijn tijd te ver vooruit. Hij wilde namelijk ook analyses uitvoeren op de enorme massa van 'raw-data' van de loonaangiftes.
IBM's Watson heeft naam gemaakt door de quiz Jeopardy te winnen. Dat is een Amerikaanse quiz, waarin je alles moet weten over elk denkbaar onderwerp. Watson weet in principe alles en kan dus van elke menselijke speler winnen. Maar het bleek, dat spelers ook de tactiek hebben om al op de knop te drukken, als de quizmaster nog niet klaar is met het stellen van de vraag. Ze denken tijdens het stellen van de vraag al te weten, wat de uiteindelijke vraag gaat worden. De computer Watson wachtte in eerste instantie netjes totdat de vraag gesteld was en begon dan pas te processen. Uiteindelijk hebben de ontwerpers van Watson een factor bepaald, waarmee Watson ook te vroeg ging drukken. Bij het zoeken naar antwoorden raadpleegt Watson dus vele bronnen. Waarbij de gegevens ook worden gewaardeerd, zodat gegevens uit wetenschappelijke publicaties een hoog cijfer krijgen, Wikipedia wat minder en sensatiekranten weer minder.
Teerlink legt uit, dat bij de redeneringen bepaalde valkuilen vermeden moeten worden. Zo is er een verschil tussen correlatie en causation. De dolfijnen die altijd voorop zwemmen in de school hebben meer spieren en sterkere vinnen en ook meer beschadigingen aan de vinnen. De eerste twee zaken zijn causaal en de laatste gecorreleerd.
Er schijnen al interessante toepassingen te zijn voor Watson. Zo kan het artsen helpen bij diagnose. Dat kan ik mij goed voorstellen, want artsen moeten bij het beoordelen van verschijnselen en meetresultaten een enorme beslisboom van mogelijkheden langs en zo'n computer kan daar natuurlijk zeer behulpzaam bij zijn. Watson kan met zijn enorme feitenkennis ook expertsystemen ondersteunen. En helpdesken kunnen met deze technologie doe-het-zelf worden. (Hoewel ik pas te maken had met een doe-het-zelf assistent bij de helpdesk van Tele2, die er echt nog helemaal niks van bakte, zodat je na een paar minuten rommelen toch werd door verwezen naar een helpdeskmedewerker.)
Interessant feit: Watson gebruikt nu nog een vermogen van 85 kW, terwijl het menselijk brein 20w gebruikt. Teerlink concludeert dan, dat de de footprint nog omlaag kan. Zelf concludeer ik, dat het menselijk brein toch een ongelooflijk knap fenomeen is, dat met zo weinig inspanning nog steeds elke computer overtreft in prestatie.