Bill Inmon's nachtmerrie

Deze overdenking begon met de vraag: "Hoe moeten we omgaan met steeds meer operationele data in het datawarehouse?". Hij groeide echter uit tot een wat bredere bespiegeling. Dat tegen de achtergrond van de strijd van Bill Inmon voor een correct gebruik van de term "data warehouse".

Neem bijvoorbeeld een dimensionele statusdatabase met historie, is dat een ODS? Een database? Of mag het toch, omdat het een samenstel van facts en dimensies is, een datawarehouse heten?

Bill Inmon komt in zijn stukje op het B-Eye network (http://www.b-eye-network.com/view/9020) enigszins machteloos over als hij zijn geesteskind 'data warehouse' vergelijkt met Action Datawarehouse, een naam van een product van een real-time data-integratiesysteem dat vooral operationele informatie produceert. Al werden er alleen regels aan het systeem toegevoegd en geladen in informatiesterren van feiten en dimensies, misschien is dit wel zo, toch vindt Bill dat het geen data warehouse mag heten. Omdat er 24/7 beschikbaarheid is, de data vrijwel real-time beschikbaar wordt gesteld en het soort vragen dat met dit systeem worden beantwoord niet strategisch van aard zijn maar zeer 'clerical' van karakter. Bill heeft natuurlijk als geen ander het recht om dit geen data warehouse te vinden.

Ik trek me dat wel aan. Vanuit het standpunt gezien van de vader van het data warehouse, die een patentaanvraag op de naam data warehouse niet gehonoreerd zag worden, is het volledig tegen de definitie van het data warehouse: "een onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevensverzameling met als doel het maken van management informatie." En dat is een definitie waar we natuurlijk allemaal mee opgegroeid zijn.

Aan de andere kant, Bill Inmon zou het inzicht kunnen hebben dat de wereld niet stil staat en er in een levendige wereld als die van de informatieproductie vooral ook leveranciers gebruik willen maken van de term. Wat is er ook op tegen? Als het woord letterlijk genomen wordt: 'gegevenspakhuis' klopt de benaming. Daar mag volgens mij geen bezwaar tegen gemaakt worden. De wereld veranderd snel, de informatiebehoefte ook en de bij het data warehouse team verzamelde kennis, gegevens, meta-informatie en ervaring is een perfecte plek om ook andere informatievraagstukken neer te leggen.

Bij die teams lopen de meningen ook uiteen. Er zijn puristen die zeggen: "Wij doen alleen aan management informatie", geen levering van gegevens op detailniveau. Aan de andere kant van het spectrum zijn er mensen zoals Ron Tolido van Cap Gemini die een "Infostructure" zien verschijnen uit de IT domeinen waaruit 'de business' haar informatie op allerlei niveau's hapklaar kan consumeren. De waarheid zal voor een ieder ergens op deze schaal liggen en moet voor wat betreft architectuur, management en groeipad wel voor iedereen duidelijk zijn.

Zet daarbij de ontwikkelingen van het vinden van de single point of truth (of liever single point of definition) niet ín het datawarehouse maar in de Master Data, waar het dwh dan weer op kan aansluiten, dan heb je een aardige mix van mogelijke (bottom-up) initiatieven die elkaar kunnen gaan overlappen of mogelijk niet aansluiten.

De vraag is dus niet alleen hoe we moeten omgaan met veranderend karakter van de data in het datawarehouse maar wat moeten we allemaal doen op datagebied in een scope die organisatie-overstijgend is, om een eenduidig informatieproduct op alle niveau's te kunnen borgen.

Dat deze vraag breed leeft, blijkt uit de enorm toegenomen vraag om hulp bij het realiseren van meer grip en regie bij grote organisaties. Deze vraag is vaak voor een groot deel te beantwoorden door inrichting van pro-actief informatie- en datamanagement en de bijbehorende governance. Een grote verschuiving van aandacht naar het "datadomein" waar een nieuw informatielandschap uit ontstaat. Ik vind dat we Bill Inmon een plezier moeten doen en moeten zorgen dat het onderdeel van het informatielandschap (Infostructure?) dat zo kan ontstaan, het onderdeel dat zorgt voor de managementinformatie die is gemaakt uit de onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevens, een label "Datawarehouse" krijgt!

Deze post is een herplaatsing van de column in Computable van december 2008.
Ik ben benieuwd naar jullie mening.

Reacties

Populaire posts van deze blog

OTAP reloaded

What's up with roles in data management?

Boos om "BI betaalt zich bijna nooit terug" kop in Computable