dinsdag 22 oktober 2013

Europese privacy wet heeft impact op data management

De EU voert een wet in die burgers en hun gegevens verregaand beschermd. Officieel gaat het niet in de eerste plaats om terugdringing van de ongebreidelde spionagepraktijken van de Amerikaanse NSA en gelijken, maar dat is daar wel een direct gevolg van. Zo mag alleen nog een Europese rechter besluiten gegevens over Europeanen aan de VS over te dragen, burgers dienen direct toegang te krijgen tot hun gegevens en boetes voor overtreden zijn hoog.

21 oktober is een interessante en best historische dag voor voor de bescherming van de burgers van Europa. Ondanks de bijna 4000 amendementen op de voorstellen voor een nieuwe privacywet, is bij de stemming voor goedkeuring, door een overweldigende meerderheid vóór het ontwerp gestemd.

Dat betekent dat de EU een wet gaat invoeren die burgers en hun gegevens verregaand beschemd. Officieel gaat het niet in de eerste plaats om terugdringing van de ongebreidelde spionagepraktijken van de Amerikaanse NSA en gelijken, maar dat is daar wel een direct gevolg van. Zo mag alleen nog een Europese rechter besluiten gegevens over Europeanen aan de VS over te dragen.

Bedrijven zoals Google, Facebook, Microsoft en Yahoo hebben zwaar gelobbyd tegen deze wet. Zij waren bezorgd dat hun operationele activiteiten rondom gegevens veel ingewikkelder en dus duurder worden. Na aanvankelijk succes, waarbij essentiële stukken van het voorstel veranderd waren is de wet er toch sterker uitgekomen. Dat is mede te danken aan de beschrijvingen die Edward Snowden heeft gegeven van de NSA praktijken.

Amerikaanse overheden zijn ook tegen deze wetgeving omdat ze vrezen dat de rest van de wereld het voorbeeld van strengere data regels gaat volgen. In het bijzonder landen in Latijns Amerika, Azië en het Midden Oosten zullen dat doen waardoor ze moeilijker in staat zullen zijn het gewenste niveau van monitoring, ten behoeve van terrorismebestrijding, te halen.

Bij overtreding van de wet kunnen de boetes oplopen tot 5% van wereldwijde jaaromzet van een overtreder, of een bedrag van 100 miljoen Euro.
Enkele gevolgen van deze wet voor de burgers en bedrijven zijn:

  • Burgers moeten op eerste verzoek compleet inzage krijgen in de informatie die over hen is vastgelegd en het doel wat er mee gediend is dient duidelijk te zijn.
  • Burgers kunnen die gegevens laten wijzigen of zelfs compleet verwijderen.
  • Er komt een verplichting voor bedrijven / instellingen die van meer dan 5000 mensen data beheren, moeten een privacy officer aanstellen.
  • Gebruiksvoorwaarden moeten in eenvoudige bewoordingen geschreven zijn en worden gestandaardiseerd. Er worden icoontjes ontworpen voor gebruik van gegevens, vergelijkbaar met het wasvoorschrift in een kledingstuk. De lange ingewikkelde juridische teksten dienen te verdwijnen.
  • Als buitenlandse autoriteiten bedrijven (lees: Als de NSA Facebook) vragen om gegevens van Europese burgers dan moet daarvoor toestemming verleend worden door een Europese rechter. Overigens is het bedrijven verboden om persoonsdata te delen met autoriteiten in derde landen.

Er zijn volgens mij gevolgen voor alledaags gegevensbeheer en het inrichten van de organisatie daaromheen. Zonder diepgaande impactanalyse kunnen we al wel stellen dat deze wet, die eind 2015 in alle landen ingevoerd moet zijn, aanzienlijke gevolgen zal hebben voor de inspanning van een organisatie op datamanagement gebied. Te denken valt aan:
Faciliteiten die het mogelijk maken de opgevraagde informatie van een burger snel op te vragen;

  • Inrichting van gegevensmodellen en maatregelen die het mogelijk maken de persoonsgegevens uit de databases en eventuele chat-, correspondentie- en mailhistorie te verwijderen en te wijzigen.
  • Inrichting van faciliteiten waaruit de oorsprong van de data is af te lezen, omdat doelbinding essentieel is en omdat de privacy officer van voldoende informatie voorzien moet worden.
  • Bedrijven die nog geen maatregelen op het gebied van Datagovernance, -kwaliteit en -logistiek hebben genomen om in staat te zijn snel correcte gegevens aan de aanvrager te tonen, moeten daar alsnog grote inspanningen voor doen. Er gaat soms jaren overheen om een goed (centraal) gegevensbeheer in te richten, zij zullen dus heel snel moeten starten. 
  • Invloed op de ingerichte, of in te richten gegevensstrategie omdat rekening gehouden moet worden met de regels over beveiliging van persoonsgegevens en mogelijk nieuwe lijnen waarlangs gegevens, de metadata en de herleidbaarheid daarvan ingebouwd moeten zijn.

De opstellers van de wet hebben de definitie van 'persoonsgegevens' ruim genomen. Zo valt alle data waarmee de identiteit van een persoon te achterhalen is, binnen scope.

Hoewel deze wet, ook door de eenheid die erdoor in de Europese Unie ontstaat, toe te juichen is, zijn er nog vragen en risico's.
Een risico is dat mensen met teveel tijd herhaaldelijk gaan vragen om toegang tot hun data en die steeds willen wijzigen. Dat leidt tot WOB toestanden, waarbij sommigen een heel team in een gemeentehuis aan het werk kunnen houden om te voldoen in de aanvragen die die persoon almaar doet. Er is één voorbeeld van een ondernemer die tegen de 100 verzoeken deed in het kader van de Wet Openbaarheid van Bestuur, omdat hij zich benadeeld voelde door de gemeente. In de wet is wel bescherming opgenomen tegen herhaalde en pesterige verzoeken. De gegevenshouder mag een vergoeding vragen voor de dienst als die herhaald moet worden uitgevoerd of hij kan de actie weigeren. Dan moet hij wel in staat zijn te bewijzen dat het om een hinderlijke aanvraag gaat.

Een vraag is in hoeverre historische gegevens die bijvoorbeeld op tape back-ups staan ook op verzoek verwijderd en / of gewijzigd moeten worden. Wat we tot nu toe van de wetteksten gezien hebben, is dat wél het geval, op verzoek van een Europees persoon dient de gegevensbeheerder dus alle historische tapes en informatiedragers na te kunnen gaan om vast te stellen of er geen data over die persoon op staat.

Check ook de wettekst: http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:52012PC0010:en:NOT
en de Data Protection News Room: http://ec.europa.eu/justice/newsroom/data-protection/news/120125_en.htm

maandag 21 oktober 2013

European privacy law impacts on data management

October 21th is an interesting day for Europeans. Their privacy was voted upon in the European Parliament and the decision is that they will push forward with this law. 

The proposal was heavily amended, nearly 4,000 amendments to the original plan, by the parliament's civil liberties committee. One of the amendments was to increase the fine to 5 percent of annual worldwide turnover or 100 million euros, whichever is greater. The Googles, Yahoo's and Facebooks of the world will take this serious. These companies have lobbied heavily against this proposed law, because they are afraid they will be hampered in their operation of handling their (our) data and it might limit the targeting possibilities with this data.

Authorities in the United States also opposed this law because they are worried that the rest of the world will follow suit in stricter data rules. Especially countries in Latin America, Asia and the Middle East, will then probably set higher global data protection levels. 

Part of the ruleset is companies that handle datasets of more than 5000 people are obliged to appoint a Privacy Officer. 

You will always get direct insight into the data that is kept on you, on your request, and we now have the right to be erased!

For professionals in data management it will mean increased attention for data protection, influence on data strategy and more/better governance needed. 


Interesting results in European BI Survey 2012 - 2013

Only 7% of participants grade Big Data as very relevant.

This is one of the many eye-catching results of the BI Survey that is presented by Steria (Steria.com), an IT enabled Business Services company.

In December 2012 to Januari 2013, they surveyed 668 companies / organizations in 20 different European countries. With this many participants, it is one of the largest BI surveys in Europe.

Interesting results, however no really big surprises. In spite of all the hyping that is done on Big Data, only 7% grade it as being very relevant, 33% as hardly or not relevant. 

Steria concludes that Data quality is the Achilles Heel of BI. Still, after many years of attention for this problem, 38% of the companies says they have a data quality problem.

Overall the recorded maturity levels, comparable to the Gartner Maturity model for BI and PM, is around three. That is actually not bad. What we find in The Netherlands is generally a bit lower, say 2.5. Holland was not included in this survey, Germany, Austria, Switzerland, Poland, UK, Scandiavia, France were.

Check the survey at their site: http://www.steria.com/bigdatareport/.

maandag 3 december 2012

OTAP reloaded


Het OTAP vraagstuk bij datawarehouses is een lastig probleem en heeft in 4 specifieke gevallen waarschijnlijk 5 oplossingen. Ik ga hieronder ten tweede male in op het OTAP vraagstuk en geef hieronder een aantal aspecten die een rol spelen bij het bepalen van de OTAP strategie. Het eerste OTAP blogje is alweer van 7 november 2009.

Architectuur
Vanuit architectuur oogpunt wil je zoveel mogelijk standaardiseren en processen en objecten herhaalbaar hebben. Architectuur, gebruikte hard- en software en de topologie van de informatieketen, bepalen voor een groot deel de ‘kopieerbaarheid’ van een ‘datawarehouse’. Dat is dus één factor die bepaalt of je wel of niet de P kopieert naar de Acceptatieomgeving. Bij één van mijn klanten hebben ze zonder met de ogen te knipperen de hardware en software 2 maal besteld om te voorzien in een Productie en een acceptatie omgeving. Men wilde ook e.e.a. nog eens dubbel uitvoeren om aan de eisen voor ‘High Availability’ te voldoen. Dat kwam dus neer op 4 giga servers en dito opslag en software. Argument was dat men ook de acceptatieomgeving wilde kunnen testen op performance. Daarvoor moet de load ongeveer overeenkomen met productie.

Een ander architectuuraspect is het gebruik van metadata gedreven generatie van laadprocessen. Indien er gebruik gemaakt wordt van een generatie-engine waarbij de laadprocessen on the fly kunnen worden gegenereerd, geven ook een extra dimensie aan dit vraagstuk. Eventueel herstel van fouten is hiermee veel makkelijker en dus geeft dat andere eisen aan geslotenheid van productie en de opzet van de testomgevingen. Het stelt daarentegen ook speciale eisen aan de productiebeheerders.

Beheer
Uit beheer oogpunt is het vaak niet wenselijk dat mensen bij de Productie omgeving kunnen komen om daar veranderingen in door te kunnen voeren, die buiten de releasekalender vallen. Dat is, als je het beheer wilt inrichten net als bij traditionele systemen. Zoals ik in het volgende hoofdstukje ‘Eisen aan de omgeving en informatie’ aangeef worden er andere eisen gesteld aan een datawarehouse- of informatie omgeving.

De reden dat men de productie (en acceptatie) vaak wil afschermen zit hem volgens mij in de bepaling van de verantwoordelijkheid voor het resultaat en de kosten voor reparatie van fouten die in de productie kunnen komen als gevolg van ongecontroleerd wijzigingen doorvoeren op de productieomgeving. Een katalysator kan zijn dat het ‘technisch’ beheer van het datawarehouse is ge-outsourced en dat de outsourcingpartij het gewoon niet toestaat dat er ook maar ‘iets’ wordt aangepast in de productie, omdat ze dan mogelijk niet meer aan hun SLA kunnen voldoen.

Eisen aan de omgeving, en aan de informatie
De eerste vraag die je moet stellen is: “Wordt het DWH gebruikt als primair systeem”. Met andere woorden, wordt informatie uit het DWH teruggevoerd in het primaire proces waardoor afwijkingen of problemen grote gevolgen voor het primaire proces hebben. Als dat zo is dan moet de productie omgeving van het DWH ook als zodanig beheerd worden, dichtgemetseld dus. Meestal is dat echter niet zo. Wordt het alleen als informatiesysteem gebruikt voor geaggregeerde informatie en is het geen drama als er een kleine afwijking zit in een analyse. Meestal zijn deze afwijkingen in een open systeem ook makkelijk en snel op te lossen.

De eisen die aan de omgeving (datawarehouse) en de informatie gesteld worden zijn uiteindelijk bepalend voor de architectuur, waaronder ik ook de procesarchitectuur schaar. Daarin staat hoe de ontwikkelprocessen lopen en dus de OTAP strategie. Voorbeeld: Een datawarehouse waar een maandelijkse load in gebeurd en die ook maandelijkse rapportverversing kent stelt hele andere eisen aan de beschikbaarheid van de P omgeving dan een real-time geladen real-time refresh dwh. In het eerste geval zou je kunnen besluiten om op een korte ‘gesloten periode’ na de Productie open kan zetten voor wijzigingen, mits goed van metadata en documentatie voorzien uiteraard.

De ‘geslotenheid’ van de productieomgeving is een belangrijke factor bij het bepalen van de inrichting van de Acceptatie. Omdat:
a. de mate van beveiliging een onderdeel is van-, en invloed heeft op het testproces;
b. een ‘toegankelijke’ Productie omgeving het makkelijker maakt om bepaalde informatiegroepen uit het DWH te kopiëren voor het opzetten van de A;
c. een toegankelijke P geeft ook een soort cultuur statement af waarbij het dus gebruik is om flexibeler met omgevingen om te gaan. Dat zal ook gevolgen hebben voor de Acceptatie. Voor de Acceptatie is dan te verwachten dat hij alleen op piek performance geschaald wordt als dat nodig is. En verder opgebouwd wordt als dat nodig is;
d. een gesloten Productie vraagt om een formeel en zeer goed gedocumenteerd promotieproces wat door technisch beheerders, soms ge-outsourced, uitgevoerd wordt. Wanneer de (outsourcing partner) beheerder informatie nodig heeft omtrent het presteren van de nieuwe release, dan zal dat met een productieload van het datawarehouse moeten worden uitgevoerd.

Business eisen als flexibiliteit en aanpasbaarheid staan in de praktijk helaas toch op gespannen voet met een strak beheerde Productie omgeving. Vaak heeft men een antwoord nodig op een ad-hoc vraag die vraagt om aanpassingen in de laadprocessen van de Productie omgeving. Als die maar 6 maal per jaar mag worden aangepast tijdens een release kan hier niet aan worden voldaan. Ik heb het in mijn termijn van minder dan twee jaar bij een landelijke uitkeringsinstantie een aantal maal meegemaakt dat de minister een antwoord wilde op een ad-hoc vraag. Minstens twee keer moesten we de P aanpassen en daarna konden we daarop de queries draaien. Dat was in een strak beheerde situatie niet mogelijk geweest. In een situatie waar dit soort vragen niet te verwachten zijn is het veel minder een probleem om de Productie dicht te timmeren.

Operatie
Je kunt volgens mij stellen dat de noodzaak voor een ‘zware’ Acceptatie, kopie van Productie, met name afhankelijk is van de eisen die aan het testen van de non-functionals als performance (ook van laden), worden gesteld. Dit is een operationeel requirement. Vaak niet alleen van de eindgebruiker maar ook van de productiebeheergroep. Er worden in de Acceptatieomgeving niet alleen functionele requirements getest maar vaak zijn DBA’s bezig met het verhogen van de prestaties door te experimenteren met indexen, partitionering, parameterinstellingen van de database en dergelijke. Dat zijn ook aanpassingen die naar de productieomgeving gepromoveerd moeten worden.

Wat je vaker ziet is een door analisten met queries overladen productie omgeving, dat vraagt om speciale maatregelen. Te denken valt aan een aparte query/analyse omgeving (sandbox) waarin de analisten naar hartelust hun modellen op kunnen bouwen en testen. Mochten er modellen goed genoeg gevonden worden en geoptimaliseerd zijn om goed te presteren in de productie, rekening houdend met belasting van andere gebruikers, dan kan deze het tot volwaardig algemeen gebruikt informatieproduct schoppen en in de P opgenomen worden.

Wat is dan het antwoord
Als eerste: als ik zeg ‘open’ of ‘toegankelijk’ bedoel ik niet ‘ongecontroleerd’, ‘ongebreideld’ en ‘naar hartenlust toegankelijk’. Al is het vaak niet een primair systeem, ik beschouw de data en informatie als zeer waardevol en deze moeten te allen tijde beschermd en veilig zijn. Goed versiebeheer, metadatabeheer en een uitstekend contingency plan (planning voor alle eventualiteiten en restoren van goed-werkende situaties) helpen ons een end op weg. Daarnaast het besef dat de data in het warehouse een waarde vertegenwoordigd en de benodigde verificatiemethodes moeten voldoende waarborgen bieden voor veilig gebruik van de productie omgeving.

Ten tweede: laten we niet blind de O-T-A-P weg volgen alleen maar omdat dat ooit als beheerbaar principe is uitgevonden. Laten we per situatie bekijken wat onze strategie wordt. Dat kan heel goed een O-A-P-Q-Q’ strategie zijn. Q staat dan voor Query en Q’ staat voor Query kopie/ad-hoc omgeving, in dit scenario kunnen de P en Q de “waarheid” van de organisatie bevatten en als zodanig afgesloten zijn. De Q’ is in dit voorbeeld de speeltuin voor de analisten.

Dat gezegd hebbende, de architectuur en OTAP strategie moeten op maat gemaakt worden. Hoe moeilijk het soms ook is, beheer zal daarop aangepast/opgeleid moeten worden. Dat is niet iets wat in één keer gaat gebeuren, daar moet dus een soort roadmap voor getekend worden. Er zijn wel degelijk voorbeelden van datawarehouse beheer omgevingen, ook ge-outsourced, die op een flexibele manier kunnen werken. Ik heb dat zelf (min of meer) gezien bij een telecom bedrijf.

donderdag 30 augustus 2012

DQ and Social Big Data an issue?


In his blog on The Dataroundtable http://www.dataroundtable.com/?p=11270, David Loshin very rightfully points out there is a number of approaches for Data Quality that will not work in the realm of Big Data, especially of the 'unstructured' type. Below is my response to his blog post, where I feel triggered beyond imagination.

To David: Hi David. I got a sort of short-circuit from your post. I'm not sure if that was the purpose of your post but it happened and I still want to thank you for it. Not many blogs cause such hefty reactions. 

My question is: Do you think data quality / -management professionals should respond in a serious manner to a 'business' question about quality of 'Social Big Data'? When no-one has an incentive to bring quality into the information process upstream, the battle with the beast is lost by definition. 

The next question is: "Do we need to battle". I can't imagine anybody expecting high quality from a Social Big Data source (that they did not develop and gather themselves for a specific purpose). 

My perplexed state of bafflement I experienced when reading the post, felt like a sort of short circuit. In the end I could not find an original logical scenario where David's premise would be valid. I think I need some examples where Data Quality professionals are asked to improve the quality of this type of data. 

So I absolutely disagree with your remark "we should rethink what is meant by data quality in the context of big data, and especially with streamed social media." Instead, when asked to provide quality measures for Big Data Sources, we should collectively laugh in their faces. "Sorry, can't be done". We are not going to think about it. Find another hype to ride on.

In the end it all has to do with `Purpose´. This type of data was not produced for your purpose. David painted this picture in his blog post. In his words: "there is no incentive for a data producer to care about the needs of these as of yet unknown downstream data consumers, especially because those consumers might have not even decided to consume the data." If you, as a data quality engineer or data steward are asked to include Big Data from social media sources for analysis, you may have to make the requestor aware of the limited influence he/she has on the possibillities of quality enhancements, let alone structural measures for improving quality of outcomes of analysis.

I understand that there are (a few, mostly multinational) companies that have very specific questions (purpose) they want to have investigated by counting 'Likes' on Facebook, there the purpose aligns with the expected quality of the results, because usually the numbers are big and trends are what matters, not absolute numbers. There will not be an expectation for the three ways of fighting poor DQ, David mentioned. 

It occured to me that there is a parallel sort of trend in the DM blogoshpere about fitness for purpose vs "Real world Alignment" as main qualifier for data quality. I'm not sure where this is coming from, but I feel the same short circuit. If it means that IT people want to have a bigger say, or think they know best in data quality issues than it's a bad thing

If there is no purpose, quality is never an issue.

I also made these comments on franklybi.blogspot.com.

dinsdag 20 maart 2012

Architectuur & Datamanagement


In Dutch 
Voor het archief ;-)
Onlangs hadden we een aardige discussie op VNA, naar aanleiding van de vraag van Danny Greefhorst: " Ik zou daarom graag in een open space vorm samen met anderen komen tot een praktische invulling van gegevensbeheer die we vanuit architectuur kunnen trekken. Ik hoor natuurlijk graag wat jullie van het idee vinden. ", zie: http://vianovaarchitectura.nl/forum/topics/vos-vraag-masterdata-en-gegevensbeheer-als-speerpunten-voor-de-in.
Mijn antwoord hierop: 
Hallo Danny,
Vanuit BI en datakwaliteit ben ik sinds 2004 in aanraking met data management en alle aspecten daarvan. Het is, net als andere "IT" domeinen zoals Architectuur en Service management, een domein waarbij nog weinig eenduidig is, met name over wat het nou precies is en welke rollen daar een ehhh rol bij spelen. (zie ook mijn blogje uit 2010: http://franklybi.blogspot.com/2010/12/whats-up-with-roles-in-data-management.html).
De vraag die bij mij onmiddelijk opkomt als ik je vraag lees: wat bedoel je met "informatie-architect". Wat zijn zijn/haar taken en verantwoordelijkheden. Op die vraag krijg je bij 10 bedrijven 20 verschillende antwoorden.
Het is goed om te zien dat architectuur nu ook aandacht krijgt voor data, vooral omdat met (data en informatie) architectuur het grootste deel van de "problemen" te voorkomen en soms op te lossen zijn.
Ik hecht veel waarde aan de cross-over tussen data / datamanagement en architectuur omdat:
  • Deze samen moeten werken om tot houdbare resultaten te komen;
  • In synergie tot sprongen in de ontwikkeling van het informatie of business information vak kunnen komen;
  • We gewoon voor een groot deel hetzelfde zitten te doen en het van elkaar niet weten;
  • Het gewoon tijd wordt dat dit vak een keertje volwassen wordt.
Iedereen die bij organisaties wel eens de term "Regie" of "Grip op informatie" heeft gehoord zou moeten weten dat in de kern het om hetzelfde vraagstuk gaat: "Hoe krijgen we de juiste informatie met de juiste kwaliteit op de juiste tijd op de juiste plaats en bij de mensen die het ook moeten / mogen krijgen".
Een vraag die met toename van complexiteit (integratie van veel data en Big Data) al maar moeilijker te beantwoorden wordt en waarop we als "IT experts" nog geen goed antwoord op hebben kunnen geven. 
Het oplossen van het data probleem wordt nog het eenvoudigst. Metadata-, Masterdata Management bestaat al een aantal jaar en er zijn technische oplossingen voor. De grootste uitdaging zit hem in het organiseren van de mensen rondom de data.
Wil je data goed inzetten voor operationele, tactische en strategische activiteiten van een organisatie dan is het van belang om koppelingen te maken tussen die activiteiten en de gegevens die er voor nodig zijn, en jawel, ook mensen er voor verantwoordelijk te maken.
De regel "Iedere business-strategie heeft een data-strategie" zou wat mij betreft altijd op moeten gaan. 
Het wordt misschien wat makkelijker duidelijk te maken wanneer we in ons achterhoofd houden dat, afhankelijk van de branche, 30-80% van de waarde van organisaties in de data zit.
Ik verwijs voor geïnteresseerden ook graag naar dama.org, de site van de Data Management Association, een groep data professionals die standaarden opzet voor gegevensmanagement en -governance. 

==============


Achteraf denk ik dat mijn conclusie is dat architectuur tot nu toe niet voldoende aandacht heeft voor de 'data' component in het hele verhaal. Dat terwijl het formeel wel onderdeel van architectuur is.


Back to the drawing boards dus. Wat dunkt jullie?

dinsdag 27 september 2011

Want to do analytics on large data volumes?


We would like to “do analytics” on large data volumes from 7 of your brands combined. Iincluding clickstream data. This is an example of the type questions we get. Whether it be Media, Energy, Banking or other, all want a high quality analysis on their product market combinations, want to make profiles of customers and whatnot.

An then we ask: So... How is your data?

How is it organized? How is the quality, what is the level of integration, standardization and how is it related to your well described processes?

The point is obvious, in my opinion there is no use trying to get information out of unmanaged data. When you can’t tell the level of quality of your data it is impossible to say something about the quality of the analytics results.

As Thomas Redman put it in his book “Data Driven, Profiting from your most important business asset”: “We have not even begun to understand the potential for analytics and data mining. Yet it’s reputation may be sullied, in some companies anyway, by half-hearted efforts that don’t produce extraordinary results, just as it is generally considered unwise to put in only enough energy to leap halfway across a stream, so too with analytics and data mining.”

I think this means that when we wanted to follow the Big Data hype too fast and start running analysis software on large volumes of unmanaged data, the results will be disappointing and the hype will pass by for there are few people harder to convince than disappointed business managers.

Boring how it may seem to some, organization, standardisation, description, in short management of your data is the only way to go.


If management is hard to convince of the proposed priorities, would it not help to make the value of the data and the potential value of the information that can be made, visible, to make the case?


On the London Data Management Conference I will be glad to discuss this with you.