Watermarteling - An Analytics-analogie gaat te ver

druppelanalyse

Data komt, net als water, in vele vormen voor. De menselijke geest is geëvolueerd om de meeste gegevens die op ons pad komen eruit te filteren, omdat er gewoon zo veel van is.

Wanneer u uw ogen en oren opent, zijn gegevens overal. De kleur van de muur, het geluid van de airconditioning en de geur van de koffie van de buren worden behandeld als vochtigheid. Het water is de hele tijd in de lucht, maar het heeft geen zin om er veel aandacht aan te besteden.

Wanneer water condenseert tot mist, dwingt het je om het te zien en wordt het moeilijker om de wereld om je heen te begrijpen. Onvolledige datasets, corrupte data, slechte wetenschap, valse conclusies en cognitieve vooroordelen zorgen ervoor dat je de weg verdwaalt in de mist.

Gegevens vallen als regen. Als er maar een klein beetje is, is dat enorm onbevredigend - net genoeg om je auto vuil te maken en het gesprek te verwarren. Je merkt dat je de vlek op je bril wegveegt terwijl iemand een willekeurig gegevenspunt uitspuugt, verzameld uit een onbekende bron.

  • Muf water in een ondiepe vijver is gevaarlijk. Gegevens die zijn verzameld uit een onbetrouwbare voorraad, die niet zijn gereinigd of genormaliseerd en niet zijn achtergelaten om te stagneren, kunnen gemakkelijk tot verkeerde conclusies leiden.
  • A gestaag druppelen water kan net genoeg zijn om een ​​kantine te vullen of een bosrijk ecosysteem in stand te houden. Slechts drie gegevenspunten (het aantal verzonden e-mails versus geopend versus geklikt) kunnen een marketingprogramma ondersteunen.
  • A gezondere doorstroming van gegevens in de vorm van een kleine kreek kan worden gebruikt om te baden. Een continue gegevensstroom maakt benchmarking en historische vergelijking mogelijk. Optimalisatie van bestemmingspagina's kan worden bereikt met stabiele conversiegegevens.
    A bescheiden rivier kan een molen aandrijven om hout te zagen of tarwe te malen. Een aanbevelingsengine heeft alleen de betrouwbare bijdrage van een handvol zijrivieren nodig om de waarde van winkelwagentjes te verhogen.
  • A waterval van kan een enorm waterrad voortstuwen en een voldoende instroom van informatie kan een real-time, dynamisch inhoudsysteem aandrijven.
  • A rivier- dat breed en diep genoeg is, kan een hele transportsector ondersteunen. Genoeg gegevens kunnen binnenvaartschepen en vrachtschepen laten drijven in de vorm van een verzameling cookies van advertentienetwerken, gegevensaggregators voor klantenkaartprogramma's en gegevensmakelaars.

Wanneer gegevens op verwachte tijdstippen in verwachte hoeveelheden binnenkomen, kunnen ze worden vastgelegd, gekanaliseerd en gebruikt. Irrigatiesystemen, dammen en reservoirs geven een gevoel van controle en maken de aanleg van een steeds bredere infrastructuur met kanalen, sluizen en dammen mogelijk. Datawarehouses zijn gebouwd op minder betrouwbare stromen.

Reinheid staat naast goddelijkheid

Schoon water is essentieel voor het succes van het leven, irrigatie, het laten draaien van energiecentrales, enz. De definitie van 'schoon' kan voor dit doel veranderen; Het is oké als er algen in water zitten dat een energiecentrale koelt, en het is niet acceptabel als er meer dan 10 delen per miljard arseen in drinkwater zitten.

Data is hetzelfde. In een direct mailtoepassing is het onbelangrijk of u de titel van een persoon (meneer, mevrouw, mevrouw) hebt ... tenzij u naar artsen mailt. Maar vuile gegevens zullen u elke keer doen struikelen.

Als US Chief Data Scientist DJ Patil, zeg het tijdens een eerste ronde CTO-top: “Als je niet vanaf het begin nadenkt over hoe je je gegevens schoon kunt houden, ben je f ^ ¢ & ed. Ik garandeer het. Proberen om het achteraf op te ruimen, zal in ieder geval maanden duren. "

Als je water tot het kookpunt verhit, kan dat een hele industriële revolutie aandrijven. Data lijken hetzelfde te doen. Vanaf het moment dat computers zowel konden opslaan als berekenen, zijn de gegevens zo snel verzameld als de opslagapparatuur daarvoor kon worden gemaakt.

Het Data Lake

Terwijl de gegevens van deze zijrivieren door de motoren van de molens sijpelen, belandt het allemaal in het meer, achter de dam. Omdat data op een gecontroleerde manier wordt vrijgegeven, worden de turbines van de data-industrie aangedreven; die gigantische motoren van gegevensverwerking met namen als Google en Facebook. Er zal hier geen droogte zijn.

En tot slot is er een diepe plas water, wachtend op de analist om erin te duiken. Duikuitrusting en speergeweer in de hand, de analist onderzoekt de diepte, brengt nieuw terrein in kaart en ontdekt nieuwe soorten. Het is een heel opwindende tijd om gegevensverkenner te zijn.

Daarom zijn er zoveel van hen verschenen voor de eMetrics-top sinds 2002. De volgende gelegenheid is in Boston, van 27 september tot 1 oktober 2015.

eMetrics Summit-registratie

A Bridge Too Far

En hoe zit het met de kracht van data om de volgende Grand Canyon uit te graven? Hoe zit het met het glaciale smelten van gestructureerde gegevens? Hoe gaan we om met afvalwater in een wereld die steeds meer privacybewust wordt?

Dat zijn vragen voor een andere keer en water onder de brug.

Wat denk je?

Deze site gebruikt Akismet om spam te verminderen. Ontdek hoe uw reactiegegevens worden verwerkt.