Kleine Daten

Lassen Sie uns unsere Strategie zur Datensammlung umkehren.

Zurzeit nimmt der Big-Data-Zug weiter Fahrt auf: Nutzen Sie alle uns zur Verfügung stehenden Datenquellen über mobile Geräte, Luft- und Fernerkundung, Kameras, Mikrofone, drahtlose Sensornetzwerke und dergleichen. Die Daten sind da und warten nur darauf, geerntet zu werden, um Trends zu erkennen und Zusammenhänge zu finden. Die enorme Datenmenge zwingt uns zu verschiedenen Formen der computergestützten Suche und Analyse, einschließlich maschinellem Lernen. Der Big-Data-Ansatz ist aufregend, da er uns große Informationsmengen ermöglicht. Der Big-Data-Ansatz ist auch beunruhigend, da wir uns unserer Bedeutungslosigkeit stellen und zugeben, dass die Algorithmen und intelligenten Maschinen so viel mehr wissen, als wir jemals können.

Zuvor habe ich einige Gründe für die Unruhe in Bezug auf Big Data beschrieben, die Art und Weise, wie die Big-Data-Analyse bestehenden Trends folgt, aber subtile, aber wichtige Veränderungen in der Situation vermisst, die diese Trends obsolet machen. In diesem Aufsatz wurde auch das Problem der fehlenden Daten angesprochen. Die Leute bemerken manchmal, dass etwas NICHT passiert ist, und die Abwesenheit eines Ereignisses hilft uns, eine Situation zu verstehen. Big Data umfasst in der Regel Ereignisse, die aufgetreten sind, und ignoriert Ereignisse, die nicht aufgetreten sind, auch wenn diese Nichtvorkommen erheblich sein können.

In diesem Aufsatz geht es jedoch nicht um Einschränkungen in Big Data.

Stattdessen möchte ich vorschlagen, dass wir uns in die entgegengesetzte Richtung bewegen: Versuchen, so wenig Daten wie möglich zu sammeln, idealerweise nur einen einzigen Datenpunkt – aber einen Datenpunkt, der eine Entscheidung schwingt. Anstatt in Datenüberflutung zu ertrinken, gibt es Zeiten, in denen die richtige Beobachtung mehrdeutige Hinweise in den Fokus rückt.

Hier sind einige Beispiele.

1. (Dieses Beispiel stammt von Trevor Hadley, einem ehemaligen US-Regierungsanalyst.) Im Jahr 2015 versuchte die CIA zu entscheiden, ob Russland und China gemeinsame Marineübungen im Mittelmeer abhalten würden. Es gab keine offiziellen Aussagen. Die Trends waren unklar, die Beweise waren nicht schlüssig. Dann fragte sich ein externer Analytiker, ein Superforscher, was es für die Wiederversorgung einer chinesischen Flottille gäbe und begann mit Online-Bestellungen von Schiffsausrüstern in Zypern zu jagen. Er fand neue Bestellungen, riesige Bestellungen für Reis und Nudeln, wo es vorher noch keine gab. Um sicher zu sein, untersuchte er auch die örtlichen Küstenwache-Nachrichten an Mariners und fand bestätigende Beweise. Aber es waren der Reis und die Nudeln, die es schafften. Fall abgeschlossen.

2. (Dieses Beispiel kommt auch von Trevor Hadley.) Würden die Franzosen 2011 in den Bürgerkrieg in Libyen eingreifen? Die Franzosen leugneten, dass sie überhaupt über eine solche Intervention nachdachten, aber die Geheimdienste hatten gelernt, solche Dementis nicht zu ernst zu nehmen. Es gab Gründe zu erwarten, dass die Franzosen eingreifen würden. Versuche, eine Prognose zu erstellen, sind fehlgeschlagen. Ein Prognosemarkt war nicht hilfreich. Dann entdeckte ein Geheimdienstanalytiker eine dunkle Aussage in einer französischen Richtlinie über den öffentlichen Dienst, ein Memorandum, das Änderungen der Lebensversicherungsbestimmungen für Angehörige des französischen Militärs vorschrieb und Länder aufzählte, in denen das französische Militär gerade aktiv war – einschließlich Libyen! Das Memo wurde in ein paar Tagen von der Website genommen und durch eine Version ersetzt, die Libyen ausließ, aber es war zu spät. (Einige Monate später wurde die Präsenz französischer Streitkräfte in Libyen bestätigt.) Fall abgeschlossen.

3. Die US-Regierung wollte vorhersagen, wie das Vereinigte Königreich über den Brexit abstimmen würde. (Das taten viele, viele andere Länder.) Die Analysten schauten sich die Umfragen an und suchten nach Informationen, die den Ausschlag geben würden, aber die Zeichen waren einfach nicht klar genug. Dann bemerkte ein Beobachter, dass die Normen der Europäischen Union britische Hausfrauen dazu zwingen würden, eine andere Methode zur Teezubereitung anzuwenden. Die derzeitigen Teekannen zum Kochen des Wassers waren einfach zu energieeffizient und erhöhten den CO2-Fußabdruck unnötig. Die EU benötigte eine effizientere Vorrichtung zum Kochen des Wassers, aber das würde fünfmal so lange dauern! Welchen Effekt hatte das, wenn man einen Nachbarn zu einer schnellen Tasse Tee einladen wollte? Fall abgeschlossen.

4. 1990 versuchte die US-Geheimdienste zu prognostizieren, ob Saddam Hussein tatsächlich in Kuwait eindringen wollte. Einige fühlten, dass er sich zum Angriff bereit machte. Andere bezweifelten, dass er so tollkühn sein würde. Sie sahen seine Bewegung von 30.000 Soldaten an der irakisch-kuwaitischen Grenze als eine Mobbingtaktik, die Kuwait dazu bringen sollte, Zugeständnisse zu machen. Die üblichen Beweisarten ergaben keine abschließende Beurteilung. Die Ägypter glaubten, dass es eine friedliche Lösung der Beschwerden geben würde, die Saddam Hussein gegen Kuwait erhoben hatte. So auch der US-Botschafter im Irak. Und auch die Kuwaitis – selbst nachdem der Irak all diese Truppen an seine Grenze gesetzt hatte, mobilisierte Kuwait seine 18.000 Soldatenarmee nicht und ließ viele auf Urlaub gehen. Was sollte Saddam Hussein tun? Ein US-Geheimdienstanalytiker, der im Energieministerium arbeitete, stellte fest, dass das irakische Militär mehr als 10.000 zivile LKWs beschlagnahmt hatte. Die Abschaffung aller dieser LKWs hätte zwangsläufig lähmende Auswirkungen auf die irakische Wirtschaft und würde alle Arten von kommerziellen Aktivitäten stören. Und dieser LKW-Befehl war geheim gehalten worden – es war nicht öffentlich bekannt gegeben worden. Es konnte die Kuwaitis nicht einschüchtern, weil sie keine Ahnung hatten, dass es getan worden war. Warum sollte Saddam Hussein so etwas tun, außer er entschied plötzlich, dass er die Lastwagen für eine Militäraktion brauchte? Fall abgeschlossen.

5. Das Toyota Runaway-Beschleunigungsproblem. Dieses Problem führte dazu, dass Toyotas unkontrolliert beschleunigte, obwohl der Fahrer verzweifelt versuchte, auf die Bremse zu drücken und das Auto langsamer zu machen. Der Fall erhielt nationale Aufmerksamkeit. Einige dachten, dass das Problem von dicken Fußmatten stammte, die das Gaspedal festhielten, aber die primäre Fehlfunktion schien ein Fehler in der Software zu sein. Toyotas enthalten mehr als hundert Millionen Zeilen Code, so dass einige Softwarefehler unvermeidlich erscheinen. Hunderte Fälle von außer Kontrolle geratener Beschleunigung wurden herbeigerufen. Toyota wurde gezwungen, Milliarden von Dollars in Geldstrafen und Ansiedlungen zu bezahlen. Die menschliche Faktoren Gemeinschaft hatte jedoch eine andere Diagnose: Die Fahrer haben irrtümlicherweise das Gaspedal gedrückt und dachten, es sei das Bremspedal. Wenn das Auto schneller wurde, anstatt langsamer zu werden, bemerkten die Fahrer, dass die Bremsen versagt hatten und dass die Beschleunigung unbeabsichtigt und unkontrollierbar war. Die Fahrer drückten das Pedal natürlich härter und härter, glaubend, dass es die Bremse war, nur um zu sehen, dass die Beschleunigung schlimmer wurde. Es gibt keinen einfachen Weg, diese Erklärung zu beweisen, mit vielen Hin und Her-Diskussionen über die Daten. Aber es stellt sich heraus, dass es zwei Killerargumente gibt. Einer besteht darin, dass die Untersucher bei der Untersuchung der Blackboxes in den Autos feststellten, dass das Bremspedal im Fall von Runaway-Beschleunigung nicht gedrückt wurde. Das zweite Killerargument kommt von einem Malcolm Gladwell Podcast in Staffel 1 seiner revisionistischen Geschichtsserie. Gladwell arrangierte für das Magazin Car & Driver, einen Toyota Camry auf einer Teststrecke auf Herz und Nieren zu testen. Die geübten Fahrer haben das Gaspedal bis zum Boden durchgetreten und sind dann mit dem Gaspedal, das noch auf den Boden gepreßt ist, auf die Bremse getreten. Das Auto hielt an. Probe nach Probe, das Auto hielt an. Kein Problem, kein Kreischen, kein Rauch. Die Bremsen übersteuerten das Gaspedal leicht. Keine Notwendigkeit, die Statistiken zu überprüfen. Keine Notwendigkeit, die Hunderte von Millionen Zeilen Code zu überprüfen. Fall abgeschlossen.

Diese Beispiele deuten darauf hin, dass weniger mehr ist. Die Qualität der Information ist wichtiger als die Quantität.

Der Begriff “Small Data” wird heutzutage auf verschiedene Arten verwendet. Es gibt sogar ein Marketing-Forschungsbuch von Martin Lindstrom, Small Data: Die kleinen Hinweise, die große Trends aufdecken . Und ein Wikipedia-Eintrag. Hier sind einige Attribute, die ich in Bezug auf kleine Daten identifiziert habe.

Erstens stellen die meisten Referenzen Small Data gegenüber Big Data dar, indem sie behaupten, dass es bei Small Data um eine persönliche Verbindung zu einer begrenzten Menge an Informationen geht, während es bei Big Data um die Notwendigkeit für intelligente Maschinen geht, die sich ausweitende Menge verfügbarer Signale zu sortieren .

Zweitens geht es bei Big Data hauptsächlich um Korrelationen, während es bei Small Data um kausale Beziehungen geht.

Drittens hängt die persönliche Verbindung, die von Small Data gefördert wird, davon ab, das Fachwissen und die Erfahrung einer Person in Anspruch zu nehmen.

Viertens soll der Small-Data-Ansatz Einsichten fördern (vgl. Klein, 2013) und Denkweisen transformieren. Bonde macht ausdrücklich darauf aufmerksam, dass Small Data uns helfen soll, Erkenntnisse zu gewinnen, die wir in die Praxis umsetzen können.

Fünftens stimmt fast jeder zu, dass Big Data und Small Data sich nicht gegenseitig ausschließen oder im Wettbewerb stehen. Wir können beide Ansätze verwenden.

Sechstens gibt es eine Divergenz darüber, wie nach sinnvollen Kleindaten gesucht werden soll. Einige schlagen vor, dass wir mit Big Data beginnen und dann die Ausgabe reduzieren sollten, indem wir Protokolle und andere Artefakte erstellen. Ich bin nicht begeistert von dieser Strategie. Stattdessen denke ich, dass die Macht von Small Data entsteht, wenn wir unsere mentalen Modelle verwenden, um die kritischen Informationen zu bemerken oder zu finden. Die fünf Beispiele in diesem Aufsatz illustrieren alle die geschickte Entdeckung kritischer Daten, anstatt die Ergebnisse einer Big Data-Übung zu verdichten.

Siebtens gibt es Zeiten, in denen wir die Entscheidungsträger unterstützen können, indem wir einige repräsentative Fälle aus einer viel größeren Bevölkerung auswählen und dann Einzelheiten zu diesen Fällen angeben. Wenn zum Beispiel ein Politiker darüber nachdenkt, wie sich ein Anstieg des Benzinpreises auf einkommensschwache Menschen auswirken wird, könnte es nützlich sein, drei spezifische Personen zu definieren, sagen ein älterer Mann mit festem Einkommen, der öffentliche Verkehrsmittel benutzt, eine alleinerziehende Mutter zwischen zwei oder drei Jobs und einem Rentner, der sich freiwillig mit einer Kirchengruppe zusammentut, um Gemeindemitglieder zu verschiedenen sozialen, medizinischen und wohlfahrtsbezogenen Veranstaltungen zu fahren.

Achtens, es braucht Expertise, um die kritischen Datenpunkte zu bemerken, sobald wir sie finden. Es bedarf einigermaßen ausgeklügelter mentaler Modelle, um zu erkennen, wie der Datenpunkt in Aktion gesetzt werden kann – um zu sehen, was er uns bietet.

Ein Risiko des Small-Data-Ansatzes besteht darin, dass er dazu missbraucht werden kann, Beispiele und Anekdoten auszuwählen, die einen irreführenden Eindruck vermitteln. Daher sollte der Small-Data-Ansatz im Kontext vorhandener Beweise verwendet werden. Der Small-Data-Ansatz beseitigt nicht die Verpflichtung der Analysten, die relevanten Variablen zu erheben. Ich schrieb “Fall geschlossen” am Ende jedes der fünf Beispiele, aber in Wirklichkeit suchten die Ermittler entsprechend zusätzliche Daten, um ihre Spekulationen zu bestätigen oder zu entkräften. Der Small-Data-Ansatz kann jedoch die Tendenz einschränken, immer mehr Daten zu akkumulieren, nur um den zwanghaften Bedarf nach Vollständigkeit zu befriedigen. Der Small Data-Ansatz schätzt die Aussagekraft von Daten über ihre Akkumulation.

Die Beispiele in diesem Aufsatz legen nahe, dass wir unsere Bemühungen, Informationen zu sammeln, neu gestalten sollten. Anstatt jeden verfügbaren Leckerbissen aufzuheben, können wir unsere Informationsbeschaffung auf Sinnstiftung und Entdeckung ausrichten. Wir könnten nach wirklich diagnostischen Hinweisen suchen, nach Anomalien und nach fehlenden Daten – erwartete Ereignisse, die nicht stattgefunden haben. Wir können nach “Unterschieden suchen, die einen Unterschied machen”.

Verweise

Martin Lindstrom, Small Data: Die kleinen Hinweise, die große Trends aufdecken. New York: St. Martens Presse.

Klein, G. (2013). Sehen, was andere nicht tun: Die bemerkenswerte Art, wie wir Einsichten gewinnen . New York: PublicAffairs.