Eine neue Art von Hellsehen

Ein Vater kam vor ein paar Jahren in einen Target-Laden in der Nähe von Minneapolis und griff nach einer Handvoll Coupons, die Target an seine jugendliche Tochter geschickt hatte, um Babykleidung, Umstandsmode und Krippen zu promoten. "Versuchst du, [meine Tochter] dazu zu bringen, schwanger zu werden?", Beschwerte sich der Mann beim Manager.

Nach einem Bericht von Charles Duhigg von der New York Times entschuldigte sich der Target-Manager für den peinlichen Fehler an Ort und Stelle und forderte sogar den Mann auf, sich ein zweites Mal zu entschuldigen. Es gab nur ein Problem: Ziel war schließlich nicht falsch. Das fragliche Gymnasium war, unbemerkt von ihren Eltern, tatsächlich schwanger.

Die Marketinggruppe von Target hatte geahnt, dass das Mädchen erwartet hatte, weil sich ihr Kaufverhalten in einer Weise geändert hatte, die – basierend auf Big Data Analytics von Target – vorhersagte, dass sie ihr zweites Trimester betrat. Die Datenanalyse von Target hatte zum Beispiel herausgefunden, dass Frauen, die abrupt von duftenden zu unscented Lotionen wechseln, normalerweise im vierten Monat schwanger sind (schwangere Frauen mögen starke Gerüche oft nicht). Also begann Target mit dem Versand von Gutscheinen an solche Frauen und förderte all die Dinge, die sie bei der Geburt brauchten.

Sogar, wie im Falle von Minnesota, an Frauen, die noch legal Kinder waren.

Abgesehen davon, dass sie als warnende Erzählung über die Verwendung neuer Technologien dient, ohne die Implikationen zu durchdenken, veranschaulicht die Target-Geschichte zwei wichtige Konzepte über menschliches Verhalten.

Erstens kann ein Verhalten (wechselnde Lotionen) eine andere, spätere Handlung (Geburt) zuverlässig vorhersagen. Ein anderes Beispiel, das 2013 in einem Artikel in der Zeitschrift Nature beschrieben wurde , zeigte, dass das Volumen der Internetsuche nach dem Begriff "Schulden" eine statistisch signifikante Vorhersage kurzfristiger Kursrückgänge lieferte.

Die folgende Grafik vergleicht das Volumen der Wikipedia-Seitenansichten des Begriffs "Schulden" mit dem Dow Jones Industrial Average. Das Interesse von Wikipedia an der "Verschuldung" hat in der Tat einen prognostizierten Wert für Marktabschwünge. Das Suchverhalten im Internet prognostizierte das Verkaufsverhalten an der Börse. (Vielleicht machen sich Leute, die sich Sorgen um Schulden gemacht haben, nach dem Begriff, bevor sie Aktien verkaufen, um sie zu bezahlen.)

Eric Haseltine/Wikipedia
Quelle: Eric Haseltine / Wikipedia

Dieses Beispiel illustriert die zweite wichtige Lektion, die sich aus der Erfahrung mit der Duftlotion von Target ergibt: Sehr hohes "N" (große Anzahl von Proben) kann durch die Inferenzstatistik subtile, aber konsistente Beziehungen zwischen einem menschlichen Verhalten und einem anderen aufdecken. Die gerade vorgestellte "Schulden" -Analyse ergibt sich aus mehr als 200.000 Wikipedia-Seitenaufrufen.

Eine Möglichkeit, über Vorhersagen aus vom Web abgeleiteten "Big-Data" nachzudenken, ist, dass das Internet zusammen mit privaten Datennetzen, die denen von Target ähnlich sind, die menschliche Spezies gründlich instrumentiert hat und Metriken und Einblicke in das Verhalten in beispiellosem Ausmaß liefert. Zusätzlich zu den massiven Speichern von privaten Daten, die von Target, Walmart, Amazon, Google und anderen gesammelt wurden, nutzen jetzt fast 3,5 Milliarden Menschen das Web und hinterließen eine Vielzahl von Aufzeichnungen über ihre Verwendung für Big-Data-Analysen.

Ein faszinierendes aktuelles Beispiel für die Macht, die Big Data in die Hände von Verhaltensforschern gelegt hat, ist die Politikwissenschaft. Vor kurzem gab es viele Meinungsfehler, die bei dem Wahlsieg von Präsident Trump so viel Überraschung hervorriefen. Aber für diejenigen, deren Nase tiefer in Big Data vergraben war, war die Wahl überhaupt keine Überraschung.

Sehen Sie sich die Beziehung zwischen dem Umfang der Google-Suchanfragen (und für 2016, Wikipedia-Seitenaufrufe) für Präsidentschaftskandidaten vor den Wahlen 2004, 2008, 2012 und 2016 und den eventuellen Gewinnern jeder Wahl an.

Eric Haseltine/Google Trends/Wikipedia
Quelle: Eric Haseltine / Google Trends / Wikipedia

Bei allen vier Wahlen war der Gewinner der Internetsuchinteressen vor der Wahl (Personen, die einen Kandidaten googlen oder auf Wikipedia auscheckten) ebenfalls der Gewinner der Wahl. Vermutlich ist das Interesse der Wähler an einem Kandidaten mit ihrer Wahrscheinlichkeit verbunden, für diesen Kandidaten zu stimmen.

Es ist wichtig zu diesem Zeitpunkt zu beobachten, dass Big Data-Korrelationen bei weitem nicht perfekt sind. In seinem Buch " Pseudo-Korrelationen" illustriert Tyler Vigen, Absolvent und Berater der Harvard Law School, eine tiefe Wahrheit über Statistik: Korrelation beweist nicht die Ursache.

Zum Beispiel zeigt Vigen, dass es eine nahezu perfekte Korrelation zwischen dem Pro-Kopf-Margarineverbrauch und der Scheidungsrate in Maine gibt. Dennoch würden nur wenige behaupten, dass der Konsum von Margarine die Scheidung verursacht oder umgekehrt.

Quelle: Tyler Vigen

Mit einem extrem hohen "N" an Datenquellen (buchstäblich Milliarden von Datenbanken, die allein im Internet zugänglich sind), sind zufällige Korrelationen wie diese nicht zwangsläufig zu erwarten.

Andere "falsche" Korrelationen, die Vigen aufgedeckt hat, sind:

  • Pro-Kopf-Käsekonsum und die Anzahl der Menschen, die sterben, indem sie sich in ihren Betttüchern verfangen (überraschende 600+ pro Jahr).
  • Menschen, die ertranken, nachdem sie in Kentucky aus einem Fischerboot und Ehen herausgefallen waren.
  • Anzahl der Buchstaben im Siegerwort der Scripps National Spelling Bee und die Anzahl der Todesfälle durch giftige Spinnenbisse.

Eine von Vigens Scheinkorrelationen, die mein Interesse weckten, war die starke Verbindung zwischen dem Verkauf japanischer Autos in Amerika und Selbstmorden durch Automobile in den USA

Tyler Vigen
Quelle: Tyler Vigen

Auf den ersten Blick scheint diese Autoverkäufe / Selbstmordrate von 93,5 Prozent die Art von Artefakten zu sein, die man erwarten würde, wenn man ein individuelles Zeitreihenmuster (z. B. Jahresverkäufe) in einen Ozean von Daten von Selbstmördern bis hin zu "Dip" wirft Käsekonsum zu der jährlichen Heiratsrate in Kentucky – etwas in diesem Ozean von Daten ist durch zufällige Zufall gebunden, um dieses Muster zu entsprechen.

Aber die Geschichte der Wissenschaft ist reich an Beispielen zufälliger Entdeckungen, die auf den ersten Blick keinen Sinn ergeben. Starke Beweise für den Urknall erschienen zuerst als ungeklärtes "Rauschen" in einem Telekommunikationsempfänger. Der Beweis von Einsteins allgemeiner Relativitätstheorie wurde schließlich in einer merkwürdigen Anomalie des Timings des Perihels der Umlaufbahn des Merkur um die Sonne gefunden. Penicillin wurde entdeckt, als Fleming einen unerwarteten toten Fleck in einer Petrischale mit Bakterien beobachtete.

Genau wie das Gesetz der großen Zahlen vorschreibt, dass "Big Data" -Analysen eine Fülle zufälliger Korrelationen aufdecken, schreibt das gleiche Gesetz gelegentlich vor, dass zufällige Beobachtungen unerwartete Ergebnisse – wie einen toten Punkt in einer Petrischale – enthüllen, die a näher betrachten.

Nachdem ich während der Zeit des japanischen Autoherstellers bei einer amerikanischen Autofirma gearbeitet hatte, fiel mir auf, dass die Autoverkäufe / Auto-Selbstmord-Korrelation nicht so zufällig sein könnte. Zum einen stiegen die Verkäufe japanischer Autos, da die Verkäufe von amerikanischen Markenfahrzeugen zurückgingen, was bei einer demoralisierten amerikanischen Belegschaft eine Depression auslösen könnte.

Um diese Möglichkeit zu untersuchen, habe ich die Verkäufe von amerikanischen Markenautos (blaue Linie unten) über den gleichen Zeitraum von Vigens Analyse verglichen. Der Vergleich deutet auf eine plausible Verbindung zwischen dem Verkaufsvolumen japanischer Autos und US-Selbstmorden hin.

Tyler Vigen/USDT/Eric Haseltine
Quelle: Tyler Vigen / USDT / Eric Haseltine

Als der Absatz von amerikanischen Markenautos im Vergleich zum Verkauf japanischer Autos von 2000 bis 2001 stieg, sanken Selbstmorde in Amerika etwa ein Jahr später etwas. Als die amerikanischen Autoverkäufe 2001 zurückgingen, stiegen die amerikanischen Selbstmorde mit dem Auto ein Jahr später, 2002. Ein Jahr nach dem steilen Rückgang der amerikanischen Markenwagenverkäufe im Jahr 2005 nahmen die Selbstmordfälle im Zusammenhang mit dem Automobil einen starken Sprung.

Ein möglicher Grund dafür, dass Selbstmorde mit dem Auto in Amerika nach einem Rückgang der amerikanischen Autoverkäufe stiegen, ist, dass solche Abschwünge Menschen in der Autoindustrie und den Tausenden von Unternehmen, die von der Industrie abhängen, arbeitslos machen. Ein kürzlich erschienener Artikel im American Journal of Preventative Medicine fand heraus, dass wirtschaftliche Rezessionen wahrscheinlich Selbstmorde erhöhen. Drs. Webb und Kapur, die in Lancet Psychiatry schreiben, zeigten, dass in den Jahren 2006 und 2007 mehr als 40.000 Selbstmorde pro Jahr mit der globalen Arbeitslosigkeit in Verbindung gebracht wurden und dass die Rezession von 2008 für weitere 4.000 Selbstmorde in diesem Jahr verantwortlich war.

In der nachstehenden Grafik zeigt die untere Linie die gesamte US-Beschäftigung im Automobilsektor. Die Arbeitsplätze in den USA verdampften tatsächlich, da der Absatz japanischer Autos zunahm.

Tyler Vigen/USDT/Eric Haseltine
Quelle: Tyler Vigen / USDT / Eric Haseltine

Schließlich zeigen CDC-Daten, dass während des 10-jährigen Rückgangs der amerikanischen Marken-Automobilverkäufe die Selbstmordrate in Amerika (grüne Linie unten) stetig stieg.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
Quelle: Tyler Vigen / USDT / USD / CDC / Eric Haseltine

Trotz der Möglichkeit einer echten Verbindung zwischen japanischen Autoverkäufen und Selbstmorden mit dem Auto in den USA, deutet der starke Rückgang der Selbstmorde von Autos im Jahr 2009, als es sowohl in der Autoindustrie als auch in den japanischen Autoverkäufen große Rückgänge gab, auf die Beziehung zwischen Autos hin Umsatz, Arbeitslosigkeit und Selbstmord mit dem Auto ist nicht einfach.

Es sollte auch darauf hingewiesen werden, dass die Zahl der Selbstmorde mit dem Auto jedes Jahr (etwa 100) zu gering ist, um feste Schlussfolgerungen über Verbindungen zu Arbeitslosigkeit, Autoverkäufen oder irgendetwas anderem zu ziehen.

Darüber hinaus trübte sich die Schwierigkeit, festzustellen, ob ein bestimmter Autounfall tatsächlich ein Selbstmord war, weiter ab. Angesichts der Tatsache, dass die Selbstmordrate in den USA im Jahr 2009 gestiegen ist, während die gemeldeten Selbstmorde mit dem Auto stark zurückgegangen sind, ist die Zuverlässigkeit des Selbstmordes durch Autostatistiken suspekt. Studien von Phillips und Kollegen, die einen Anstieg der Verkehrstoten ein paar Tage nach weithin bekannt gemachten Selbstmorden zeigen, weisen stark darauf hin, dass Selbstmorde mit dem Auto, vor allem "Nachahmer", die den Medienberichten über Suizid schnell folgen, erheblich unterbewertet sind.

Trotz all dieser Vorbehalte ist die Autoverkäufe / Selbstmordgeschichte wert, beachtet zu werden, weil es uns lehrt, unerwartete Big Data-Korrelationen nicht von der Hand zu weisen.

Wenn Sie aufhören, darüber nachzudenken, haben unerwartete Ergebnisse – wie die Entdeckung des Penicillins – ein enormes Potenzial, um Spielwechsler zu werden, gerade weil sie unserem gegenwärtigen Verständnis der Welt nicht entsprechen. Wenn wir also über das Unerwartete stolpern, haben wir die Chance, unser Verständnis von Natur … und von uns selbst radikal zu verändern.

In diesem Sinne ist hier etwas Unerwartetes über die zukünftigen wirtschaftlichen Aussichten für Amerika. In der folgenden Grafik zeigt die blaue Linie das US-Bruttoinlandsprodukt (BIP) in den letzten 12 Jahren, während die gezackte rote Linie das Volumen der Google-Suche nach "Glücklich verspäteter Geburtstag" darstellt. Ich bin bewusst zurückgeblieben Die 6 Monate hinter "Birthday" laufenden BIP-Daten zeigen, dass es eine sehr hohe Korrelation (.96) zwischen BIP und Menschen gibt Googling "Happy verspäteter Geburtstag" 6 Monate zuvor (es gibt fast so eine Korrelation mit "Happy Verspätete" und "Lustiger Happy Birthday").

Google Correlate
Quelle: Google korrelieren

Mit anderen Worten, zumindest für diesen Datensatz ist das Volumen der Geburtstagsgruß-Suchanfragen (wahrscheinlich Leute, die nach Online-Geburtstagsgrüßen suchen) ein starker 6-Monats-Hauptreferenzindikator für die US-Wirtschaftsleistung.

Ist diese Korrelation falsch, wie die Verbindung zwischen Ertrinken und Ehen von Fischerbooten in Kentucky, oder ist sie inhaltlich? Intuition sagt, dass die Korrelation falsch ist.

Ramon Espelt Photography/Shutterstock
Quelle: Ramon Espelt Fotografie / Shutterstock

Aber ich kann mir vorstellen, wie die Verbindung sinnvoll sein könnte. Zum Beispiel, wenn Menschen sich Sorgen machen, in den nächsten sechs Monaten entlassen zu werden, nehmen sie sich weniger Zeit, Geburtstagsgrüße auszusenden? Könnten Google-Sucher insgesamt mehr darüber wissen, wohin die Wirtschaft führt als Ökonomen? Und könnte dieses Bewusstsein in Veränderungen des Google-Suchverhaltens deutlich vor Wirtschaftsstatistiken auftauchen?

Es lohnt sich, darüber nachzudenken … vor allem angesichts der Tatsache, dass die Suche nach "Happy Late Birthday" (siehe ganz rechts auf der Grafik) in letzter Zeit einen sehr steilen Abstieg verursacht hat.