Am Freitag hat Facebook Cambridge Analytica (CA) verboten. Wir haben über die Rolle gesprochen, die CA bei den US-Präsidentschaftswahlen 2016 seit den Wahlen gespielt hat. Dieses viel jüngere Verbot trat aufgrund eines Verstoßes gegen das Datenverwaltungsprotokoll auf (welches weitgehend deckt, wie Daten erhalten, übertragen und gespeichert werden) – NICHT aufgrund der Art, wie diese Daten verwendet wurden. Ein akademischer Forscher (Aleksandr Kogan) erhielt die Daten, indem er die Nutzer aufforderte, sich für eine App zu entscheiden, die die Persönlichkeit der Nutzer anhand ihres Verhaltensverhaltens auf Facebook einschätzen sollte. Das Problem begann, als Dr. Kogan entschied, die Daten an jemand anderen weiterzugeben. CA wurde von Facebook nicht deshalb gesperrt, weil sie auf die Daten zugegriffen und diese verwendet haben, sondern weil sie nicht die richtigen Kanäle dafür genutzt haben. Facebook erfuhr von der Unterbrechung des Datenverwaltungsprotokolls und forderte von CA, die Daten zu löschen. CA stimmte zu, aber dann erfuhr Facebook von einem Whistleblower, dass sie gelogen hatten, und so ist CA jetzt verboten.
Quelle: Blogtrepreneur / flickr
Was am meisten beachtet wird, ist, wie diese Daten verwendet wurden. Das Ausmaß, in dem scheinbar harmlose Online-Verhaltensweisen verwendet werden können, um die Eigenschaften der Benutzer vorherzusagen, ist für die meisten Menschen schockierend. Solche Vorhersagen und Targetings finden jeden Tag statt, wann immer Sie ein Verhalten anwenden, das mit Ihrer Identität in Verbindung gebracht werden kann (entweder online, über Social-Media-Profile, die Einzelpersonen auf Websites durch Vergleich von E-Mail-Adressen oder Site-Cookies verfolgen) Einkäufe in verschiedenen Geschäften mit unterschiedlichen Bank- und Kreditkarten, die von Kreditauskunfteien abgeglichen werden). Die meisten dieser Vorhersagen finden im Hintergrund statt, wobei die Verbraucher selten darüber nachdenken, und die Zustimmung zur Sammlung und Verwendung von Daten existiert im Kleingedruckten von Benutzervereinbarungen, die die meisten von uns ohne nachzudenken durchklicken.
Wir verstehen leicht, dass man so etwas wie politische Orientierung erraten kann, wenn man sieht, dass eine Person bestimmte Politiker oder Organisationen mag oder ihnen folgt. Wenn ein Forscher von Politikern, die eine Person unterstützt, auf politische Orientierung schließen würde, würden wir diese Seite als valide Daten bezeichnen. Das heißt, die Maßnahme (von den Politikern unterstützt) hängt eindeutig mit dem zusammen, was wir vorherzusagen versuchen (politische Orientierung).
Was weniger intuitiv ist, ist, dass die meisten – wenn nicht alle – Ihrer persönlichen Attribute durch irgendwelche Informationen, die über Sie bekannt sind, (wenn auch unvollständig) erraten werden können. Maßnahmen müssen nicht stichhaltig sein, um genaue Schätzungen zu ermöglichen. Wenn wir feststellen können, dass eine Sache mit einer anderen konsistent verwandt ist, spielt es keine Rolle, ob diese Verbindung offensichtlich oder kausal ist. Es kommt nur darauf an, dass es einen Link gibt, und jetzt können wir ihn verwenden, um Vorhersagen zu treffen. Dies wird üblicherweise als empirischer oder bottom-up oder datengetriebener Ansatz zur Messung bezeichnet. Wenn wir eine Menge dieser schwachen (aber nicht null) Informationen zusammenstellen, können wir gültige Schlüsse ziehen. Dies ist ein Beispiel für das Prinzip der Aggregation : Mehr Daten sind immer besser, auch wenn einige oder alle dieser Daten von schlechter Qualität sind. Natürlich benötigen Sie weniger qualitativ hochwertige Daten, um die gleiche Genauigkeit der Vorhersage zu erhalten. Aber wenn qualitativ hochwertige Daten verdächtig sein können (zB Befürchtungen über das Lügen in direkten, face-valide Maßnahmen) oder einfach nicht verfügbar sind (zum Beispiel eingehende Maßnahmen von Millionen von Internetnutzern), sind viele niedrig – Qualitätsdaten werden gut funktionieren.
Ein Vortrag von Michal Kosinski (vor kurzem von Stephen Colbert zusammengefasst) unter der Leitung von Michal Kosinski zeigte, wie solche unmaßstäblichen Maßnahmen aus Facebook-Likes konstruiert werden können. Mit einem Computer, um alle möglichen Kombinationen von jedem wie jede Persönlichkeitseigenschaft oder demografischen Ergebnis zu testen, waren Forscher in der Lage, Benutzer Persönlichkeit, sexuelle Orientierung, politische Zugehörigkeit und mehr effizient zu schätzen. Sobald diese Algorithmen für eine Gruppe von Personen entwickelt wurden, in der die Forscher den tatsächlichen Status der Ergebnisse kennen, an denen sie interessiert sind (oft als Trainings- oder Entwicklungsstichprobe bezeichnet), können sie auf neue Personen angewendet werden, deren Ergebnisse unbekannt sind. Sie können es mit Ihren eigenen Daten von Facebook oder Twitter ausprobieren. (Diese Website ist NICHT mit dem Forscher in Verbindung gebracht, der in den CA-Skandal verwickelt ist, und es besteht kein Grund zu der Annahme, dass diese Personen etwas mit Ihren Informationen nicht getan haben oder tun werden, aber immer zu dem Zeitpunkt, dass Sie jemandem Zugriff auf Ihre Daten geben Daten.)
Das Ausführen meines Facebook-Profils durch den Vorhersagealgorithmus zeigt genau, dass ich weiblich bin (einer meiner Top-Prädiktoren: mein Geschmack von Vin Diesel), wettbewerbsfähig (weil ich Sephora mag) und wirklich ziemlich schlau (dem stimme ich zu; weil ich es mag Will Smith). Aber es ist nicht perfekt. Der Algorithmus vermutet fälschlicherweise, dass ich unglücklich bin (ich schwöre, ich bin nicht; weil ich Rob Zombie mag). Interessant ist auch, wie ein solcher Ansatz dazu führt, dass die gleichen Prädiktoren verwendet werden, um mehrere Merkmale zu charakterisieren: Meine Vorliebe für Starbucks und Barack Obama zeigt sich als beitragende Faktoren in fast allen Vorhersagen über mich. Das Ziel dieser Algorithmen ist jedoch nicht die perfekte Vorhersage für jede Person. Es geht darum, Daten in großem Umfang zu sammeln und zu nutzen, so dass im Durchschnitt politische und Unternehmensanzeigen effizienter ausgerichtet werden können (Geld sparen und die Wirkung maximieren) und aus wissenschaftlicher / wissenschaftlicher Sicht können wir unseren Teilnehmern Zeit sparen Sie stellen ihnen Hunderte von Fragen, die anhand ihrer vorhandenen Daten geschätzt werden können, solange sie bereit sind, sie zu teilen.
Verweise
Kosinski, Stillwell & Graepel (2013). Private Merkmale und Eigenschaften sind aus digitalen Aufzeichnungen menschlichen Verhaltens vorhersagbar. Proceedings der Nationalen Akademie der Wissenschaften.