Bringen Sie das iPhone zum Fahren

* Dieser Artikel wurde zusammen mit Los Alamos Neuro-Physiker Michael Ham verfasst

Dies ist eine Geschichte über eine kommende Singularität.

Der Begriff "Singularität" stammt aus der Astrophysik, wo er technisch gesehen der Ort in einem Schwarzen Loch ist, wo Materie bis zu einem winzigen Punkt mit unendlicher Masse und ohne Volumen zerkleinert wird; und metaphorisch ein Ereignishorizont – ein Punkt, jenseits dessen wir nicht sehen können.

In den 1950er Jahren wandte der Mathematiker John von Neumann diese Metapher auf die Technik an und schrieb: "Der immer schneller fortschreitende Fortschritt der Technologie und Veränderungen in der Art des menschlichen Lebens, die den Anschein erweckt, sich einer wesentlichen Singularität in der Geschichte der Rasse zu nähern jenseits derer menschliche Angelegenheiten, wie wir sie kennen, nicht weitergehen konnten. "

Ray Kurzweil, Autor von The Singularity is Near und der größte Popularisierer des Begriffs, bezeichnete die Singularität als den Zeitpunkt, zu dem Computer intelligenter werden als Menschen.

Die Singularität, die wir beschreiben, ist nichts ganz so dramatisches, aber nicht weniger revolutionär. Sehr bald, wohl innerhalb der nächsten fünf Jahre, werden wir eine Grenze überschreiten und Computer werden besser sehen als Menschen.

Was bedeutet das? Nun, im Moment sind Computer meist in einem digitalen Universum gefangen – sie können unsere analoge Welt noch nicht direkt erfassen. Eine Art menschliches Eingreifen ist immer noch erforderlich.

Das iPhone Siri ist ein Beispiel. Wenn Sie mit Ihrem iPhone sprechen, wandelt Siri einen analogen Eingang (Ihre Stimme) in eine digitale Antwort um, aber der Prozess – obwohl erstaunlich – erfordert immer noch einen Menschen.

In der Bildverarbeitung gibt es, anders als in extrem umständlichen Systemen wie LIDAR – den Hauptaugen für Googles autonomes Auto – die Fähigkeit, auf menschliches Engagement zu verzichten, noch nicht in realistischer Weise.

Realistisch, was ich meine ist, dass das LIDAR-System a) sehr teuer ist, b) ziemlich umständlich ist. Mit anderen Worten, es passt nicht in Ihr iPhone.

Aber wenn das iPhone die Daten von seiner Kamera mit der gleichen Genauigkeit wie ein Mensch verarbeiten könnte, könnte es Ihr Auto fahren. Kurz gesagt, dies ist die visuelle Singularität.

Und wir kommen näher. Sowohl die Nummernschilderkennung als auch die Gesichtserkennung sind Computer-Vision-Tricks, die bereits funktionieren. Aber sie sind begrenzte Algorithmen – sie machen eine Sache sehr gut, aber nicht viele Dinge. Du kannst dein iPhone nicht an deinen Roomba anschließen und ihm sagen, dass er den Schmutz säubern soll, aber nicht die Legos.

Zwei Kräfte verändern dies und wie sich herausstellt, sind dies die gleichen zwei Kräfte, die alle Singularitäten antreiben.

Der erste ist exponentielle Kurven. Moore'sches Gesetz, Butter'sches Gesetz, usw. Die gleiche Beschleunigung in der Computerleistung, die Siris Durchbruch trieb, treibt die Evolution der Machine Vision an. Der Unterschied ist, dass Spracherkennung ein Megabyte-Problem ist, während Machine Vision ein Gigabyte-Problem ist. Aber da unsere Computer immer schneller werden, verschwindet dieses Problem vollständig.

Die zweite ist Daten – eine kritische Masse von Daten.

Wir haben herausgefunden, dass menschliche Fähigkeiten am leichtesten trainiert werden können, um sie zu trainieren. Zum Beispiel war es das massive Wachstum von Websites (dh digitalisierter Text), die die Singularität beim Lesen von Texten ermöglichten (der Punkt, an dem Maschinen sowohl Menschen als auch Menschen lesen konnten). In ähnlicher Weise wurden große Mengen an digitalisierter menschlicher Sprache benötigt, um die Sprach-Singularität (aka Siri) zu erreichen. Ohne Youtube und die 72 Stunden Video, die jede Minute hochgeladen werden, wäre die kommende visuelle Singularität unmöglich.

In diesem Sinne hat Google im Juni letzten Jahres 16.000 Computerprozessoren zu einem gigantischen Machine Vision-Lernnetzwerk zusammengeschlossen und auf YouTube losgelassen. Das Ergebnis war, wie die New York Times herausfand, dass das Netzwerk sich selbst beigebracht hat, Katzen zu erkennen.

Warum? Einfach…. Es gibt Unmengen von Katzenvideos auf YouTube. Das ist eines der Dinge, die es gesehen hat. Genau wie ein Kind lernt, die Objekte zu erkennen, die es jeden Tag sieht.

Die Katzengeschichte hat sich herumgesprochen. Was die meisten Leute in diesem Times-Beitrag vermissten, war die Tatsache, dass Googles Machine Vision-Algorithmus weitaus besser lief als alles andere – seine Genauigkeit etwa verdoppelte (während er Objekte aus einer Liste von etwa 20.000 Objekten erkannte) auf dem Weg zur Katzenerkennung.

Diese Verdoppelung – das ist ein exponentielles Wachstum. Sichtbares exponentielles Wachstum. Was es bedeutet, ist, dass, während die Bildverarbeitung für eine Weile auf einer exponentiellen Kurve war, sie unterhalb des Knies der Kurve war, wo diese Verdoppelungen größtenteils unsichtbar sind. Googles Erfolg bringt den Bogen viel näher zum Knie – es bedeutet, dass wir uns immer näher kommen, wie wir Menschen es kennen.

Aus einer anderen Perspektive, wenn wir über das Sehen sprechen, wie wir Menschen es kennen, sprechen wir über eine akzeptable Fehlerschwelle. Das menschliche visuelle System ist ziemlich gut. Nicht großartig, aber mehr als genug, um uns in den letzten 200.000 Jahren zu halten. Aus genau diesem Grund ist die Fehlerrate für uns akzeptabel.

Aber es hat Grenzen. Die menschliche Vision wird müde. In Experimenten, die im Los Alamos National Laboratory durchgeführt wurden, wurden die Experimente unter einer Stunde durchgeführt, wenn Menschen gebeten wurden, Objekterkennungsaufgaben auszuführen, um nicht zu dem Punkt zu kommen, an dem sich die Versuchspersonen nicht mehr auf die Aufgabe konzentrieren konnten. Googles Maschine lief eine Woche lang über Millionen von Bildern, lange nach dem Punkt, an dem jeder Mensch hoffen konnte, mitzuhalten.

Sobald diese Schwelle überschritten ist, wird der Einfluss auf die Gesellschaft erheblich sein.

Im Moment haben wir zum Beispiel den Da Vinci Operationsroboter. Tolle Erfindung. Da Vinci hilft Chirurgen, alles von Herz Bypässen durch Magen Bypässe mit viel mehr Präzision und weniger Kollateralschaden als ein Mensch ohne Hilfe durchzuführen. Aber das Da Vinci braucht immer noch menschliche Beteiligung. Es ist die Fähigkeit, die eigentliche Operation durchzuführen ist viel besser als unsere Hände Hände, aber es muss unsere Augen ausleihen. Aber wenn die maschinelle Sicht besser wird als die menschliche, wird der Chirurg obsolet.

Okay, nicht völlig veraltet, wir brauchen immer noch ihre Kenntnisse und Forschungsfähigkeiten. Dennoch hat IBM Watson (den Jeopardy-gewinnenden Supercomputer) an die medizinische Fakultät geschickt. Es wird mit so vielen medizinischen Daten wie möglich geladen. Die Ergebnisse werden ein unglaublich leistungsstarkes Diagnosegerät in die Cloud bringen. Verbinden Sie dieses Diagnosegerät mit besserer als menschlicher Bildverarbeitung (und Labor-auf-einem-Chip Mikrofluidik-Analyse) und es sind nicht nur Chirurgen, die einen Job verloren haben.

Ärzte auch. Derzeit liegt der diagnostische Fehler bei den menschlichen Ärzten bei 45 Prozent. Das heißt, wenn Sie dreimal zu Ihrem Arzt gehen – die Prozentsätze sagen, dass er bei einem dieser Besuche etwas falsch gemacht hat. Wir haben bereits Watson, die Lab-on-a-Chip-Technologie ist auch ein paar Jahre draußen (siehe Qualcomm Tricorder X Prize). Machine Vision wird das Triumvirat vervollständigen. Die Ergebnisse werden das Gesundheitswesen für immer verändern.

Ehrlich gesagt, ist es nicht nur Gesundheitsversorgung. Sobald Maschinen in der Lage sind, visuell mit der Welt zu interagieren, wird eine Fülle von Technologien freigeschaltet, die heute nur Science Fiction sind.

Also, Siri, fahr mich zur Arbeit, während ich die letzten zwanzig Minuten von Terminator beobachte.