MIT erstellt eine KI, die Depression aus der Sprache vorhersagt

Innovatives neuronales Netzwerk erkennt Depressionen aus Gesprächen.

Jacob Lund/Shutterstock

Quelle: Jacob Lund / Shutterstock

Laut Depressionen der Weltgesundheitsorganisation (WHO) vom März 2018 ist die Depression eine der häufigsten Erkrankungen weltweit, die sich auf das Leben von über 300 Millionen Menschen und fast 800.000 Suizide pro Jahr auswirkt. Die Diagnose einer Depression kann ein schwieriges und komplexes Unterfangen sein. Laut der Mayo Clinic variieren die Symptome der Depression, und die Ärzte können eine körperliche Untersuchung, Labortests, einen Fragebogen zur psychiatrischen Bewertung und Kriterien des DSM-5 der American Psychiatric Association ( Diagnose- und Statistikhandbuch für psychische Störungen ) verwenden, um eine Untersuchung durchzuführen Diagnose einer Depression [1]. Für einen Psychiater ist es wichtig, die richtigen Fragen zu stellen und die Antworten zu interpretieren. Aber was wäre, wenn eine Diagnose durch natürliche Konversation erreicht werden könnte, statt einen Kontext von Frage und Antwort zu fordern?

Ein innovatives Forschungsteam des Massachusetts Institute of Technology (MIT), bestehend aus Tuka Alhanai und James Glass am CSAIL (Labor für Informatik und künstliche Intelligenz) und Mohammad Ghassemi am IMES (Institut für Medizintechnik und Wissenschaft), entdeckte einen Weg für die Erkennung von KI Depressionen bei Individuen durch Identifizieren von Mustern in natürlichen Gesprächen [2].

Die MIT-Forscher entwickelten ein neuronales Netzwerk-KI-Modell, das Depressionen basierend auf der Erkennung von Sprachmustern aus Audio- und Texttranskriptionen aus Interviews vorhersagen konnte. Unter Verwendung eines Datensatzes aus 142 aufgezeichneten Patienteninterviews zielte das Team darauf ab, Sequenzen für die Depressionserkennung zu modellieren. Die Forscher schlossen Experimente zur kontextfreien Modellierung, zur gewichteten Modellierung und zur Sequenzmodellierung ein [3].

Zunächst versuchte das Team, die Vorhersagegenauigkeit von Audio- und Textmerkmalen zu beurteilen, „wenn diese unabhängig von der Art der gestellten Frage und der Zeit, die sie während der Interviewsitzung gestellt wurde – betrachtet wird – mit anderen Worten:„ kontextfreie “Modellierung. Das Team fütterte 279 Audio- und 100 Textfunktionen in ein logistisches Regressionsmodell mit L1-Regularisierung [4]. Für die Textfunktionen nutzte das Team Doc2Vec aus der Python Gensim-Bibliothek für insgesamt 8.050 Trainingsbeispiele, 272.418 Wörter und eine Wortschatzgröße von 7.411 [5]. “Bei Audiofunktionen extrahierte das Team zunächst 553 Merkmale, die jede Antwort des Subjekts darstellen. [6]. ”

Im zweiten Experiment zielte das Team darauf ab, die Vorhersageleistung zu verstehen, „wenn die Konditionierung der Fragestellung unabhängig von der Zeit war, zu der sie während des Interviews gestellt wurde.“ Um dies zu erreichen, wurde ein gewichtetes Modell erstellt, das dem Kontext ähnelt. freies Modell mit einem Hauptunterscheidungsmerkmal – es hatte dem Modell Gewichtungen zugeteilt, die auf der “Vorhersagekraft der im Trainingssatz gefundenen Frage” basierten.

istockphoto

Quelle: istockphoto

Für das dritte Experiment konzentrierte sich das Team auf “Modellierung zeitlicher Änderungen des Interviews” und verwendete ein bidirektionales neuronales Langzeitspeicher (LSTM), da es “den zusätzlichen Vorteil hatte, sequentielle Daten zu modellieren”.

Interessanterweise stellten die Forscher fest, dass das Modell bei der Verwendung von Audio mehr als viermal mehr Daten benötigte als Text, um Depressionen vorherzusagen. Das Modell benötigte durchschnittlich 30 Sequenzen für Audio, im Vergleich zu nur sieben Sequenzen von Textfrage und -antwort. Das Team stellte fest, dass die Sequenzmodellierung genauer für die Vorhersage von Depressionen ist und dass das multimodale Modell von Text und Audio die beste Leistung lieferte. Ironischerweise verschleiert die Art der neuronalen KI-Netzwerkmodelle genau, welche Muster aus den Eingangsdaten entdeckt werden. Die Opazität der KI beruht auf der inhärenten Komplexität neuronaler Netze mit komplizierten Verbindungen zwischen Knoten und der großen Anzahl von Parametern. Unabhängig davon ist diese MIT-Studie ein innovativer Schritt auf dem Weg zu einem neuen potenziellen Instrument, das Ärzte und psychiatrische Fachkräfte dabei unterstützen soll, die Komplexität der Diagnose einer Depression in der Zukunft in Angriff zu nehmen.

Copyright © 2018 Cami Rosso Alle Rechte vorbehalten.

Verweise

1. Mitarbeiter der Mayo-Klinik. “Depression (Major Depressive disorder).” Mayo Clinic. Von https://www.mayoclinic.org/diseases-conditions/depression/diagnosis-treatment/drc-20356013 am 14. Oktober 2018 abgerufen.

2. Alhanai, Tuka; Ghassemi, Mohammad; Glas, James. “Erkennung von Depressionen mit der Audio- / Textsequenz-Modellierung von Interviews.” MIT. 2. bis 6. September 2018. Abgerufen am 12. Oktober 2018 von http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf.

3. ebd .

4. ebd .

5. ebd .

6. Ebenda