Harmonisierung unstrukturierter Textdaten mit NLP in der Psychologie (Harmony-Projekt)

· Thomas Wood
Harmonisierung unstrukturierter Textdaten mit NLP in der Psychologie (Harmony-Projekt)

Wir haben ein Tool entwickelt, das die Verarbeitung natürlicher Sprache nutzt das Forschern in den Sozialwissenschaften dabei helfen soll, zu harmonisieren Datensätze aus unterschiedlichen Kontexten. Dies ist Teil eines umfassenderen Projekts namens Harmony , das Teil eines Beitrags ist, den wir für den Wellcome Mental Health Data Prize einreichen.](https://wellcome.org/grant-funding/schemes/wellcome-mental-health-data-prize) , zusammen mit dem Center for Longitudinal Studies an der UCL , Ulster University und Universidade Federal de Santa Maria in Brasilien.

Die Forschungsfrage

Das Harmony-Projekt konzentriert sich auf eine Forschungsfrage:

How does social connection impact anxiety and depression in young people in different countries?

Wir haben uns auf zwei sehr unterschiedliche Kontexte konzentriert: Großbritannien und Brasilien. Wir haben numerische Maße der sozialen Verbundenheit untersucht, die in Umfragen und Fragebögen gemessen werden können.

Einbindung junger Experten

Die Harmony-Forscher führten eine Reihe von Sitzungen mit jungen Menschen in beiden Ländern durch, um qualitative Daten zu individuellen Erfahrungen zu sammeln.

In Brasilien interviewte unser Psychologe sechs Personen im Alter zwischen 13 und 18 Jahren, die wegen Angstzuständen und Depressionen in Behandlung waren, und befragte sie zu ihrem Konzept von sozialer Bindung und deren Zusammenhang mit Angstzuständen und Depressionen.

Aus diesen Initiativen gingen einige Unterschiede hervor. Britische Jugendliche nannten beispielsweise Mobbing als Hauptfaktor, während brasilianische Teilnehmer angaben, sich nicht beurteilt zu fühlen.

Vergleich der Daten aus Großbritannien und Brasilien

Für Großbritannien und Brasilien stehen Datensätze zur Verfügung, mit denen wir arbeiten konnten:

Diese Datensätze enthalten Variablen und Datenpunkte, die auf unterschiedliche Weise dargestellt werden können. Wenn wir eine Metaanalyse durchführen möchten (den Zusammenhang zwischen sozialer Verbindung, Angstzuständen und Depression in beiden Ländern vergleichen), müssen wir zunächst ermitteln, welche Variablen in beiden Datensätzen verfügbar sind, welche Variablen sie gemeinsam haben und wie wir dies tun können Vergleichen Sie die Informationen in diesen Variablen.

Wenn beispielsweise in einer Studie die Angst mithilfe des GAD-7 gemessen wurde und in einer anderen Studie Beck’s Anxiety Inventory würde es typischerweise einen manuellen Harmonisierungsprozess zur Identifizierung von Fragebogenelementen geben die einander gleichwertig sind.

Die Lösung

Wir hatten die Idee, jedes Fragebogenelement als Vektor auf der Oberfläche einer mehrdimensionalen Kugel darzustellen. Elemente, die semantisch ähnlich sind, liegen nahe beieinander und haben eine Kosinus-Ähnlichkeit nahe 1, während Elemente, die völlig unterschiedlich sind, dazu neigen, eine Ähnlichkeit nahe bei 0.

Wir haben das Modell Deep Learning GPT-2 verwendet, um Texte in verschiedenen Sprachen in ihren Vektor umzuwandeln.](/matchmaking-deep-learning) Darstellungen. Wir haben dies in ein Web-Frontend verpackt, um ein webbasiertes Tool namens Harmony zu erstellen. Sie können es online unter https://harmonydata.ac.uk/app ausprobieren.

Partnerschaften

Wir haben Harmony auch in Zusammenarbeit mit DATAMIND und dem Catalogue of Mental Health Maßnahmen , die in der psychologischen Forschung weit verbreitet sind Ressourcen und ihr Feedback zur Verbesserung des Tools berücksichtigt.

Sie können mehr über Harmony und seine Funktionsweise im Harmony-Blog lesen.

Verweise

  1. Radford, Alec et al. „Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende.“ OpenAI-Blog 1.8 (2019): 9.

  2. Salum, Giovanni Abrahão. „Hochrisiko-Kohortenstudie für psychiatrische Störungen im Kindesalter.“

  3. Smith, Kate und Heather Joshi. „Die Millennium-Kohortenstudie.“ BEVÖLKERUNGSTRENDS-LONDON- (2002): 30-34.

Text Mining – Die Einführung in die geschäftliche Nutzung
DatenwissenschaftProjektmanagement

Text Mining – Die Einführung in die geschäftliche Nutzung

Text Mining: Kurzer Überblick Das moderne Unternehmen hat Zugriff auf riesige Mengen unstrukturierter Daten, doch diese Daten können sich nur dann als nützlich erweisen, wenn daraus die gewünschten Erkenntnisse gewonnen werden können.

Der Stand der Textanalyse im Jahr 2023: Trends und Möglichkeiten
DatenwissenschaftProjektmanagement

Der Stand der Textanalyse im Jahr 2023: Trends und Möglichkeiten

Wie sieht Textanalyse-KI im Jahr 2023 aus, wie sie generell funktioniert und wie Sie damit Ihre Kunden, Mitarbeiter und Ihre Marke auf das nächste Level heben können – all das und mehr in unserem ausführlichen Artikel.

Was ist Natural Language Understanding (NLU) und wie wird es verwendet? in der Praxis.
DatenwissenschaftProjektmanagement

Was ist Natural Language Understanding (NLU) und wie wird es verwendet? in der Praxis.

Natural Language Understanding (NLU): Überblick Wenn wir darüber nachdenken, ist Sprache eines der mächtigsten Werkzeuge in unserem Arsenal. Wir nutzen es, um auszudrücken, was wir fühlen oder denken.

Was wir für Sie tun können

Verwandeln Sie unstrukturierte Daten in umsetzbare Erkenntnisse

Kontaktiere uns