NLP für unterbesetzte Sprachen

· Thomas Wood
NLP für unterbesetzte Sprachen

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Bild von: harmoniedata.ac.uk

“Zu viel denken”

Ich habe an der Entwicklung von Harmony gearbeitet, einem Tool, das Psychologieforschern dabei hilft, Fragebogenelemente im Klartext in verschiedenen Sprachen zu harmonisieren , damit sie Datensätze aus unterschiedlichen Quellen kombinieren können. Eine der Herausforderungen, die Wellcome , die Geldgeber des Forschungsstipendiums zum Preis für psychische Gesundheitsdaten für Harmony , an uns stellte, war: Wie gut geht Harmony mit kulturspezifischen Konzepten um? In der Psychologie gibt es die Vorstellung von „ kulturellen Notkonzepten “, d. h. der Vorstellung, dass sich einige psychische Störungen in verschiedenen Kulturen auf eine bestimmte Weise manifestieren .

Shona oder ChiShona wird hauptsächlich in Simbabwe gesprochen und gehört neben Swahili , Zulu und Xhosa zur Bantu-Sprachfamilie . Ein Beispiel für ein „kulturelles Konzept von Not“ ist das Shona-Wort „ kufungisisa “, das mit „zu viel denken“ übersetzt werden kann.

Kufungisisa leitet sich vom Verbstamm -funga , denken, wie folgt ab:

| Shona | Englisch | | ———– | ————————————————– ————————– | | -Pilz | denken | | kufunga | denken | | Ndofunga | Ich denke | | -isa | (ursächliches Suffix: „veranlassen, etwas zu tun“) | | -isisa | (intensives Suffix: „schnell erledigen“) | | kufungisisa | tief nachdenken, zu viel denken; ein Shona-Idiom für nicht-psychotische Geisteskrankheit |

Weitere Beispiele für kulturelle Konzepte von Not sind Hikikomori (japanisch: ひきこもり oder 引きこもり), eine Form des schweren sozialen Rückzugs , bei dem sich eine Person weigert, das Haus ihrer Eltern zu verlassen, nicht arbeitet oder zur Schule geht und sich von der Gesellschaft isoliert Familie in einem Einzelzimmer.

Um zu sehen, ob wir diese Art von Elementen mithilfe von Semantik und Einbettungen von Dokumentvektoren zuordnen können, musste ich nach einem trainierten Sprachmodell suchen, das Text in Shona verarbeiten kann. Glücklicherweise gab es ein Projekt zum Trainieren großer Sprachmodelle in einer Reihe afrikanischer Sprachen, und ich konnte meinen Shona-Text durch das von David Adelani bei Google DeepMind und UCL trainierte Modell xlm-roberta-base-finetuned-shona weiterleiten. Ich stellte fest, dass das Modell einigermaßen gut darin war, einsprachigen Shona-Text abzugleichen, aber gemischten englischen und Shona-Text nicht zuordnen konnte.

Multilingual NLP

Need to process multilingual text?

Wir können mehrsprachige NLP- Lösungen für unterversorgte und unterversorgte Sprachen von Aserbaidschanisch bis Zulu entwickeln.

Das Shona-Modell, das ich gefunden habe, wurde im Rahmen einer Arbeit von Alabi et al. entwickelt, in der sie LLMs für Amharisch , Hausa , Igbo , Madagassisch , Chichewa , Oromo, Naija ( nigerianisches Pidgin-Englisch ), Kinyarwanda , Kirundi, Shona , Somali , Sesotho, Swahili , isiXhosa (Xhosa), Yoruba und isiZulu (Zulu) – sowie afro-xlmr-large , das 17 Sprachen abdeckt.

Um insbesondere die Herausforderungen fehlender Ressourcen für bestimmte Sprachen zu bewältigen, verwendeten die Forscher die sprachadaptive Feinabstimmung (Language Adaptive Fine Tuning , LAFT), bei der ein vorhandenes mehrsprachiges Sprachmodell genommen und für die Zielsprache verfeinert wird.

Hier können Sie einen Bericht über meine Experimente mit dem Shona-Modell lesen und hier meinen Code in einem Jupyter- Notizbuch herunterladen.

Ich wäre gespannt, wie gut sich kulturspezifische Konzepte durch Einbettungen abbilden lassen, aber eine definitive Antwort habe ich noch nicht, da mehrsprachige LLMs noch in den Kinderschuhen stecken.

Verweise

Ihre NLP-Karriere wartet!

Bereit für den nächsten Schritt in Ihrer NLP-Reise? Vernetzen Sie sich mit Top-Arbeitgebern, die Talente in der natürlichen Sprachverarbeitung suchen. Entdecken Sie Ihren Traumjob!

Finden Sie Ihren Traumjob

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us