NLP für unterbesetzte Sprachen

· Thomas Wood
NLP für unterbesetzte Sprachen

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Bild von: harmonydata.ac.uk

“Zu viel denken”

Ich habe an der Entwicklung von Harmony gearbeitet, einem Tool, das Psychologieforschern hilft, Fragebogenelemente in Klartext sprachübergreifend zu harmonisieren , sodass sie Datensätze aus unterschiedlichen Quellen kombinieren können. Eine der Herausforderungen, die Wellcome , der Geldgeber des Forschungsstipendiums für Daten zur psychischen Gesundheit für Harmony , an uns stellte, war, wie gut Harmony mit kulturspezifischen Konzepten umgehen kann. In der Psychologie gibt es die Idee „ kultureller Konzepte von Leiden “, d. h. die Vorstellung, dass sich einige psychische Störungen in verschiedenen Kulturen auf eine bestimmte Art und Weise manifestieren .

Shona oder chiShona wird hauptsächlich in Simbabwe gesprochen und gehört zusammen mit Swahili , Zulu und Xhosa zur Bantusprachenfamilie . Ein Beispiel für ein „kulturelles Konzept von Not“ ist das Shona-Wort „ kufungisisa “, das mit „zu viel nachdenken“ übersetzt werden kann.

Kufungisisa leitet sich vom Verbstamm -funga (denken) wie folgt ab:

| Shona | Englisch | | ———– | ————————————————– ————————– | | -funga | denke | | kufunga | denken | | ndofunga | Ich denke | | -isa | (kausatives Suffix: „veranlassen, etwas zu tun“) | | -isisa | (Intensivsuffix: „schnell tun“) | | kufungisisa | tief nachdenken, zu viel nachdenken; eine Shona-Redewendung für nicht-psychotische Geisteskrankheit |

Zu weiteren Beispielen für kulturelle Notkonzepte zählt Hikikomori (Japanisch: ひきこもり oder 引きこもり), eine Form des starken sozialen Rückzugs , bei der sich die Person weigert, das Haus ihrer Eltern zu verlassen, nicht arbeitet oder zur Schule geht und sich in einem Einzelzimmer von der Gesellschaft und Familie isoliert.

Um zu sehen , ob wir diese Art von Elementen mithilfe von Semantik und Dokumentvektoreinbettungen zuordnen können, musste ich nach einem trainierten Sprachmodell suchen, das Text in Shona verarbeiten kann. Glücklicherweise gab es ein Projekt zum Trainieren großer Sprachmodelle in einer Reihe afrikanischer Sprachen, und ich konnte meinen Shona-Text durch das von David Adelani bei Google DeepMind und UCL trainierte Modell xlm-roberta-base-finetuned-shona laufen lassen. Ich stellte fest, dass das Modell einsprachigen Shona-Text einigermaßen gut zuordnen konnte, gemischten englischen und Shona-Text jedoch nicht.

Multilingual NLP

Need to process multilingual text?

Wir können mehrsprachige NLP- Lösungen für unterversorgte und wenig genutzte Sprachen von Aserbaidschanisch bis Zulu erstellen.

Das Shona-Modell, das ich gefunden habe, wurde im Rahmen einer Arbeit von Alabi et al. entwickelt, in der sie LLMs für Amharisch , Hausa , Igbo , Madagassisch , Chichewa , Oromo, Naija ( Nigerianisches Pidgin-Englisch ), Kinyarwanda , Kirundi, Shona , Somali , Sesotho, Swahili , isiXhosa (Xhosa), Yoruba und isiZulu (Zulu) entwickelten – sowie afro-xlmr-large , das 17 Sprachen abdeckt.

Um insbesondere den Ressourcenmangel bei bestimmten Sprachen zu bewältigen, verwendeten die Forscher die Methode der sprachadaptiven Feinabstimmung (Language Adaptive Fine-Tuning , LAFT). Dabei wird ein vorhandenes mehrsprachiges Sprachmodell übernommen und für die Zielsprache feinabgestimmt.

Eine Zusammenfassung meiner Experimente mit dem Shona-Modell können Sie hier lesen, und meinen Code können Sie hier in einem Jupyter -Notizbuch herunterladen.

Mich würde interessieren, wie gut sich kulturspezifische Konzepte durch Einbettungen darstellen lassen, eine definitive Antwort habe ich darauf aber noch nicht, da sich mehrsprachige LLMs noch in der Anfangsphase befinden.

Verweise

Ihre NLP-Karriere wartet!

Bereit für den nächsten Schritt in Ihrer NLP-Reise? Vernetzen Sie sich mit Top-Arbeitgebern, die Talente in der natürlichen Sprachverarbeitung suchen. Entdecken Sie Ihren Traumjob!

Finden Sie Ihren Traumjob

Generative KI
Generative ki

Generative KI

Generative KI Einführung Generative KI , ein Teilbereich der KI, verändert Branchen grundlegend und gestaltet die Zukunft. Durch die Nutzung fortschrittlicher Algorithmen kann generative KI Inhalte, Designs und Lösungen erstellen, die zuvor undenkbar waren.

Große Daten
Große daten

Große Daten

Große Daten Das Aufkommen von Big Data hat ganze Branchen revolutioniert und traditionelle Geschäftsmodelle und Entscheidungsprozesse verändert. In dieser umfassenden Untersuchung gehen wir der Frage nach, was Big Data ist, welche erheblichen Auswirkungen es auf die Geschäftsstrategie hat und wie Unternehmen riesige Datenmengen nutzen können, um Innovationen voranzutreiben und sich einen Wettbewerbsvorteil zu verschaffen.

KI im Finanzwesen
Ki im finanzwesen

KI im Finanzwesen

KI im Finanzwesen Die Integration künstlicher Intelligenz (KI) in den Finanzsektor hat die Arbeitsweise von Institutionen revolutioniert, von der Automatisierung von Abläufen bis hin zur Verbesserung der Kundenbindung und des Risikomanagements.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us