Wir haben eine Python-Bibliothek namens Country Named Entity Recognition als Open Source freigegeben, um Ländernamen in einer Zeichenfolge zu finden. Beispiel: „Diese Studie wird Studienstandorte in Namibia, Simbabwe und Südafrika umfassen.“ Diese NLP-Aufgabe wird Named Entity Recognition (Länder im Text finden) und Named Entity Linking (Länder IDs zuordnen) genannt.
Bitte beachten Sie, dass die Country Named Entity Recognition nur Länder mit hoher Konfidenz findet. Ein Text wie „Amerika“ ist mehrdeutig.
Auch Country Named Entity Recognition findet nur die englischen Namen dieser Länder. Namen in der Landessprache werden nicht unterstützt.
Sie können die Python-Bibliothek installieren, indem Sie in die Befehlszeile Folgendes eingeben:
pip install country-named-entity-recognition
Der Quellcode befindet sich auf Github und das Projekt auf Pypi .
In Ihrer Python-Konsole können Sie Folgendes versuchen:
Beispiel 1
from country_named_entity_recognition import find_countries find_countries("We are expanding in the UK")
gibt eine Liste von Tupeln aus.
[(Country(alpha_2='GB', alpha_3='GBR', flag='', name='United Kingdom', numeric='826', official_name='United Kingdom of Great Britain and Northern Ireland'),)]
Beispiel 2
Das Standardverhalten des Tools geht davon aus, dass Ländernamen richtig geschrieben und Zeichensetzung verwendet werden:
from country_named_entity_recognition import find_countries find_countries("I want to visit france.")
Natural language processing
wird nichts zurückgeben.
Wenn Ihr Text jedoch aus sozialen Medien oder einer anderen nicht moderierten Quelle stammt, möchten Sie möglicherweise die Groß-/Kleinschreibung ignorierende Übereinstimmung zulassen:
from country_named_entity_recognition import find_countries find_countries("I want to visit france.", is_ignore_case=True)
Gladys Knight. Bildquelle . Lizenz: Namensnennung-Weitergabe unter gleichen Bedingungen 2.0 Generic (CC BY-SA 2.0)
Klärung der Frage: Ist Georgien ein Staat oder ein Land?
Sie können dem Tool auch Kontext hinzufügen. Wenn wir auf die Zeichenfolge „Georgia“ stoßen, geht die Bibliothek standardmäßig davon aus, dass es sich um den US-Bundesstaat handelt, und kennzeichnet ihn nicht als Land:
from country_named_entity_recognition import find_countries find_countries("Gladys Knight and the Pips wrote the Midnight Train to Georgia")
gibt eine leere Liste zurück.
Sie können jedoch eine Zeichenfolge angeben, die einen klaren Kontexthinweis enthält, und das Tool erkennt Georgien als Land:
from country_named_entity_recognition import find_countries find_countries("Salome Zourabichvili is the current president of Georgia.")
kehrt zurück
[(Country(alpha_2='GE', alpha_3='GEO', flag='', name='Georgia', numeric='268'),)]
Sie können über einen optionalen Parameter einige Metadaten angeben, damit das Tool davon ausgeht, dass es sich bei dem Land um Georgien handelt:
from country_named_entity_recognition import find_countries find_countries("I want to visit Georgia.", is_georgia_probably_the_country=True)
„Ich möchte Georgien besuchen.“
Hinzufügen benutzerdefinierter Varianten zur Country Named Entity Recognition
Wenn Sie feststellen, dass eine Variante des Ländernamens fehlt, können Sie diese mit der Methode hinzufügen.
Stellen wir uns vor, wir möchten Nimmerland als Synonym für die VAE hinzufügen:
from country_named_entity_recognition import find_countries, \ add_custom_variants add_custom_variants(["Neverneverland"], "AE") find_countries("I want to visit Neverneverland")
Wenn Sie auf ein Problem stoßen, können Sie entweder unter https://github.com/fastdatascience/country_named_entity_recognition/issues eine Meldung senden oder sich an Fast Data Science wenden .
Wood, TA, Country Named Entity Recognition [Computersoftware], Version 0.4, abgerufen unter https://fastdatascience.com/country-named-entity-recognition/ , Fast Data Science Ltd (2022)
@unpublished{countrynamedentityrecognition, AUTHOR = {Wood, T.A.}, TITLE = {Country Named Entity Recognition (Computer software), Version 0.4}, YEAR = {2022}, Note = {To appear}, url = {https://fastdatascience.com/country-named-entity-recognition/} }
Glücklicherweise nutzen zahlreiche Personen und Organisationen auf der ganzen Welt die Bibliothek und haben uns zitiert.
Alisa Redding von der Universität Helsinki verwendete das Tool für ihre Masterarbeit zum Thema Massenaussterben von Arten und Artenvielfalt.
Christoph Funk und seine Kollegen von der Justus-Liebig-Universität Gießen nutzten die Country-Named-Entity-Recognition für ihre Metaanalyse von Artikeln zu den nachhaltigen Entwicklungszielen im Jahr 2023:
Francesco Bosso und sein Team bei der Europäischen Kommission haben einen Bericht verfasst, in dem sie NLP zur Standorterkennung untersuchen und sich dabei auf die Terrorismus- und Extremismusdatenbank des JRC konzentrieren.
Ugochukwu Etudo und Victoria Y. Yoon von der Virginia Commonwealth University verwendeten das Tool bei ihrer Analyse radikaler Online-Inhalte:
What we can do for you