Case Studies

Erkennen von Medikamentennamen in unstrukturiertem englischen Text mit Python

Wir haben eine Python-Bibliothek namens Drug Named Entity Recognition als Open Source freigegeben, um Medikamentennamen in einer Zeichenfolge zu finden. Beispiel: „Ich habe Phenoxymethylpenicillin gekauft.“ Diese NLP-Aufgabe wird Named Entity Recognition (Medikamentennamen im Text finden) und Named Entity Linking (Medikamente IDs zuordnen) genannt.

Ländernamen in unstrukturiertem englischen Text mit Python erkennen

Wir haben eine Python-Bibliothek namens Country Named Entity Recognition als Open Source freigegeben, um Ländernamen in einer Zeichenfolge zu finden. Beispiel: „Diese Studie wird Studienstandorte in Namibia, Simbabwe und Südafrika umfassen.“ Diese NLP-Aufgabe wird Named Entity Recognition (Länder im Text finden) und Named Entity Linking (Länder IDs zuordnen) genannt.

Was macht Harmony?

Psychologen und Sozialwissenschaftler müssen häufig Fragen in verschiedenen Fragebögen zuordnen, wie etwa „Ich fühle mich oft ängstlich“ und „Ich fühle mich nervös, ängstlich oder beunruhigt“.

Dies nennt man Harmonisierung .

Die Harmonisierung ist ein zeitaufwändiger und subjektiver Prozess.

Es macht keinen Spaß, lange Fragebögen im PDF-Format durchzugehen und die Fragen in Excel einzugeben.

Hier kommt Harmony ins Spiel, ein Tool, das natürliche Sprachverarbeitung und generative KI-Modelle nutzt, um Forschern dabei zu helfen, Fragebogenelemente auch in verschiedenen Sprachen zu harmonisieren.

Frühere Kunden von Fast Data Science

Wir arbeiten mit Kunden auf der ganzen Welt zusammen, die Mehrheit unserer Kunden befindet sich jedoch im Vereinigten Königreich, gefolgt von den USA und dem übrigen Europa.

Branchenkompetenz

Wir haben uns auf das Gesundheitswesen und die Pharmaindustrie konzentriert, sind jedoch offen für die Arbeit in zahlreichen Branchen.

Consulting-Fallstudien bei Fast Data Science

Zu den Projekten, an denen wir in der Vergangenheit gearbeitet haben, gehören unter anderem:

Ein Dashboard, das es der Öffentlichkeit ermöglicht, Umfrageantworten zu erkunden, die mithilfe von maschinellem Lernen automatisch kategorisiert wurden, für die White Ribbon Alliance . Dieses Dashboard wurde 2021 den Vereinten Nationen vorgestellt.
Ein unüberwachtes Lernmodell zur Erkennung wiederkehrender Themen und Fehler in den Herstellungs- und Lieferkettenprozessen für Boehringer Ingelheim . Die Fehler wurden in einfachem Englisch oder in der Landessprache der jeweiligen Einrichtung beschrieben.
Ein Vorhersagemodell in Microsoft Azure ML, das ermittelt hat, bei welchen Assistenzärzten (Praktikanten/Assistenzärzten) des britischen National Health Service (NHS) das Risiko besteht, dass sie das Unternehmen verlassen.
Ein Deep-Learning-Modell , ebenfalls in Azure ML, zum Kategorisieren von E-Mails von Kunden für das Information Commissioner’s Office .
Ein auf neuronalen Netzwerken basierendes Modell zum Extrahieren strukturierter Daten und Statistiken aus Protokollen klinischer Studien, auch für Boehringer Ingelheim.
Ein Vorhersagemodell, das neuronale Netzwerke verwendet, um Attribute aus den Lebensläufen von Arbeitssuchenden abzuleiten, bereitgestellt auf der Website der CV-Library .
Ein Modell, das die Online-Einkaufsbeträge von Kunden vorhersagt, für die britische Supermarktkette Tesco .

Interaktives Diagramm früherer Kunden

In unserem interaktiven Diagramm können Sie sehen und erkunden, woher unsere Kunden kommen und in welchen Branchen sie tätig sind.

.chart-logo {

    display: flex;

    justify-content: center;

.chart-logo>img {

    width: 300px;

.chart-logo {

    display: flex;

    justify-content: center;

.chart-logo>img {

    width: 300px;

<!--<div class="chart-logo"><img src="https://raw.githubusercontent.com/fastdatascience/logos/master/logo_transparent_background.png" width=40 /></div>-->

<div class="select-div">

    <label for="year">

        Select year

    </label>

    <select class="select-inp w-full" name="year" id="year" onchange="plot()">

        <option value="all">All</option>

        <option value="2020">2020</option>

        <option value="2021">2021</option>

    </select>

</div>

<div class="select-div my-6">

    <label for="metric">

        Explore Fast Data Science clients by

    </label>

    <select class="select-inp w-full" name="metric" id="metric" onchange="plot()">

        <option value="industry">Industry</option>

        <option value="region">Region</option>

        <option value="size">Size</option>

    </select>

</div>

<!-- Container for the visualization -->

<div id="vis"></div>

plot()

function plot() {

    let year = document.getElementById("year").value;

    let metric = document.getElementById("metric").value;

    let data = [{

            year: ['2020'],

            region: 'EU',

            industry: 'Healthcare',

            sector: 'Private',

            size: '\u00A0large (250+ employees)',

},

            year: ['2020'],

            region: 'UK',

            industry: 'Healthcare',

            sector: 'Private',

            size: '\u00A0large (250+ employees)',

},

            year: ['2020'],

            region: 'EU',

            industry: 'Finance',

            sector: 'Private',

            size: ' small (<50 employees)',

},

            year: ['2020'],

            region: 'UK',

            industry: 'Healthcare',

            sector: 'Private',

            size: ' micro (<10 employees)',

},

            year: ['2020', '2021'],

            region: 'US',

            industry: 'Nonprofit',

            sector: 'Nonprofit',

            size: 'medium (<250 employees)',

},

            year: ['2020'],

            region: 'UK',

            industry: 'Insurance',

            sector: 'Private',

            size: 'medium (<250 employees)',

},

            year: ['2020'],

            region: 'UK',

            industry: 'Finance',

            sector: 'Private',

            size: ' small (<50 employees)',

},

            year: ['2020'],

            region: 'US',

            industry: 'Technology',

            sector: 'Private',

            size: ' micro (<10 employees)',

},

            year: ['2020'],

            region: 'EU',

            industry: 'Energy',

            sector: 'Private',

            size: '\u00A0large (250+ employees)',

},

            year: ['2020'],

            region: 'UK',

            industry: 'Energy',

            sector: 'Private',

            size: 'medium (<250 employees)',

},

            year: ['2020', '2021'],

            region: 'UK',

            industry: 'Healthcare',

            sector: 'Private',

            size: 'medium (<250 employees)',

},

            year: ['2021'],

            region: 'UK',

            industry: 'Communication',

            sector: 'Public',

            size: '\u00A0large (250+ employees)',

},

            year: ['2020', '2021'],

            region: 'UK',

            industry: 'Technology',

            sector: 'Private',

            size: ' small (<50 employees)',

},

];

    data = data.filter(company => {

        if (year == 'all') {

            return true

        } else {

            return company.year.includes(year)

});

    function extractData(feature) {

        let extractedData = [];

        let tempData = [];

        data.forEach(row => {

            tempData.push(row[feature])

})

        tempData = [...new Set(tempData)].forEach(v => {

            t = {}

            t[metric] = v;

            t.count = tempData.filter(val => {

                return val == v

            }).length

            extractedData.push(t)

});

        return extractedData;

    data = extractData(metric);

    // Assign the specification to a local variable vlSpec.

    var vlSpec = {

        $schema: 'https://vega.github.io/schema/vega-lite/v5.json',

        data: {

            values: data

},

        "config": {

            "axis": {

                "labelFont": "PT Sans",

                "titleFont": "PT Sans"

},

            "legend": {

                "labelFont": "PT Sans",

                "titleFont": "PT Sans"

},

            "header": {

                "labelFont": "PT Sans",

                "titleFont": "PT Sans"

},

            "mark": {

                "font": "PT Sans"

},

            "title": {

                "font": "PT Sans",

                "subtitleFont": "PT Sans"

},

        "width": 500,

        "height": 400,

        "mark": {

            "type": "bar",

            "filled": true,

            "tooltip": true

},

        "encoding": {

            "x": {

                "field": metric,

                "type": "nominal",

                "axis": {

                    "labelAngle": 0

},

            "y": {

                "field": "count",

                "type": "quantitative",

                "axis": {

                    "tickMinStep": 1

};

    // Embed the visualization in the container with id `vis`

    vegaEmbed('#vis', vlSpec);

    console.log(data)

Weitere Fallstudien

Ein Empfehlungssystem, um Kandidaten Jobs für die CV-Library zu empfehlen.
Ein Modell zur Vorhersage der Entladezeit von Fahrzeugen , das zur Verbesserung der Genauigkeit der Logistikplanung für Lebensmittellieferungen, auch für Tesco, verwendet wird.
Ein auf einem Convolutional Neural Network basierendes Gesichtserkennungssystem, das für Android-, iOS- und Desktop-Apps entwickelt wurde und zur biometrischen Sicherheit verwendet wird.
Eine sprachgesteuerte Smart-Home-Anwendung.

Interpretation von Grundbucheinträgen mithilfe natürlicher Sprachverarbeitung

Verwendung von NLP zur Vorhersage von Kundeneskalationen

Open-Source-Tools für die Verarbeitung natürlicher Sprache

Open-Source-Projekte (MIT-Lizenz)

Python-Bibliothek zur Erkennung von Arzneimitteln mit benannter Entität

Erkennen von Medikamentennamen in unstrukturiertem englischen Text mit Python

Python-Bibliothek zur Erkennung länderspezifischer benannter Entitäten

Ländernamen in unstrukturiertem englischen Text mit Python erkennen

Harmony (Beitrag zum Wellcome Data Prize im Bereich psychische Gesundheit)

Was macht Harmony?

Clinical Trial Risk Tool

Drag-and-Drop-GUI-Dashboard für maschinelles Lernen – Office of Rail and Road

Erstellen einer GUI für maschinelles Lernen für das Office of Rail and Road

Kausales maschinelles Lernen für die Kompetenzentwicklung in Schottland

Analyse von Beschäftigungs- und Bildungsergebnissen mithilfe von maschinellem Lernen und Kausalitätsmodellen

Boehringer Ingelheim – NLP-Clustering auf Fabrikfehlerberichten

Frühere Kunden von Fast Data Science

Branchenkompetenz

Consulting-Fallstudien bei Fast Data Science

Interaktives Diagramm früherer Kunden

Weitere Fallstudien

Transform Unstructured Data into Actionable Insights