Starten eines Data-Science-Projekts

Es ist oft recht komplex und zeitaufwändig, ein Data-Science-Projekt auf den Weg zu bringen. Deshalb teile ich hier einige meiner Gedanken und meine Checkliste mit den Dingen, die man braucht, um ein Data-Science-Projekt starten zu können.

Ich würde zu folgendem Ansatz raten: Eine Reihe von Telefonaten zur Ermittlung der Anforderungen, gefolgt von einem Kick-off-Meeting zur Datenexploration und ein paar Wochen, in denen beide Seiten alles zusammentragen, was sie für den Projektstart benötigen.

Erste Treffen und Telefonate vor dem Start eines Data-Science-Projekts

Besprechen Sie, was der Kunde erreichen möchte. Oft möchte ein Kunde definieren, welcher maschinelle Lernansatz erforderlich ist, ohne vorher einen Schritt zurückzutreten und zu fragen, ob maschinelles Lernen überhaupt notwendig ist und was er erreichen möchte.

Wenn möglich, besorgen Sie sich vorab eine Datenprobe, um die Plausibilität zu prüfen. Ohne die Daten zu sehen, können wir nicht sagen, ob das Projekt möglich ist oder nicht.

Zu Beginn eines Data-Science-Projekts sollten wir dem Kunden einige wichtige Fragen stellen:

Was sagen wir voraus?
Wie wird es dem Unternehmen helfen?
Hat das Unternehmen dies schon einmal versucht? Was ist passiert?
Wollen wir eine Zeitreihe vorhersagen? Zum Beispiel das Einkaufsvolumen pro Tag? Welche zusätzlichen Informationen über den Vortag könnten uns in diesem Fall weiterhelfen?
Wie viele Datenpunkte gibt es? Nehmen wir an, ein Unternehmen möchte etwas über seine Benutzer oder Kunden vorhersagen. Wie viele Benutzer sind in der Datenbank? Ich wurde von Startups kontaktiert, die weniger als 100 Benutzer haben.
Wie viele Informationen haben wir über jeden Benutzer oder Kunden?

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Zu welchem Zeitpunkt möchten wir die Vorhersage über den Benutzer treffen? Möchten wir beispielsweise die Einkäufe eines Benutzers in einem Monat oder in einem Jahr vorhersagen?
Gibt es bereits eine Methode, um Vorhersagen zu treffen? Beispielsweise können wir das nächste Kaufvolumen eines Kunden oft einfach durch Mittelung seiner Kaufhistorie vorhersagen. Wir müssen sorgfältig überlegen, ob maschinelles Lernen diesen Basiswert wahrscheinlich übertreffen kann.
Seit wann sammelt die Organisation Daten? Wenn wir beispielsweise das Kaufverhalten über Weihnachten vorhersagen möchten, benötigen wir einen Datensatz von mindestens drei Jahren, um ein Weihnachten mit dem vorherigen in Beziehung zu setzen und es für das folgende Weihnachten auszuwerten.
Hat das Unternehmen einen bevorzugten Cloud-Anbieter (z. B. Microsoft, Google, Amazon)? Wenn ein Unternehmen Outlook und andere Microsoft-Produkte verwendet, wird es häufig bevorzugen, dass wir Microsoft Azure für alle bereitgestellten Machine-Learning-Modelle verwenden. Der Datenschutzbeauftragte des Unternehmens hat möglicherweise Einwände gegen einen externen Datenwissenschaftler, der Google- oder Amazon-Produkte für Machine Learning verwendet. Ein guter Datenwissenschaftler sollte bereit sein, mit allen drei Anbietern zusammenzuarbeiten.

Kickoff-Meeting vor Ort – mindestens eine Woche vor Beginn des Data Science-Projekts

Zu Beginn eines Data-Science-Projekts ist ein Kick-off-Meeting unerlässlich.

Nach der Klärung dieser Fragen können wir (Pandemien ausgenommen) ein Vor-Ort-Meeting vereinbaren. Idealerweise haben wir bereits vor dem Vor-Ort-Meeting Zugriff auf den Großteil der Daten. Das Vor-Ort-Meeting sollte idealerweise einige Zeit vor dem geplanten Projektstart stattfinden, da es dabei helfen kann, Hindernisse für das Projekt zu identifizieren.

Besprechen und vereinbaren Sie die Ziele des Projekts.
Identifizieren Sie die Stakeholder des Projekts und wem der Datenwissenschaftler Bericht erstatten wird. Ich habe in großen Organisationen viele Projekte scheitern sehen, weil die Berichtskette zwischen dem Datenwissenschaftler und den Stakeholdern zu viele Glieder hatte.
Legen Sie die Meldehäufigkeit und die Kontaktperson im Falle von Blockaden fest.
Vereinbaren und unterzeichnen Sie gegebenenfalls weitere Geheimhaltungsvereinbarungen.
Fordern Sie physischen Zugriff auf die Site und die Computersysteme des Kunden an.
Fordern Sie Zugriff auf alle internen Datenquellen, alle Datenquellen von Drittanbietern und auch alle APIs an. In den meisten Organisationen dauert es mindestens eine Woche, bis der Zugriff gewährt wird.
Fordern Sie Zugriff auf Versionskontrolle, Ticketsysteme und Cloud-Computing-Konten an.
Führen Sie mithilfe des verfügbaren Datendumps eine grundlegende Datenerkundung durch. Zeichnen Sie Histogramme und Streudiagramme numerischer Werte. Finden Sie für jedes kategorische oder Zeichenfolgenfeld heraus, welcher Wert am häufigsten und welcher am seltensten vorkommt. Sehen Sie sich die Daten genau an, um zu prüfen, ob sich Werte im Laufe der Zeit ändern. Suchen Sie nach unerwarteten Nullwerten, inkonsistenten Datentypen und anderen Problemen im Datensatz.
Versuchen Sie, ein sehr schnelles und einfaches Modell für maschinelles Lernen zu erstellen. Dies ist eine Plausibilitätsprüfung, um sicherzustellen, dass ML bei diesem Problem wirklich etwas erreichen kann und welches Genauigkeitsniveau wir erreichen möchten.
Vereinbaren Sie einen erneuten Termin zum Projektbeginn.

Nach dem ersten Treffen vor Ort lassen wir dem Kunden im Idealfall ein paar Wochen Zeit, um Daten zu sammeln und alle Hindernisse aus dem Weg zu räumen, damit mit dem Projekt begonnen werden kann.

Wir haben die oben genannten Kontrollpunkte in einer praktischen Checkliste im Abschnitt „Ressourcen“ unserer Website bereitgestellt, zusammen mit einem im Browser integrierten Gantt-Diagrammgenerator für NLP-Projekte , einem Data-Science-Roadmap-Planer , einer Kalkulationstabelle für die Projektkostenplanung und einem Projektrisikotool .

Starten eines Data-Science-Projekts

Erste Treffen und Telefonate vor dem Start eines Data-Science-Projekts

Need a business solution?

Kickoff-Meeting vor Ort – mindestens eine Woche vor Beginn des Data Science-Projekts

Ihre NLP-Karriere wartet!

Generative KI

Große Daten

KI im Finanzwesen

Transform Unstructured Data into Actionable Insights