Die wichtigsten Phasen eines Data-Science-Projekts

Was sind die wichtigsten Phasen eines Data-Science-Projekts? Ein Rezept für einen erfolgreichen Data-Science-Projektablauf.

Die naive Sicht auf die Phasen eines Data-Science-Projekts

Bei der Planung eines Data Science-Projekts ist es leicht, sich das Ganze als eine einfache Übung vorzustellen, bei der ein wenig Datenbereinigung, einige Data Science-Arbeiten und eine Bereitstellungsphase am Ende des Projekts durchgeführt werden. Tatsächlich erwarten viele Data Scientists und Nicht-Data Scientists diese Art von idealisiertem Data Science-Projektablauf.

Ein fiktiver idealisierter Data Science-Projektablauf

Leider ist die Realität selten so einfach.

Verzögerungen durch Datenbereinigung

Wenn ein Kunde Daten bereitstellt, sind diese wahrscheinlich chaotisch, enthalten Inkonsistenzen und erfordern viel Arbeit, um sie zu verstehen und nutzbar zu machen. Diese Arbeit wird oft als „Datenbereinigung“ bezeichnet. Dies bedeutet, dass die Phase der Datenbereinigung wahrscheinlich länger dauert als erwartet und sich normalerweise mit der Phase der Datenwissenschaft überschneidet.

Aus diesem Grund habe ich viele Beiträge von Datenwissenschaftlern gesehen, in denen suggeriert wird, dass der Job zu 50 % aus Datenbereinigung und nur zu 25 % aus Datenwissenschaft besteht.

Ein etwas realistischerer Data-Science-Projektablauf.

Ich denke jedoch, dass das obige Modell die Komplexität der Bereitstellung nicht berücksichtigt.

Unerwartete Verzögerungen bei der Bereitstellung

Sobald die Arbeit am maschinellen Lernen abgeschlossen ist, muss das Data-Science-Modell bereitgestellt werden.

Dies erfordert einen Dialog mit dem technischen und geschäftlichen Team des Kunden sowie erhebliche Programmierarbeit, die in den Rückstand des technischen Teams einfließen muss. Diese Phase unterliegt auch politischen Entscheidungen innerhalb der Kundenorganisation. Beispielsweise möchten manche Personen das Modell möglicherweise nicht bereitstellen, weil es ihre Abteilung in einem schlechten Licht dastehen lässt, oder sie möchten es möglicherweise innerhalb ihrer Abteilung bereitstellen, um sich die Anerkennung zu sichern. Aufgrund all dieser Faktoren wird die Bereitstellungsphase wahrscheinlich auch viel länger dauern als erwartet.

Das fehlende Bindeglied: Zugriff auf die Daten

Darüber hinaus gibt es meiner Meinung nach eine große Quelle von Verzögerungen, die oft völlig übersehen wird. Bevor das Data-Science-Projekt beginnen kann, müssen wir einige Schritte befolgen:

das Vertrauen des Kunden gewinnen
eine Geheimhaltungsvereinbarung unterzeichnen
Zugriff auf die Daten erhalten
Erhalten Sie Zugriff auf die Systeme des Kunden
verstehen, wer die wichtigsten Beteiligten am Projekt sind, wer es beschleunigen und wer es behindern kann.
Während Sie auf die Daten warten, prüfen Sie wiederholt, ob es Blockierer gibt, und bleiben Sie mit den Beteiligten in Kontakt.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Ich denke, es ist fair, einen Monat einzuplanen, um an die Daten zu kommen. Ich habe manchmal Wartezeiten von 6 Monaten oder mehr erlebt, und ich habe auch Projekte scheitern sehen, weil die Daten nicht beschafft werden konnten.

Daher würde ich die Phasen des Data-Science-Projekts wie folgt unterteilen:

Eine realistischere Darstellung des Data-Science-Projektablaufs für ein externes Data-Science-Beratungsunternehmen unter Berücksichtigung der Schwierigkeit der Datenbeschaffung und der entsprechenden Wartezeit.

Warum ist es so schwierig, an die Daten für ein Data-Science-Projekt zu kommen?

Es gibt eine Reihe von Gründen, warum es schwierig sein kann, Daten für ein Projekt zu beschaffen. Einige davon gelten unabhängig davon, ob Sie Mitarbeiter oder externer Berater sind, aber die Probleme sind für externe Data Science-Berater tendenziell akuter als für interne Data Scientists.

Wir können Daten in zwei Kategorien unterteilen:

Offene oder öffentliche Daten – das sind Daten, die jeder im Internet kostenlos herunterladen kann. Denken Sie an Regierungsstatistiken, Coronavirus-Statistiken, historische Datensätze, Kaggle-Wettbewerbe.
private/interne Daten. Dies sind Daten, die ein Unternehmen über seine Kunden besitzt, oder andere kommerziell oder rechtlich sensible Daten. Sie sind oft durch Gesetze wie die DSGVO oder HIPAA geschützt.

Data Science-Projekte mit einem zahlenden Kunden erfordern normalerweise private Daten. Die internen Daten eines Unternehmens können sein wertvollstes Kapital sein. Dies ist nicht nur bei Technologieunternehmen der Fall, sondern zunehmend auch bei einigen stationären Unternehmen.

Damit ein Unternehmen seine Daten weitergeben kann, muss jeder in der Hierarchie mit im Boot sein und bereit sein, der Data Science-Beratung zu vertrauen. Kunde und Beratung müssen sich auf Bedingungen einigen und eine Geheimhaltungsvereinbarung unterzeichnen. Wenn das Kundenunternehmen zum ersten Mal Data Science betreibt, ist es möglicherweise mit diesem Prozess nicht vertraut und die Ausarbeitung der Geheimhaltungsvereinbarung kann einige Zeit in Anspruch nehmen. Unternehmen geben Daten nicht gerne an Außenstehende weiter, wenn es nicht unbedingt notwendig ist.

Aus diesem Grund gibt es viele Unternehmen in traditionellen Branchen wie der Versicherungs- und Rechtsbranche, die über Goldgruben an Daten, insbesondere Textdaten, verfügen, denen jedoch das interne Fachwissen fehlt, um daraus einen Nutzen zu ziehen.

So mildern Sie das Problem der Datenbeschaffung

Da es sowohl für den Kunden als auch für den Berater schwerwiegende Folgen hat, wenn zu Projektbeginn Daten nicht verfügbar sind, empfehle ich, so viele Schritte wie möglich zu unternehmen, um dies zu vermeiden.

Einen Monat vor Projektbeginn würde ich zunächst folgende Schritte unternehmen:

Senden Sie dem Kunden eine Liste mit Anforderungen und fordern Sie Folgendes an:

- NDA

- Access to the data

- Access to cloud computing account, source control accounts, any internal document repositories – if applicable

- Identification of all key stakeholders, who to report to, any other concerned individuals in the organisation

- specify an individual to contact in case of project blockers

Vereinbaren Sie eine Woche nach dieser E-Mail und einen Monat vor dem Projektstart ein Kickoff-Meeting . Im Idealfall sollten dabei einige der oben genannten Punkte besprochen werden.
Besprechen Sie beim Kick-off-Meeting alle offenen Fragen, die das Projekt blockieren könnten
Bleiben Sie nach dem Meeting mit den Beteiligten in Kontakt, um sicherzustellen, dass alles für den Projektstart bereit ist.

Durch diese Maßnahmen stellen wir sicher, dass alle Daten vor dem ersten abrechenbaren Tag des Projekts verfügbar sind und etwaige Blockierer frühzeitig erkannt werden können.

Lassen Sie sich nicht von Zusicherungen überzeugen

Der Kunde sagt Ihnen vielleicht, dass das Kickoff-Meeting nicht notwendig ist und dass Sie sich keine Sorgen machen müssen, weil er für Montagmorgen, wenn das Projekt beginnen soll, alles vorbereitet hat. Ich würde empfehlen, das mit Vorsicht zu genießen! Ein Hindernis, an das niemand gedacht hat, kann in letzter Minute am Montag um 9 Uhr auftauchen. Vielleicht ist jemand im technischen Support-Team im Urlaub, ein Anwalt muss die Geheimhaltungsvereinbarung mit seinem Vorgesetzten klären oder ein hochrangiger Manager im Unternehmen hat gerade von dem Projekt gehört und möchte es für seinen Chef unterstreichen, weil die jährliche Beurteilung ansteht.

Abschluss

Wichtige Schritte in einem Data-Science-Projekt : drei verschiedene Ansichten des Data-Science-Projektablaufs.

Wir übersehen oft die Hindernisse, die einem Data-Science-Projekt im Weg stehen. So wie ein Auto nicht ohne Kraftstoff fahren kann, kann ein Data-Science-Projekt nicht ohne Daten laufen. Die Beschaffung interner Daten für ein Kundenprojekt ist selten unkompliziert und kann durch eine Vielzahl interner und externer Faktoren blockiert werden. Aus diesem Grund ist die Geheimhaltungsvereinbarung eines der wichtigsten und kritischsten Elemente eines Data-Science-Projekts.

Wenn die Daten nicht rechtzeitig beschafft werden, führt dies zu unnötigen Verzögerungen im Projekt. Das Risiko lässt sich am besten durch eine sorgfältige Planung und Nachverfolgung seitens des Data Science-Beraters mindern.

Um Sie bei der Planung Ihres Data-Science-Projekts zu unterstützen, haben wir im Abschnitt „Ressourcen“ unserer Website eine Checkliste für den Start eines Data-Science-Projekts bereitgestellt, zusammen mit einem im Browser integrierten Gantt-Diagramm-Generator für NLP-Projekte , einem Data-Science-Roadmap-Planer , einer Kalkulationstabelle für die Projektkostenplanung und einem Projektrisiko-Tool .

Eine frühere Version dieses Artikels erschien ursprünglich auf freelancedatascientist.net .

Die wichtigsten Phasen eines Data-Science-Projekts

Die naive Sicht auf die Phasen eines Data-Science-Projekts

Verzögerungen durch Datenbereinigung

Unerwartete Verzögerungen bei der Bereitstellung

Das fehlende Bindeglied: Zugriff auf die Daten

Need a business solution?

Warum ist es so schwierig, an die Daten für ein Data-Science-Projekt zu kommen?

So mildern Sie das Problem der Datenbeschaffung

Lassen Sie sich nicht von Zusicherungen überzeugen

Abschluss

Entdecken Sie Ihre Zukunft in NLP!

Generative KI

Große Daten

KI im Finanzwesen

Transform Unstructured Data into Actionable Insights