Starten eines Data-Science-Projekts

· Thomas Wood
Starten eines Data-Science-Projekts

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Es ist oft recht komplex und zeitaufwändig, ein Data-Science-Projekt auf den Weg zu bringen. Deshalb teile ich einige meiner Gedanken und meine Checkliste für die Voraussetzungen, die für den Start eines Data-Science-Projekts erforderlich sind.

Ich würde den folgenden Ansatz empfehlen: eine Reihe von Anrufen zur Festlegung der Anforderungen, gefolgt von einem Kickoff-Meeting zur Datenexploration, gefolgt von ein paar Wochen, damit beide Seiten alles zusammenbringen, was sie für den Start des Projekts benötigen.

Erste Treffen und Anrufe vor Beginn eines Data-Science-Projekts

Besprechen Sie, was der Kunde erreichen möchte. Oft möchte ein Kunde definieren, welcher maschinelle Lernansatz benötigt wird, ohne zunächst einen Schritt zurückzutreten und zu fragen, ob maschinelles Lernen überhaupt notwendig ist und was er erreichen möchte.

Besorgen Sie sich nach Möglichkeit vorab eine Stichprobe der Daten zur Plausibilitätsprüfung. Ohne Einsicht in die Daten können wir nicht sagen, ob das Projekt möglich sein wird oder nicht.

Zu Beginn eines Data-Science-Projekts sollten wir dem Kunden einige wichtige Fragen stellen:

  • Was sagen wir voraus?

  • Wie wird es dem Unternehmen helfen?

  • Hat das Unternehmen dies schon einmal versucht? Was ist passiert?

  • Sagen wir eine Zeitreihe voraus? Zum Beispiel das Einkaufsvolumen pro Tag? Welche zusätzlichen Informationen haben wir in diesem Fall vom Vortag, die uns helfen könnten?

  • Wie viele Datenpunkte gibt es? Nehmen wir an, ein Unternehmen möchte etwas über seine Benutzer oder Kunden vorhersagen. Wie viele Benutzer befinden sich in der Datenbank? Ich wurde von Startups kontaktiert, die weniger als 100 Benutzer haben.

  • Wie viele Informationen haben wir über jeden Benutzer oder Kunden?

Fast Data Science - London

Need a business solution?

Seit 2016 führend in den Bereichen NLP, ML und Data Science – kontaktieren Sie uns für eine NLP-Beratungssitzung.
  • Zu welchem Zeitpunkt wollen wir die Vorhersage über den Nutzer treffen? Möchten wir beispielsweise die Einkäufe eines Benutzers in einem Monat oder in einem Jahr vorhersagen?

  • Gibt es eine bestehende Methode, eine Vorhersage zu treffen? Beispielsweise können wir das nächste Kaufvolumen eines Kunden oft einfach durch die Mittelung seiner Historie vorhersagen. Wir müssen sorgfältig darüber nachdenken, ob maschinelles Lernen diese Basis erreichen kann.

  • Wie lange sammelt die Organisation schon Daten? Wenn wir beispielsweise das Kaufverhalten über Weihnachten vorhersagen möchten, benötigen wir einen Datensatz von mindestens drei Jahren, um ein Weihnachtsfest mit dem vorherigen in Beziehung zu setzen und das folgende Weihnachtsfest auszuwerten.

  • Verfügt das Unternehmen über einen bevorzugten Cloud-Anbieter (z. B. Microsoft, Google, Amazon)? Wenn ein Unternehmen Outlook und andere Microsoft-Produkte verwendet, bevorzugt es häufig, dass wir Microsoft Azure für alle bereitgestellten Modelle für maschinelles Lernen verwenden, und sein Datenschutzbeauftragter kann Einwände dagegen erheben, dass ein externer Datenwissenschaftler Google- oder Amazon-Produkte für maschinelles Lernen verwendet. Ein guter Datenwissenschaftler sollte bereit sein, mit allen dreien zusammenzuarbeiten.

Kickoff-Meeting vor Ort – mindestens eine Woche vor Beginn des Data-Science-Projekts

A kick-off meeting is essential when starting a data science project.

Ein Kick-off-Meeting ist beim Start eines Data-Science-Projekts unerlässlich.

Nach Klärung dieser Fragen können wir (trotz Pandemien) einen Termin vor Ort vereinbaren. Im Idealfall hätten wir bereits vor dem Treffen vor Ort Zugriff auf den Großteil der Daten. Das Treffen vor Ort findet idealerweise einige Zeit vor dem geplanten Projektstart statt, da es dabei helfen kann, alles zu identifizieren, was das Projekt blockieren könnte.

  • Besprechen und vereinbaren Sie die Ziele des Projekts.

  • Identifizieren Sie die Stakeholder des Projekts und wem der Datenwissenschaftler Bericht erstatten wird. Ich habe eine Reihe von Projekten in großen Organisationen scheitern sehen, weil die Berichtskette zwischen der Datenwissenschaft und den Stakeholdern zu viele Verbindungen hatte.

  • Legen Sie die Meldehäufigkeit und die Kontaktperson im Falle von Blockaden fest.

  • Vereinbaren und unterzeichnen Sie ggf. weitere NDAs.

  • Fordern Sie physischen Zugang zum Standort und zu den Computersystemen des Kunden an.

  • Fordern Sie Zugriff auf alle internen Datenquellen, alle Datenquellen Dritter und auch alle APIs an. In den meisten Organisationen dauert es mindestens eine Woche, bis der Zugriff gewährt wird.

  • Fordern Sie Zugriff auf Versionskontrolle, Ticketsysteme und Cloud-Computing-Konten an.

  • Führen Sie mithilfe des verfügbaren Daten-Dumps eine grundlegende Datenerkundung durch. Zeichnen Sie Histogramme und Streudiagramme numerischer Werte. Finden Sie für jedes kategoriale Feld oder Zeichenfolgenfeld heraus, welcher Wert am häufigsten und welcher am seltensten vorkommt. Beobachten Sie die Daten, um zu prüfen, ob sich Werte im Laufe der Zeit ändern. Überprüfen Sie den Datensatz auf unerwartete Nullwerte, inkonsistente Datentypen und andere Probleme.

  • Versuchen Sie, ein sehr schnelles und schmutziges Modell für maschinelles Lernen zu erstellen. Dies ist eine Plausibilitätsprüfung, um sicherzustellen, dass ML bei diesem Problem wirklich etwas erreichen kann und welches Maß an Genauigkeit wir anstreben sollten.

  • Vereinbaren Sie, wann Sie sich erneut treffen, um mit dem Projekt zu beginnen.

Nach dem ersten Treffen vor Ort geben wir dem Kunden idealerweise ein paar Wochen Zeit, um Daten zu sammeln und alle Hindernisse aus dem Weg zu räumen, damit das Projekt beginnen kann.

Wir haben die oben genannten Prüfpunkte in einer praktischen Checkliste im Abschnitt „ Ressourcen“ unserer Website bereitgestellt, zusammen mit einem browserinternen Gantt-Diagrammgenerator für NLP-Projekte , einem Data-Science-Roadmap-Planer , einer Projektkostenplaner-Tabelle und einem Projektrisiko-Tool .

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us