Aufbau eines Data-Science-Teams

· Thomas Wood
Aufbau eines Data-Science-Teams

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Data Science in einer Organisation beginnt mit drei separaten Unterteams: dem Data Science-Team, dem Data Engineering-Team und dem Data Operations-Team.

Wenn Sie ein kleines bis mittleres Unternehmen haben, das seit einigen Jahren erfolgreich ist, sich aber noch nicht in die Welt der Datenwissenschaft gewagt hat, fragen Sie sich möglicherweise, wie Sie in Ihrem Unternehmen eine Datenwissenschaftsinitiative starten können.

Zunächst können Sie einige Ergebnisse erzielen, indem Sie externe Berater mit der Durchführung Ihrer Data-Science-Arbeit beauftragen . Irgendwann wird es jedoch notwendig, ein Data-Science-Team einzustellen.

Hier werde ich einen Überblick darüber geben, wie wir an den Aufbau eines Data-Science-Teams herangehen und worauf wir bei Data-Science-Teams achten, wenn wir technische Due-Diligence -Untersuchungen für KI-Unternehmen durchführen.

Nicht ein, sondern drei Teams?

One possible organisational chart, showing the data science team, data engineering team and data operations team reporting to a C-level executive who works closely with the CTO but reports directly to the CEO. This kind of arrangement puts the data scientists in the driving seat in projects involving other departments.

Ein mögliches Organigramm, das das Data-Science-Team, das Data-Engineering-Team und das Data-Operations-Team zeigt, die einem C-Level-Manager unterstellt sind, der eng mit dem CTO zusammenarbeitet, aber direkt an den CEO berichtet. Durch diese Art der Vereinbarung übernehmen die Datenwissenschaftler die treibende Kraft bei Projekten, an denen andere Abteilungen beteiligt sind.

Jesse Anderson, ein Data-Science- Berater und führender Experte auf diesem Gebiet , empfiehlt in seinem Buch „Data Teams“ [1] , dass Sie drei separate Teams einstellen: das Data-Science-Team, das Data-Engineering-Team und das Operations-Team.

Das Data-Science-Team würde aus Personen mit akademischem Profil und fundierten Kenntnissen über Algorithmen für maschinelles Lernen bestehen.

Das Data-Engineering-Team erstellt Datenpipelines und befasst sich mit Skalenproblemen.

Schließlich ist das Betriebsteam dafür verantwortlich, dass die Infrastruktur reibungslos funktioniert.

Die erste Einstellung

Anderson empfiehlt, zunächst einen Dateningenieur und nicht einen Datenwissenschaftler einzustellen. Ein Dateningenieur wird besser in der Lage sein, eine Infrastruktur für datenwissenschaftliche Arbeiten aufzubauen als ein reiner Datenwissenschaftler. Er hält es für einen Fehler, zuerst Datenwissenschaftler einzustellen, da diese oft einen akademischen Hintergrund haben und wenig Verständnis für gute Programmier- und Ingenieurspraxis haben.

Der Dateningenieur sollte Erfahrung im Software-Engineering haben, sich für Datenwissenschaft interessieren und insbesondere in der Lage sein, mit Skalenproblemen, Datenbanken und Data Warehousing umzugehen, sowie über Kenntnisse in guter Programmierpraxis verfügen.

Unternehmen, die zuerst einen Datenwissenschaftler einstellen, haben am Ende oft sehr frustrierte Datenwissenschaftler, die kaum Zugang zu den Daten oder der Infrastruktur haben, die sie benötigen, und die am Ende nach sechs Monaten kündigen.

Die zweite Einstellung

Sobald der Dateningenieur lange genug dabei ist, um mit der Einrichtung der Umgebung für datenwissenschaftliche Arbeiten zu beginnen, ist es an der Zeit, den ersten Datenwissenschaftler einzustellen. Der Datenwissenschaftler sollte über ausgezeichnete mathematische Fähigkeiten verfügen. Viele Organisationen, die ich gesehen habe, berücksichtigen nur Doktoranden oder zumindest Absolventen von Oxbridge und Ivy League – ich denke, das geht zu weit. Da es Data Science als Studiengang noch nicht sehr lange gibt, müssen Sie wahrscheinlich Absolventen in MINT-Bereichen wie Physik und Chemie in Betracht ziehen.

Fast Data Science - London

Need a business solution?

NLP , ML und Data Science Leader seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Ihr Datenwissenschaftler entwirft und trainiert Modelle für maschinelles Lernen , erstellt statistische Modelle und erledigt alles, was mit erweiterten Analysen zu tun hat.

Operationen

Da Ihr Datenwissenschaftler brauchbare Modelle erstellt, die in die Produktion gehen können, müssen Sie auch jemanden einstellen, der die Kontrolle über den Betrieb übernimmt – den täglichen Betrieb der Modelle, die Qualitätskontrolle , die Sicherstellung, dass die Server betriebsbereit sind, den Lastausgleich usw.

Erweiterung des Data-Science-Teams

Mit der Zeit können Sie die drei Datenteams rekrutieren und erweitern. Es gibt eine Reihe möglicher Berichtsstrukturen, aus denen Sie wählen können. Meiner Erfahrung nach ist es jedoch am besten, sicherzustellen, dass das Data-Science-Team Zugriff auf eine ausreichend hochrangige Person in der Organisation hat, die bei Bedarf die Dinge in die Tat umsetzen kann. Aus diesem Grund ist es oft eine gute Idee, direkt an den CTO, CEO oder einen Chief Data Officer zu berichten.

Häufige Fallstricke beim Aufbau eines Data-Science-Teams

Zusätzlich zu den hervorragenden Empfehlungen von Jesse Anderson möchte ich einige der Probleme mitteilen, die ich persönlich beobachtet habe, als Organisationen versuchten, Data-Science-Initiativen zu starten.

Kein hochrangiger Befürworter des Data-Science-Teams

Die Data-Science-Projekte müssen oft Zeit und Ressourcen von anderen Abteilungen leihen. Beispielsweise muss ein Projekt, das sich auf die Optimierung von Lieferungen in einem Einzelhandelsunternehmen konzentriert, in erheblichem Maße mit der Logistikabteilung interagieren. Wenn das Data-Science-Team in der Hierarchie der Organisation weit unten steht, gibt es in der Logistikabteilung keinen Befürworter des Projekts und die Data-Science-Mitarbeiter werden Schwierigkeiten haben, von dieser Abteilung Zeit oder Engagement zu bekommen.

Konkurrierende Data-Science-Teams

Manchmal verfügt ein Unternehmen aufgrund früherer Akquisitionen oder anderer Faktoren über mehrere Data-Science-Teams, die an denselben Problemen arbeiten, möglicherweise an verschiedenen physischen Standorten. Vielleicht arbeitete jemand in der Marketingabteilung an einem maschinellen Lernprojekt, bevor die unternehmensweite Data Science-Abteilung gegründet wurde. Dies kann zu einem Machtkampf führen, da Manager in verschiedenen Teilen des Unternehmens darum konkurrieren, Anerkennung für schicke Data-Science-Projekte zu erhalten.

Datenwissenschaft in Managementpraktiken für die Softwareentwicklung integrieren

Manager mit langjähriger Erfahrung in der Verantwortung von Softwareentwicklern können dazu neigen, Data Science als eine Erweiterung von Softwareentwicklungsprojekten zu betrachten, was bedeutet, dass sie den Datenwissenschaftlern strenge Fristen auferlegen müssen, um bestimmte Ergebnisse oder, noch schlimmer, KPIs zu liefern (Sie erhalten einen Bonus). am Ende des Monats, wenn Ihr Modell eine Genauigkeit von 98 % erreicht).

In der Softwareentwicklung ist es möglich, ein Projekt in eine Reihe unabhängiger Aufgaben aufzuteilen. Ein PhD-Forschungsprojekt hingegen besteht aus einer Reihe von Experimenten. Ein datenwissenschaftliches Projekt liegt irgendwo dazwischen. Es wird viel experimentiert, aber das Endergebnis ist im Idealfall eine fertige Software.

Da Data Science so experimentell ist, lässt sich oft nicht von vornherein sagen, ob ein Projekt überhaupt realisierbar ist. Ein Manager muss für diese Fluidität offen sein, sonst wird er sehr frustriert sein, ein Team von Datenwissenschaftlern zu leiten, und die Datenwissenschaftler werden sich wiederum missverstanden fühlen und wahrscheinlich das Unternehmen verlassen.

Ich habe einen weiteren Blogbeitrag geschrieben, in dem ich meine Gedanken und Ideen zum Data-Science- Projektmanagement detailliert darlege und den Sie hier lesen können.

Unzureichende Zustimmung der Stakeholder

Manchmal befürwortet der CTO des Unternehmens die Data-Science-Initiative, andere Führungskräfte sind jedoch möglicherweise skeptisch. Wenn das Data-Science-Team als Baby eines bestimmten Managers wahrgenommen wird, sind andere Manager möglicherweise desinteressiert oder lehnen das Projekt sogar ab. Es könnte sogar sein, dass Mitarbeiter und Manager in einem Teil des Unternehmens ihre Arbeitsplätze durch die Data-Science-Projekte gefährdet sehen.

Datenwissenschaftsteam isoliert von Geschäftsentscheidungen

In einigen Unternehmen kann es sein, dass das Data-Science-Team nur wenig Kommunikation oder Einblick in Geschäftsprozesse oder -entscheidungen hat. Wenn das Data-Science-Team beispielsweise an einem Projekt mit der Marketingabteilung arbeitet, hat das Data-Science-Team am Ende keine direkte Kommunikationsverbindung zu den Marketingfachleuten und ist nicht in der Lage, die Geschäftsanforderungen des Projekts zu verstehen. Dies ist eine der Hauptursachen für das Scheitern von Data-Science-Projekten .

Das Data-Science-Team verfügt über unzureichende Geschäftskenntnisse oder es sind keine Geschäftsexperten verfügbar

In Branchen wie dem Gesundheitswesen und der Pharmaindustrie können die Geschäftsprobleme selbst hochtechnischer Natur sein. In manchen Fällen ist die bloße Kennzeichnung von Schulungsdaten nahezu unmöglich, da dies nur von medizinischem Fachpersonal durchgeführt werden kann und das erforderliche Personal ansonsten im Unternehmen beschäftigt ist. Die Data-Science-Manager sollten sich dieser Probleme bewusst sein und über ausreichend Einflussmöglichkeiten verfügen, um sicherzustellen, dass die Data-Science-Mitarbeiter Zugang zu den Personen haben, die für die Fertigstellung des Projekts erforderlich sind.

Abschluss

Da Data Science noch so neu ist, gibt es kein etabliertes Muster für den Teamaufbau. In einem kleinen bis mittleren Unternehmen könnten Sie jedoch Schlimmeres tun, als der Empfehlung von Jesse Anderson zu folgen und die Data-Science-Aufgaben in drei Teams aufzuteilen: Data Scientists, Data Engineers und Operations Engineers. Die erste Person, die Sie einstellen sollten, sollte nicht aus der Wissenschaft und Mathematik kommen, sondern idealerweise können Sie mit einem Dateningenieur beginnen, der Erfahrung in der Softwareentwicklung, Data Warehousing und Datenbanken hat. Diese Person hilft Ihnen dabei, den Grundstein für eine robuste Data-Science-Architektur und ein robustes Team mit minimalen technischen Schulden zu legen.

Verweise

  1. Jesse Anderson, Data Teams, Apress (2020). (Jesse Anderson is also well-known for re-creating the works of Shakespeare using virtual monkeys.)

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us