Automatisiertes ML: Das Ende des Datenwissenschaftlers?

· Thomas Wood
Automatisiertes ML: Das Ende des Datenwissenschaftlers?

Erweitern Sie Ihr Team mit NLP-Spezialisten

Entfesseln Sie das Potenzial Ihrer NLP-Projekte mit dem richtigen Talent. Veröffentlichen Sie Ihre Stelle bei uns und ziehen Sie Kandidaten an, die genauso leidenschaftlich über natürliche Sprachverarbeitung sind.

NLP-Experten einstellen

Was ist automatisiertes ML?

Automatisiertes maschinelles Lernen ist eine Software, die es theoretisch jedem ermöglicht, Modelle für maschinelles Lernen zu entwerfen, zu trainieren und in Produktionsumgebungen einzusetzen, ohne Code schreiben zu müssen. Dabei handelt es sich oft um eine Drag-and-Drop-Erfahrung, die PowerPoint ähnelt.

Möglicherweise haben Sie in letzter Zeit viel über automatisiertes maschinelles Lernen gehört. Beispiele hierfür sind unter anderem Azure ML Studio von Microsoft, Cloud AutoML von Google und AWS AutoPilot von Amazon.

A screenshot of Azure ML Studio's automated ML [environment](/ai-ethics/reduce-carbon-footprint-machine-learning/) being used to build a text classifier.

Ein Screenshot der automatisierten ML-Umgebung von Azure ML Studio, die zum Erstellen eines Textklassifizierers verwendet wird.

Am 7. April brachte Forbes sogar die Schlagzeile „AutoML 2.0: Ist der Datenwissenschaftler überflüssig?“ (Ihr Fazit: Nein, ist er nicht.)

Laut der Marketingliteratur der Unternehmen, die automatisiertes ML verkaufen, besteht tatsächlich keine Notwendigkeit mehr, Datenwissenschaftler einzustellen. Automatisiertes ML wird die Datenwissenschaft demokratisieren und es Laien ermöglichen, ihre eigenen Modelle zu erstellen.

Meine Erfahrung mit automatisiertem ML

Ich habe jedoch einige dieser Tools ausprobiert und festgestellt, dass sie zwar äußerst nützlich sind, aber bei weitem nicht einmal die Hälfte meiner Arbeit automatisieren.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP , ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Was ist der Haken?

Wenn Sie sich beispielsweise die Beispiele in den Tutorials dieser Plattformen ansehen, werden Sie feststellen, dass Sie fast immer eine schöne, übersichtliche Tabelle mit der Bankhistorie Ihrer Kunden benötigen, mit einer letzten Spalte mit Nullen oder Einsen, die angibt, ob ihnen ein Kredit gewährt wurde.

Eine Tabelle mit Daten, die in Azure ML importiert werden

Das Erstellen von Modellen ist ein kleiner Teil der Arbeit eines Datenwissenschaftlers

Im wirklichen Leben hätte die Organisation, die das Modell erstellt, keine schöne Tabelle mit sauberen Daten wie diese herumliegen. Die Bank- oder Kaufhistorie einer Person ist über viele Zeilen verschiedener Tabellen in verschiedenen Systemen verteilt. Sie müssten mehrere Iterationen durchlaufen, um die verschiedenen Datenquellen zu finden und sie in das Format zu bringen, das die automatisierten ML-Tools erwarten. Sie würden viel Zeit damit verbringen, Manager in entfernten Abteilungen des Unternehmens zu nerven, damit sie Ihnen Zugriff auf Daten gewähren. Es ist dieses Sammeln und Bereinigen von Daten (sowie das Nerven), das oft 90 % der Arbeit eines Datenwissenschaftlers ausmacht.

Wenn Sie sich außerdem in die Tutorials dieser Pakete vertiefen, werden Sie feststellen, dass die automatisierten ML-Tools Ihnen nur eine äußerst begrenzte Anzahl von Dingen über die Drag-and-Drop-Oberfläche ermöglichen. Sobald Sie die Anfängerbeispiele hinter sich lassen, müssen Sie mit dem Programmieren in Python beginnen, um die automatisierten ML-Bibliotheken verwenden zu können. Ich denke, das wäre immer unvermeidlich: Niemand behauptet ernsthaft, dass die Softwareentwicklung durch eine Drag-and-Drop-Oberfläche ersetzt wird. Warum also führen wir diese Diskussion über Data Science ?

Auto ML kann auch für erfahrene Datenwissenschaftler nützlich sein

Allerdings gibt es einige Dinge, für die ich automatisiertes ML als äußerst nützlich empfand. Nachdem wir den oben beschriebenen Schritt der Datenvorbereitung abgeschlossen haben, müssen wir oft eine sorgfältige Suche in vielen verschiedenen ML -Algorithmen ( Random Forest , Gradient Boosted Tree, Neural Networks usw.) mit allen möglichen Konfigurationen durchführen. Mit einem der automatisierten ML-Pakete können Sie in Python programmieren und einfach ein automatisiertes ML-Modell trainieren. Im Hintergrund führt die Software dann jeden Algorithmus in ihrer Toolbox aus und wählt den mit der besten Leistung aus.

Ich habe Azure ML für meine letzten paar Projekte (Vorhersagemodelle im Gesundheitswesen ) verwendet und festgestellt, dass es in Bezug auf die Genauigkeit die Basismodelle, die ich in Scikit-learn erstellt habe, übertraf und auch schneller zu verwenden war, weil ich nur wenige Zeilen Code schreiben musste.

Zusammenfassend denke ich, dass automatisiertes maschinelles Lernen Datenwissenschaftlern zu mehr Produktivität verhilft und ein weiteres nützliches Werkzeug im Repertoire eines Datenwissenschaftlers darstellt. Darüber hinaus bietet es ein gewisses Maß an Demokratisierung, da es Nicht-Datenwissenschaftlern erstmals ermöglicht, Datenwissenschaft kennenzulernen und daran teilzunehmen. Aber noch wird niemandes Arbeit automatisiert sein.

Verweise

Ryohei Fujimaki, AutoML 2.0: Ist der Datenwissenschaftler überflüssig?, Forbes (2020)

Ihre NLP-Karriere wartet!

Bereit für den nächsten Schritt in Ihrer NLP-Reise? Vernetzen Sie sich mit Top-Arbeitgebern, die Talente in der natürlichen Sprachverarbeitung suchen. Entdecken Sie Ihren Traumjob!

Finden Sie Ihren Traumjob

Generative KI
Generative ki

Generative KI

Generative KI Einführung Generative KI , ein Teilbereich der KI, verändert Branchen grundlegend und gestaltet die Zukunft. Durch die Nutzung fortschrittlicher Algorithmen kann generative KI Inhalte, Designs und Lösungen erstellen, die zuvor undenkbar waren.

Große Daten
Große daten

Große Daten

Große Daten Das Aufkommen von Big Data hat ganze Branchen revolutioniert und traditionelle Geschäftsmodelle und Entscheidungsprozesse verändert. In dieser umfassenden Untersuchung gehen wir der Frage nach, was Big Data ist, welche erheblichen Auswirkungen es auf die Geschäftsstrategie hat und wie Unternehmen riesige Datenmengen nutzen können, um Innovationen voranzutreiben und sich einen Wettbewerbsvorteil zu verschaffen.

KI im Finanzwesen
Ki im finanzwesen

KI im Finanzwesen

KI im Finanzwesen Die Integration künstlicher Intelligenz (KI) in den Finanzsektor hat die Arbeitsweise von Institutionen revolutioniert, von der Automatisierung von Abläufen bis hin zur Verbesserung der Kundenbindung und des Risikomanagements.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us