Automatisiertes ML: Das Ende des Datenwissenschaftlers?

· Thomas Wood
Automatisiertes ML: Das Ende des Datenwissenschaftlers?

Finden Sie Top-NLP-Talente!

Suchen Sie Experten in Natürlicher Sprachverarbeitung? Veröffentlichen Sie Ihre Stellenangebote bei uns und finden Sie heute Ihren idealen Kandidaten!

Veröffentlichen Sie einen Job

Was ist automatisiertes ML?

Automatisiertes maschinelles Lernen ist eine Software, die es theoretisch jedem ermöglicht, Modelle für maschinelles Lernen zu entwerfen, zu trainieren und in Produktionsumgebungen bereitzustellen, ohne Code schreiben zu müssen. Es handelt sich häufig um ein Drag-and-Drop-Erlebnis ähnlich wie bei PowerPoint.

Möglicherweise haben Sie in letzter Zeit viel über automatisiertes maschinelles Lernen gehört. Beispiele hierfür sind unter anderem Microsofts Azure ML Studio, Googles Cloud AutoML und Amazons AWS AutoPilot.

A screenshot of Azure ML Studio's automated ML [environment](/reduce-carbon-footprint-machine-learning) being used to build a text classifier.

Ein Screenshot der automatisierten ML-Umgebung von Azure ML Studio, die zum Erstellen eines Textklassifikators verwendet wird.

Am 7. April brachte Forbes sogar die Schlagzeile AutoML 2.0: Ist der Datenwissenschaftler veraltet? (Ihre Schlussfolgerung: Nein, das sind sie nicht.)

Laut der Marketingliteratur der Unternehmen, die automatisiertes ML verkaufen, besteht tatsächlich keine Notwendigkeit mehr, Datenwissenschaftler einzustellen. Automatisiertes ML wird die Datenwissenschaft demokratisieren und es Nicht-Technikern ermöglichen, ihre eigenen Modelle zu erstellen.

Meine Erfahrung mit automatisiertem ML

Ich habe jedoch einige dieser Tools ausprobiert und festgestellt, dass sie zwar äußerst nützlich sind, aber keineswegs auch nur die Hälfte meiner Arbeit automatisieren.

Fast Data Science - London

Need a business solution?

NLP , ML und Data Science Leader seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Was ist der Haken?

Wenn Sie sich zum einen die Beispiele in den Tutorials einer dieser Plattformen ansehen, werden Sie feststellen, dass Sie fast immer eine schöne, übersichtliche Tabelle der Bankhistorien Ihrer Kunden benötigen, mit einer letzten Spalte mit Nullen oder Einsen, die angibt, ob ihnen eine gewährt wurde Darlehen.

Eine Tabelle mit Daten, die in Azure ML importiert werden

Das Erstellen von Modellen ist ein kleiner Teil der Arbeit eines Datenwissenschaftlers

Im wirklichen Leben hätte die Organisation, die das Modell erstellt, keine schöne Tabelle mit sauberen Daten wie diese herumliegen. Die Bank- oder Einkaufshistorie einer Person wird über viele Zeilen verschiedener Tabellen in verschiedenen Systemen verteilt. Sie müssten mehrere Iterationen durchlaufen, um die verschiedenen Datenquellen zu finden und sie in dem Format zusammenzuführen, das die automatisierten ML-Tools erwarten. Sie werden viel Zeit damit verbringen, Manager in entfernten Abteilungen des Unternehmens zu belästigen, um Ihnen Zugriff auf Daten zu verschaffen. Es ist das Sammeln und Bereinigen (und Belästigen) von Daten, das oft 90 % der Arbeit eines Datenwissenschaftlers ausmacht.

Wenn Sie sich außerdem in die Tutorials dieser Pakete vertiefen, können Sie mit den automatisierten ML-Tools nur eine äußerst begrenzte Anzahl von Dingen über die Drag-and-Drop-Schnittstelle erledigen, und sobald Sie sich von den Anfängerbeispielen gelöst haben, müssen Sie anfangen Programmierung in Python zur Nutzung der automatisierten ML-Bibliotheken. Ich denke, das wäre immer unvermeidlich: Niemand schlägt ernsthaft vor, dass die Softwareentwicklung durch eine Drag-and-Drop-Schnittstelle ersetzt wird. Warum führen wir also dieses Gespräch über Datenwissenschaft ?

Auto ML kann selbst für erfahrene Datenwissenschaftler nützlich sein

Dennoch gibt es einige Dinge, für die ich automatisiertes ML als äußerst nützlich empfand. Sobald wir den oben definierten Datenvorbereitungsschritt durchgeführt haben, führen wir oft eine sorgfältige Suche durch viele verschiedene ML- Algorithmen ( Random Forest , Gradient Boosted Tree, Neural Networks usw.) mit allen unterschiedlichen Konfigurationen durch. Mit einem der automatisierten ML-Pakete können Sie in Python programmieren und einfach ein automatisiertes ML-Modell trainieren, und unter der Haube führt die Software jeden Algorithmus in ihrer Toolbox aus und wählt den leistungsstärksten aus.

Ich habe Azure ML für meine letzten Projekte (Vorhersagemodelle im Gesundheitswesen ) verwendet und festgestellt, dass es in Bezug auf die Genauigkeit die Basismodelle, die ich in Scikit-learn erstellt habe, übertrifft und außerdem schneller zu verwenden ist, da ich nur dies getan habe um ein paar Zeilen Code zu schreiben.

Zusammenfassend denke ich, dass automatisiertes ML es Datenwissenschaftlern ermöglicht, produktiver zu arbeiten, und ein weiteres nützliches Werkzeug im Repertoire eines Datenwissenschaftlers ist. Darüber hinaus sorgt es für ein gewisses Maß an Demokratisierung, indem es Nicht-Datenwissenschaftlern zum ersten Mal ermöglicht, Datenwissenschaft kennenzulernen und sich daran zu beteiligen. Aber noch wird die Arbeit von niemandem automatisiert.

Verweise

Ryohei Fujimaki, AutoML 2.0: Is The Data Scientist Obsolete?, Forbes (2020)

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us