Interview – Wie der Einstieg in Data Science gelingt
Alexander Beck ist promovierter Ökonom und Physiker und hat in seiner Karriere sowohl selbst als Quant wie auch als Consultant im Data Science Bereich gearbeitet. Heute leitet er ein Data Science Team beim Bezahldienstleister PAYMILL in München, einer der führenden Payment Service Provider in Europa. Die E-Payment Lösung von PAYMILL erlaubt sichere und einfache Online Zahlungen.
Data Science Blog: Herr Dr. Beck, wie waren Ihre ersten 100 Tage in der Arbeitswelt von Paymill?
Spannend. Obwohl Paymill mit sehr fähigen Entwicklern arbeitet, war die erste Zeit davon geprägt, die richtigen Grundsteine für skalierbare und hochautomatisierte Daten-Analytik zu legen. Hierbei haben wir bewusst auf Open Source Technologien gesetzt, so zum Beispiel das Datenanalyse-Framework Python Pandas. Zudem setzen wir zur automatisierten Workflow-Steuerung die Software Airflow ein, die von AirBnB als Open Source Projekt entwickelt wird. Damit haben wir ein System geschaffen, mit dem wir sehr schlank, flexibel und nutzenorientiert arbeiten können und uns nicht mit Lizenzen und ähnlichen Dingen herumschlagen müssen.
Data Science Blog: Wie nutzt Paymill Data Science und was lässt sich damit erreichen?
Die Bandbreite hier ist wirklich groß und reicht von vollautomatisiertem Reporting bis hin zum Einsatz von Natural Language Processing und Predictive Analytics. Dabei gehen wir immer vom Nutzen des End-Anwenders aus und versuchen, unsere Lösungen für den Anwender so einfach und treffend wir möglich zu gestalten – meistens ist das Endprodukt eine schlanke Website, die alle relevanten Informationen enthält und die natürlich regelmäßig aktualisiert wird. Hierbei setzen wir auf 100% automatisierbare Konzepte. Datenanalyse soll dem Unternehmen dabei helfen, proaktiv und informiert statt reaktiv und uninformiert zu sein, das gelingt uns an vielen Stellen schon recht gut.
Data Science Blog: Viele Entscheider beklagen, dass Big Data nur den Konzernen nutzt, während der deutsche Mittelstand eher außen vor bleibe. Welche Hürden haben Mittelständler hier zu überwinden?
Viele Mittelständler verfügen heute nicht über die Datengrundlage, die nötig wäre, von diesem Trend zu profitieren. Hier sollte der Mittelstand beherzt handeln und lieber einen Euro zu viel als zu wenig an den entscheidenden Stellen investieren. Fairerweise muss man wohl sagen, dass nicht jedes Geschäftsmodell für den Einsatz von Data Science geeignet ist bzw. davon profitieren wird. Hier lohnt sich in den meisten Fällen eine Analyse der drei vielversprechendsten Anwendungsfälle aus Sicht der Unternehmensführung. Dann sollte neben einer Investitionsrechnung auch eine Analyse der Datenlage und Schritte zur Verbesserung dieser vorgenommen werden. Hierfür habe ich beispielsweise das DIFA Framework entwickelt.
Data Science Blog: An welchen Stellen eines Unternehmens können am schnellsten Mehrwerte gewonnen werden?
Das hängt natürlich sehr vom Geschäftsmodell ab. Im eCommerce beispielsweise ist die Sicherung der Kundenbeziehung durch zielgerichtete und effektive Maßnahmen sicherlich einer der stärksten Hebel. Zudem ist dies ein Anwendungsfall, wo im Unternehmen auch ausreichend Daten vorliegen um mit Analytics echte Mehrwerte zu schaffen. Fraud ist ein weiteres Anwendungsgebiet das nebenbei auch sehr zukunftsfähig ist, schaut man sich die aktuellen Fraud-Zahlen beispielsweise beim Kreditkarten Betrug an. Hier hilft man übrigens gleich doppelt: Man schützt Kunden davor, Opfer von Betrug zu werden und erleichtert der hausinternen Abteilung die Arbeit im Umgang mit Fraud-Fällen.
Data Science Blog: Wie sollte ein mittelständisches Unternehmen in Big Data und Data Science einsteigen?
Ein mittelständisches Unternehmen sollte sich von einem unabhängigen Experten beraten lassen. Dieser sollte neben der Data Science Kompetenz auch Branchen- und Prozesskenntnisse besitzen. Es ist übrigens auch nicht per se für jedes Unternehmen gesetzt, dass es mit Big Data und Data Science Mehrwerte für sich generieren kann. Überall dort wo ein Prozess in hoher Frequenz abläuft, die äußeren Parameter eine gewisse Varianz vorgeben und eine monetäre Verknüpfung existiert, macht Datenanalyse aber vermutlich Sinn. Ein ganz klassisches Beispiel hierfür ist die Kreditvergabe.
Data Science Blog: Lässt sich Data Science auch outsourcen? Wenn ja, was spräche dafür oder dagegen?
Was dafür spricht: Das Skillset des Data Scientist ist schon ein Besonderes und der Markt an guten Data Scientists ist knapp. Zudem ist der Aufbau von Technologie natürlich auch immer mit Kosten für Installation und Wartung verbunden, die teilweise nicht unerheblich sind. Gegen Outsourcing sprechen aus meiner Sicht aber weit gewichtigere Gründe. Um echte Mehrwerte zu schaffen, muss ein Data Scientist einen barriereferien Zugang zu den Mitarbeitern und den Daten des Unternehmens haben. Nur so lassen sich meines Erachtens Prozesse, Daten und alle Besonderheiten im Detail verstehen und nachvollziehen. Der häufig zitierte 80/20 Berater-Ansatz funktioniert im Data Science Umfeld meistens nicht. Sie müssen sich also auf eine ganz andere Art und Weise in einem Unternehmen auskennen, als dies einem Außenstehenden in einem vernünftigen Kostenrahmen gelingen wird. Aus meiner eigenen Erfahrung kann ich sagen, dass wir bei Paymill auf unsere erfolgreichsten Anwendungsfälle durch Gespräche in der Kaffee-Ecke gestoßen sind, hierfür müssen Sie Teil des Teams sein.
Data Science Blog: Sie haben bereits viele Analytics-Projekte betreut. Wie hoch ist die Quote an erfolgreichen Projekten gegenüber den nicht erfolgreichen? Konnten Sie Gründe für das Scheitern von solchen Projekten identifizieren?
Wenn Sie Erfolg damit assoziieren, wie hoch die Quote ist, wo wir dem Kunden weiterhelfen konnten, dann sage ich: sehr hoch. Allerdings sind hier auch Fälle dabei, wo wir einem Kunden sagen konnten, wo noch Hausaufgaben beispielsweise in der Datenhaltung zu erledigen sind. So gab es einmal einen Fall, wo eine Vertriebsmannschaft mit Prognosen unterstützt werden sollte. Die Datenbasis bestand allerdings nur aus erfolgreichen Abschlüssen, die nicht-erfolgreichen Vertriebsaktivitäten waren nicht aufgezeichnet worden. Hier müssen also erst einmal Daten vervollständigt werden, bevor über Predictive Analytics gesprochen wird. Trotzdem haben wir dem Unternehmen mit dieser Erkenntnis und einer Anleitung für nächste Schritte weitergeholfen.
Data Science Blog: Sollten Data Scientists in den jeweiligen Fachbereichen oder in der IT angesiedelt sein oder sogar eine eigene Stabstelle darstellen?
Ich habe gute Erfahrungen damit gemacht, wenn Data Science als eigenständige Einheit funktioniert. So lassen sich Anwendungsfälle, die über einzelne Departments hinausgehen, besser umsetzen. Zudem ist es auch einfach abwechslungsreicher für die Data Scientists.
Data Science Blog: Wann ist mit einem Break-Even-Point zu rechnen, wenn ein Unternehmen die Investition plant, eine Data Science Abteilung aufzubauen? Sie sollten vor der Gründung einer Data Science Abteilung eine realistische Machbarkeitsstudie durchführen. Nicht jedes Unternehmen und Geschäftsmodell wird in gleichem Maße von einer Data Science Abteilung profitieren. Ich würde aber sagen, dass man schon mit 10 bis 12 Monaten rechnen muss. Diese Zahl hängt aber sehr stark davon ab, wie viel Aufbau- und Aufräumarbeit bei der Datanbasis geleistet werden muss. Schlussendlich sollten auch immer weiche Faktoren mit in die Rechnung genommen werden. Eventuell fühlen sich Kunden durch entsprechende Maßnahmen besser angesprochen oder strategische Entscheidungen können auf einer soliden Datengrundlage getroffen werden. Das werden Sie nicht 1:1 in einer monetären Kenngröße abgebildet sehen, der positive Effekt ist aber zweifelsfrei vorhanden.
Data Science Blog: Die Methodenvielfalt scheint groß zu sein: Predictive Analytics, Distributed Data Processing, Realtime Analytics, Machine Learning. Welche Methoden bringen den größten Mehrwert?
Ich glaube das lässt sich so allgemein nicht beantworten. Sehr gute Erfahrungen haben wir mit automatisierten Warnsystemen gemacht – diese liefern einen sehr direkten und messbaren Mehrwert und sind verhältnismäßig zügig und ohne große Kosten aufgebaut. Auch hier kommt interessante Analytics zum Einsatz. Nehmen Sie als Beispiel einen Anbieter von Webhosting der messen möchte, ob eine Webseite Opfer einer Massenanfragen-Attacke ist. Hier müssen Sie clevere Analytics verwenden, sonst klemmen Sie im schlimmsten Fall einem Ihrer Kunden zur besten Verkaufszeit die Webseite ab.
Data Science Blog: Was macht Ihrer Meinung nach einen guten Data Scientist aus? Welche Skills sollte ein Data Scientist haben und wie können Neulinge diese erwerben?
Sie sollten ihr Handwerk grundlegend verstehen. Damit meine ich das Verarbeiten von Daten und die Anwendung von Standard Analytics Verfahren. Selbstverständlich sollten Sie sehr flüssig programmieren können, meiner Ansicht nach idealerweise in Python. Diese beiden Eigenschaften sind nicht hinreichend, aber die Basis Ihres Erfolgs. Daneben sollten Sie eine absolute Umsetzer-Mentalität und ein Bewusstsein für hohe Qualität haben. Wenn Sie dazu noch Spaß daran haben, Ihre Arbeit anderen zu erklären und eigenständig werthaltige Anwendungsszenarieren aufzuspüren, sind Sie – denke ich – sehr gut aufgestellt. Neulinge sollten sich nicht vom Hype um Data Science verrückt machen lassen, sondern sich bewusst sein, dass auch hier der erste Schritt darin besteht, ein solides Handwerk zu erlernen mit dem Sie später viel anfangen können.