Posts

Interview – Data Science in der FinTech-Branche

Christian Rebernik ist CTO bei Number 26 und zuständig für die technische Entwicklung dieses FinTech-Unternehmens. Er studierte Informatik und Wirtschaftsinformatik und kann auf langjährige Erfahrung als Software-Entwickler zurückgreifen. Seit etwa 2010 war er als CTO und CIO bei diversen eCommerce-christian-rebernikUnternehmen, u.a. bei Immobilien.net (heute ImmobilienScout24), PARSHIP und Zanox, tätig und gilt daher als ein etablierter IT-Manager, der seine Kenntnisse als Mentor des Axel Springer Plug and Play Accelerators weitergibt.

Data Science Blog: Herr Rebernik, wie sind Sie als CTO zum FinTech Number26 gekommen?

Ich durfte die Gründer im Accelerator 2013 als Mentor begleiten. Damals war das Produkt ausgelegt auf Teenager als Zielgruppe. 2014 änderten die Gründer Valentin und Maximilian das Produkt auf Number26, ein mobile-first Gehaltskonto mit Mastercard und der Vision das weltbeste Bankerlebnis zu bieten. Damit hatten sie aus meiner Sicht den richtigen Nerv der Zeit getroffen. Mein Erfahrung mit Banken war nicht positiv bis dato. Number26 hat aus meiner Sicht das Potential Bankwesen zu verändern.

Data Science Blog: Die FinTech-Szene möchte vieles besser machen als traditionelle Banken. Welche Rolle spielt Data Science dabei?

Beim Online-Banking etablierter Banken erhält man meistens nur eine reine Ansicht des Bankkontos, quasi eine statische und nicht kundenorientierte Darstellung des Kontostandes und der Kontotransaktionen. Wir glauben, diese Auflistung ohne Intelligenz ist nicht ausreichend und wenig auf den Kundenutzen fokussiert, mit der heutigen Technik kann man deutlich mehr bieten.
Unser Ziel ist es, eine der besten Customer Experience zu schaffen. Dank moderner Technologien haben wir viele unterschiedliche Möglichkeiten, um das zu erreichen. Eine davon ist es Smart Banking anzubieten, hier kommt Data Science ins Spiel.

Data Science Blog: Wofür nutzt Number26 Data Science genau?

Wir starten in Sachen Data Science jetzt erst voll durch. Unser erster Data Scientist wurde letztes Jahr im Oktober eingestellt. Unser Team ist also noch im Aufbau. Aktuell steht die sichere und number26appautomatisierte Kategorisierung von Finanztransaktionen bei uns im Fokus. Damit bieten wir den Nutzern leicht verständliche und genaue Auswertungen ihrer finanziellen Situation sowie eine Übersicht ihrer Einnahmen und Ausgaben. Interessanterweise gibt es unseres Wissens nach noch keine Bank, die Transaktionen direkt für den Kundennutzen kategorisiert.
Abhängig von der Transaktionsart nutzen wir unterschiedliche Methoden des maschinellen Lernens, die wir für die Erkennung der übergeordneten Kategorie verwenden.

Data Science Blog: Welche Machine Learning Methoden kommen zum Einsatz? Und wo finden die Analysen statt?

Wir haben mehrere ML-Methoden ausprobiert und durch eine Prototyping-Phase hinsichtlich ihrer Treffgenauigkeit bewertet. Wir setzen auf Amazon Webservices (AWS) und nutzen das Amazon Machine Learning Framework, auf dem wir auch unsere Modelle testen und Algorithmen erstellen. Der Input ist beispielsweise eine Kontotransaktion.
Unsere Algorithmen versuchen dieses dann zu kategorisieren. Daraus gewinnen wir zusätzliche Informationen, die wir unseren Kunden als Mehrwert anbieten.
Handelt es sich um eine Peer-to-Peer-Transaktion, wenn beispielsweise ich einem Freund Geld überweise, parsen wir den Verwendungszweck und nutzen Textmustererkennung zur Kategorisierung der Überweisung. Dazu splitten wir den Überweisungstext in einzelne Wörter auf, deren Bedeutung über Wörterbücher erkannt werden. Dadurch entstehen Kategorien, die vom Nutzer auch manuell nachträglich geändert werden können. Dieses Nutzerfeedback fließt in den Algorithmus zurück und wird in zukünftige Kategorisierungen mit einbezogen. Wir arbeiten nach mehreren Experimenten nun vermehrt mit Vector Spacing Modellen, wie dem k-Nearest-Neighbour-Algorithmus, über zurzeit 12 Achsen (Vektordimensionen). Jeder Vektor stellt eine Eigenschaft einer Transaktion dar, beispielsweise Geldbetrag, Verwendungszweck, Empfänger oder Währung. Je näher die Eigenschaften, die im Vektorraum als Punkte dargestellt werden, an den Eigenschaften anderer Finanztransaktion im selben Vektorraum liegen, desto wahrscheinlicher ist die Gemeinsamkeit als Kategorie.
Natürlich gibt es immer wieder False-Positives, die die eigentliche Herausforderung in Data Science darstellen. Beispielsweise lassen sich seltene Transaktionen wie die Zahnarztrechnung nur schwer trainieren. Wir trainieren unsere Kategorisierung der Banktransaktionen unter Einbeziehung der MasterCard-Kreditkartentransaktionen. Alle Vertragspartner bei MasterCard müssen einige Angaben mahcen, z.B. welche Art von Händler sie sind, Das hilft natürlich bei der Kategorisierung.

Data Science Blog: Der Beruf des Data Scientist wurde schon öfter als„Sexiest Job des 21. Jahrhunderts“ zitiert, gilt das auch in der Finanzindustrie?

Wir als FinTech-Unternehmen sind technologiegetrieben und in unserer Branche macht es wirklich Spaß, Probleme des Finanzalltags zu lösen. Neue Lösungen anzubieten, auf die vorher noch niemand gekommen ist, ist zwar nicht jedermanns Sache, unser Schlag Menschen entwickelt aber genau dafür die größte Leidenschaft.

Data Science Blog: Was sind Ihrer Meinung nach die alltäglichen Aufgaben eines Data Scientists und welche Skills sollte ein Data Scientist dafür mitbringen?

Die Arbeit als Data Scientist ist meines Erachtens dreigeteilt: ein Drittel Datenaufbereitung, ein Drittel Software-Entwicklung und ein Drittel Analyse.
Zum ersten Drittel gehört die Sichtung der Daten und Identifikation der Datenqualität. Ein Data Scientist muss aber auch Software-Entwickler sein und ein Verständnis für Software-Architekturen mitbringen. Große Datenmengen lassen sich nur über skalierbare Anwendungen auswerten. Wichtige Hilfsmittel und Testumgebungen müssen dafür selbst entwickelt werden.
Für die Analyse ist ein gutes Verständnis von Mathematik unumgänglich. Hinzu kommt ein ausgezeichnetes Verständnis für das Kerngeschäft des Unternehmens, in unserem Fall das Finanzwesen, um dementsprechend relevante Analysen durchzuführen.

Interview – Wie der Einstieg in Data Science gelingt

dr-alexander-beckAlexander Beck ist promovierter Ökonom und Physiker und hat in seiner Karriere sowohl selbst als Quant wie auch als Consultant im Data Science Bereich gearbeitet. Heute leitet er ein Data Science Team beim Bezahldienstleister PAYMILL in München, einer der führenden Payment Service Provider in Europa. Die E-Payment Lösung von PAYMILL erlaubt sichere und einfache Online Zahlungen.

Data Science Blog: Herr Dr. Beck, wie waren Ihre ersten 100 Tage in der Arbeitswelt von Paymill?
Spannend. Obwohl Paymill mit sehr fähigen Entwicklern arbeitet, war die erste Zeit davon geprägt, die richtigen Grundsteine für skalierbare und hochautomatisierte Daten-Analytik zu legen. Hierbei haben wir bewusst auf Open Source Technologien gesetzt, so zum Beispiel das Datenanalyse-Framework Python Pandas. Zudem setzen wir zur automatisierten Workflow-Steuerung die Software Airflow ein, die von AirBnB als Open Source Projekt entwickelt wird. Damit haben wir ein System geschaffen, mit dem wir sehr schlank, flexibel und nutzenorientiert arbeiten können und uns nicht mit Lizenzen und ähnlichen Dingen herumschlagen müssen.

Data Science Blog: Wie nutzt Paymill Data Science und was lässt sich damit erreichen?
Die Bandbreite hier ist wirklich groß und reicht von vollautomatisiertem Reporting bis hin zum Einsatz von Natural Language Processing und Predictive Analytics. Dabei gehen wir immer vom Nutzen des End-Anwenders aus und versuchen, unsere Lösungen für den Anwender so einfach und treffend wir möglich zu gestalten – meistens ist das Endprodukt eine schlanke Website, die alle relevanten Informationen enthält und die natürlich regelmäßig aktualisiert wird. Hierbei setzen wir auf 100% automatisierbare Konzepte. Datenanalyse soll dem Unternehmen dabei helfen, proaktiv und informiert statt reaktiv und uninformiert zu sein, das gelingt uns an vielen Stellen schon recht gut.

Data Science Blog: Viele Entscheider beklagen, dass Big Data nur den Konzernen nutzt, während der deutsche Mittelstand eher außen vor bleibe. Welche Hürden haben Mittelständler hier zu überwinden?
Viele Mittelständler verfügen heute nicht über die Datengrundlage, die nötig wäre, von diesem Trend zu profitieren. Hier sollte der Mittelstand beherzt handeln und lieber einen Euro zu viel als zu wenig an den entscheidenden Stellen investieren. Fairerweise muss man wohl sagen, dass nicht jedes Geschäftsmodell für den Einsatz von Data Science geeignet ist bzw. davon profitieren wird. Hier lohnt sich in den meisten Fällen eine Analyse der drei vielversprechendsten Anwendungsfälle aus Sicht der Unternehmensführung. Dann sollte neben einer Investitionsrechnung auch eine Analyse der Datenlage und Schritte zur Verbesserung dieser vorgenommen werden. Hierfür habe ich beispielsweise das DIFA Framework entwickelt.

Data Science Blog: An welchen Stellen eines Unternehmens können am schnellsten Mehrwerte gewonnen werden?
Das hängt natürlich sehr vom Geschäftsmodell ab. Im eCommerce beispielsweise ist die Sicherung der Kundenbeziehung durch zielgerichtete und effektive Maßnahmen sicherlich einer der stärksten Hebel. Zudem ist dies ein Anwendungsfall, wo im Unternehmen auch ausreichend Daten vorliegen um mit Analytics echte Mehrwerte zu schaffen. Fraud ist ein weiteres Anwendungsgebiet das nebenbei auch sehr zukunftsfähig ist, schaut man sich die aktuellen Fraud-Zahlen beispielsweise beim Kreditkarten Betrug an. Hier hilft man übrigens gleich doppelt: Man schützt Kunden davor, Opfer von Betrug zu werden und erleichtert der hausinternen Abteilung die Arbeit im Umgang mit Fraud-Fällen.

Data Science Blog: Wie sollte ein mittelständisches Unternehmen in Big Data und Data Science einsteigen?
Ein mittelständisches Unternehmen sollte sich von einem unabhängigen Experten beraten lassen. Dieser sollte neben der Data Science Kompetenz auch Branchen- und Prozesskenntnisse besitzen. Es ist übrigens auch nicht per se für jedes Unternehmen gesetzt, dass es mit Big Data und Data Science Mehrwerte für sich generieren kann. Überall dort wo ein Prozess in hoher Frequenz abläuft, die äußeren Parameter eine gewisse Varianz vorgeben und eine monetäre Verknüpfung existiert, macht Datenanalyse aber vermutlich Sinn. Ein ganz klassisches Beispiel hierfür ist die Kreditvergabe.

Data Science Blog: Lässt sich Data Science auch outsourcen? Wenn ja, was spräche dafür oder dagegen?
Was dafür spricht: Das Skillset des Data Scientist ist schon ein Besonderes und der Markt an guten Data Scientists ist knapp. Zudem ist der Aufbau von Technologie natürlich auch immer mit Kosten für Installation und Wartung verbunden, die teilweise nicht unerheblich sind. Gegen Outsourcing sprechen aus meiner Sicht aber weit gewichtigere Gründe. Um echte Mehrwerte zu schaffen, muss ein Data Scientist einen barriereferien Zugang zu den Mitarbeitern und den Daten des Unternehmens haben. Nur so lassen sich meines Erachtens Prozesse, Daten und alle Besonderheiten im Detail verstehen und nachvollziehen. Der häufig zitierte 80/20 Berater-Ansatz funktioniert im Data Science Umfeld meistens nicht. Sie müssen sich also auf eine ganz andere Art und Weise in einem Unternehmen auskennen, als dies einem Außenstehenden in einem vernünftigen Kostenrahmen gelingen wird. Aus meiner eigenen Erfahrung kann ich sagen, dass wir bei Paymill auf unsere erfolgreichsten Anwendungsfälle durch Gespräche in der Kaffee-Ecke gestoßen sind, hierfür müssen Sie Teil des Teams sein.

Data Science Blog: Sie haben bereits viele Analytics-Projekte betreut. Wie hoch ist die Quote an erfolgreichen Projekten gegenüber den nicht erfolgreichen? Konnten Sie Gründe für das Scheitern von solchen Projekten identifizieren?
Wenn Sie Erfolg damit assoziieren, wie hoch die Quote ist, wo wir dem Kunden weiterhelfen konnten, dann sage ich: sehr hoch. Allerdings sind hier auch Fälle dabei, wo wir einem Kunden sagen konnten, wo noch Hausaufgaben beispielsweise in der Datenhaltung zu erledigen sind. So gab es einmal einen Fall, wo eine Vertriebsmannschaft mit Prognosen unterstützt werden sollte. Die Datenbasis bestand allerdings nur aus erfolgreichen Abschlüssen, die nicht-erfolgreichen Vertriebsaktivitäten waren nicht aufgezeichnet worden. Hier müssen also erst einmal Daten vervollständigt werden, bevor über Predictive Analytics gesprochen wird. Trotzdem haben wir dem Unternehmen mit dieser Erkenntnis und einer Anleitung für nächste Schritte weitergeholfen.

Data Science Blog: Sollten Data Scientists in den jeweiligen Fachbereichen oder in der IT angesiedelt sein oder sogar eine eigene Stabstelle darstellen?
Ich habe gute Erfahrungen damit gemacht, wenn Data Science als eigenständige Einheit funktioniert. So lassen sich Anwendungsfälle, die über einzelne Departments hinausgehen, besser umsetzen. Zudem ist es auch einfach abwechslungsreicher für die Data Scientists.

Data Science Blog: Wann ist mit einem Break-Even-Point zu rechnen, wenn ein Unternehmen die Investition plant, eine Data Science Abteilung aufzubauen? Sie sollten vor der Gründung einer Data Science Abteilung eine realistische Machbarkeitsstudie durchführen. Nicht jedes Unternehmen und Geschäftsmodell wird in gleichem Maße von einer Data Science Abteilung profitieren. Ich würde aber sagen, dass man schon mit 10 bis 12 Monaten rechnen muss. Diese Zahl hängt aber sehr stark davon ab, wie viel Aufbau- und Aufräumarbeit bei der Datanbasis geleistet werden muss. Schlussendlich sollten auch immer weiche Faktoren mit in die Rechnung genommen werden. Eventuell fühlen sich Kunden durch entsprechende Maßnahmen besser angesprochen oder strategische Entscheidungen können auf einer soliden Datengrundlage getroffen werden. Das werden Sie nicht 1:1 in einer monetären Kenngröße abgebildet sehen, der positive Effekt ist aber zweifelsfrei vorhanden.

Data Science Blog: Die Methodenvielfalt scheint groß zu sein: Predictive Analytics, Distributed Data Processing, Realtime Analytics, Machine Learning. Welche Methoden bringen den größten Mehrwert?
Ich glaube das lässt sich so allgemein nicht beantworten. Sehr gute Erfahrungen haben wir mit automatisierten Warnsystemen gemacht – diese liefern einen sehr direkten und messbaren Mehrwert und sind verhältnismäßig zügig und ohne große Kosten aufgebaut. Auch hier kommt interessante Analytics zum Einsatz. Nehmen Sie als Beispiel einen Anbieter von Webhosting der messen möchte, ob eine Webseite Opfer einer Massenanfragen-Attacke ist. Hier müssen Sie clevere Analytics verwenden, sonst klemmen Sie im schlimmsten Fall einem Ihrer Kunden zur besten Verkaufszeit die Webseite ab.

Data Science Blog: Was macht Ihrer Meinung nach einen guten Data Scientist aus? Welche Skills sollte ein Data Scientist haben und wie können Neulinge diese erwerben?
Sie sollten ihr Handwerk grundlegend verstehen. Damit meine ich das Verarbeiten von Daten und die Anwendung von Standard Analytics Verfahren. Selbstverständlich sollten Sie sehr flüssig programmieren können, meiner Ansicht nach idealerweise in Python. Diese beiden Eigenschaften sind nicht hinreichend, aber die Basis Ihres Erfolgs. Daneben sollten Sie eine absolute Umsetzer-Mentalität und ein Bewusstsein für hohe Qualität haben. Wenn Sie dazu noch Spaß daran haben, Ihre Arbeit anderen zu erklären und eigenständig werthaltige Anwendungsszenarieren aufzuspüren, sind Sie – denke ich – sehr gut aufgestellt. Neulinge sollten sich nicht vom Hype um Data Science verrückt machen lassen, sondern sich bewusst sein, dass auch hier der erste Schritt darin besteht, ein solides Handwerk zu erlernen mit dem Sie später viel anfangen können.