Interview – Data Science in der FinTech-Branche

Christian Rebernik ist CTO bei Number 26 und zuständig für die technische Entwicklung dieses FinTech-Unternehmens. Er studierte Informatik und Wirtschaftsinformatik und kann auf langjährige Erfahrung als Software-Entwickler zurückgreifen. Seit etwa 2010 war er als CTO und CIO bei diversen eCommerce-christian-rebernikUnternehmen, u.a. bei Immobilien.net (heute ImmobilienScout24), PARSHIP und Zanox, tätig und gilt daher als ein etablierter IT-Manager, der seine Kenntnisse als Mentor des Axel Springer Plug and Play Accelerators weitergibt.

Data Science Blog: Herr Rebernik, wie sind Sie als CTO zum FinTech Number26 gekommen?

Ich durfte die Gründer im Accelerator 2013 als Mentor begleiten. Damals war das Produkt ausgelegt auf Teenager als Zielgruppe. 2014 änderten die Gründer Valentin und Maximilian das Produkt auf Number26, ein mobile-first Gehaltskonto mit Mastercard und der Vision das weltbeste Bankerlebnis zu bieten. Damit hatten sie aus meiner Sicht den richtigen Nerv der Zeit getroffen. Mein Erfahrung mit Banken war nicht positiv bis dato. Number26 hat aus meiner Sicht das Potential Bankwesen zu verändern.

Data Science Blog: Die FinTech-Szene möchte vieles besser machen als traditionelle Banken. Welche Rolle spielt Data Science dabei?

Beim Online-Banking etablierter Banken erhält man meistens nur eine reine Ansicht des Bankkontos, quasi eine statische und nicht kundenorientierte Darstellung des Kontostandes und der Kontotransaktionen. Wir glauben, diese Auflistung ohne Intelligenz ist nicht ausreichend und wenig auf den Kundenutzen fokussiert, mit der heutigen Technik kann man deutlich mehr bieten.
Unser Ziel ist es, eine der besten Customer Experience zu schaffen. Dank moderner Technologien haben wir viele unterschiedliche Möglichkeiten, um das zu erreichen. Eine davon ist es Smart Banking anzubieten, hier kommt Data Science ins Spiel.

Data Science Blog: Wofür nutzt Number26 Data Science genau?

Wir starten in Sachen Data Science jetzt erst voll durch. Unser erster Data Scientist wurde letztes Jahr im Oktober eingestellt. Unser Team ist also noch im Aufbau. Aktuell steht die sichere und number26appautomatisierte Kategorisierung von Finanztransaktionen bei uns im Fokus. Damit bieten wir den Nutzern leicht verständliche und genaue Auswertungen ihrer finanziellen Situation sowie eine Übersicht ihrer Einnahmen und Ausgaben. Interessanterweise gibt es unseres Wissens nach noch keine Bank, die Transaktionen direkt für den Kundennutzen kategorisiert.
Abhängig von der Transaktionsart nutzen wir unterschiedliche Methoden des maschinellen Lernens, die wir für die Erkennung der übergeordneten Kategorie verwenden.

Data Science Blog: Welche Machine Learning Methoden kommen zum Einsatz? Und wo finden die Analysen statt?

Wir haben mehrere ML-Methoden ausprobiert und durch eine Prototyping-Phase hinsichtlich ihrer Treffgenauigkeit bewertet. Wir setzen auf Amazon Webservices (AWS) und nutzen das Amazon Machine Learning Framework, auf dem wir auch unsere Modelle testen und Algorithmen erstellen. Der Input ist beispielsweise eine Kontotransaktion.
Unsere Algorithmen versuchen dieses dann zu kategorisieren. Daraus gewinnen wir zusätzliche Informationen, die wir unseren Kunden als Mehrwert anbieten.
Handelt es sich um eine Peer-to-Peer-Transaktion, wenn beispielsweise ich einem Freund Geld überweise, parsen wir den Verwendungszweck und nutzen Textmustererkennung zur Kategorisierung der Überweisung. Dazu splitten wir den Überweisungstext in einzelne Wörter auf, deren Bedeutung über Wörterbücher erkannt werden. Dadurch entstehen Kategorien, die vom Nutzer auch manuell nachträglich geändert werden können. Dieses Nutzerfeedback fließt in den Algorithmus zurück und wird in zukünftige Kategorisierungen mit einbezogen. Wir arbeiten nach mehreren Experimenten nun vermehrt mit Vector Spacing Modellen, wie dem k-Nearest-Neighbour-Algorithmus, über zurzeit 12 Achsen (Vektordimensionen). Jeder Vektor stellt eine Eigenschaft einer Transaktion dar, beispielsweise Geldbetrag, Verwendungszweck, Empfänger oder Währung. Je näher die Eigenschaften, die im Vektorraum als Punkte dargestellt werden, an den Eigenschaften anderer Finanztransaktion im selben Vektorraum liegen, desto wahrscheinlicher ist die Gemeinsamkeit als Kategorie.
Natürlich gibt es immer wieder False-Positives, die die eigentliche Herausforderung in Data Science darstellen. Beispielsweise lassen sich seltene Transaktionen wie die Zahnarztrechnung nur schwer trainieren. Wir trainieren unsere Kategorisierung der Banktransaktionen unter Einbeziehung der MasterCard-Kreditkartentransaktionen. Alle Vertragspartner bei MasterCard müssen einige Angaben mahcen, z.B. welche Art von Händler sie sind, Das hilft natürlich bei der Kategorisierung.

Data Science Blog: Der Beruf des Data Scientist wurde schon öfter als„Sexiest Job des 21. Jahrhunderts“ zitiert, gilt das auch in der Finanzindustrie?

Wir als FinTech-Unternehmen sind technologiegetrieben und in unserer Branche macht es wirklich Spaß, Probleme des Finanzalltags zu lösen. Neue Lösungen anzubieten, auf die vorher noch niemand gekommen ist, ist zwar nicht jedermanns Sache, unser Schlag Menschen entwickelt aber genau dafür die größte Leidenschaft.

Data Science Blog: Was sind Ihrer Meinung nach die alltäglichen Aufgaben eines Data Scientists und welche Skills sollte ein Data Scientist dafür mitbringen?

Die Arbeit als Data Scientist ist meines Erachtens dreigeteilt: ein Drittel Datenaufbereitung, ein Drittel Software-Entwicklung und ein Drittel Analyse.
Zum ersten Drittel gehört die Sichtung der Daten und Identifikation der Datenqualität. Ein Data Scientist muss aber auch Software-Entwickler sein und ein Verständnis für Software-Architekturen mitbringen. Große Datenmengen lassen sich nur über skalierbare Anwendungen auswerten. Wichtige Hilfsmittel und Testumgebungen müssen dafür selbst entwickelt werden.
Für die Analyse ist ein gutes Verständnis von Mathematik unumgänglich. Hinzu kommt ein ausgezeichnetes Verständnis für das Kerngeschäft des Unternehmens, in unserem Fall das Finanzwesen, um dementsprechend relevante Analysen durchzuführen.

Interview – Advanced Data Science in der Finanz- und Versicherungsbranche

Dr. Andreas Braun von der Allianz SE spricht exklusiv mit dem Data Science Blog über die Bedeutung von Data Science in der Finanz- und Versicherungsindustrie und was er von einem guten Data Scientist erwartet.

dr-andreas-braunDr. Andreas Braun ist Head of Global Data & Analytics bei der Allianz SE in München. Der promovierte Informatiker von der TU München begann seine Karriere als Berater bei Accenture, leitete danach verschiedene Abteilungen für Analyse und Digitalisierung und zuletzt den globalen Geschäftsbereich Business Applications bei der GfK SE. Er gilt heute als eine der erfahrensten Führungskräfte mit explizitem Know How in der Nutzung von Data & Analytics.

Data Science Blog: Herr Dr. Braun, welcher Weg hat Sie bis an die Analytics-Spitze der Allianz SE geführt?

Als Informatiker kam ich über Software-Entwicklung und Verteilte Systeme zur Datenanalyse. Schon während des Studiums war ich Mitbegründer einer Software-Firma, die Bildverarbeitungs- und Analyse-Software entwickelte. Der Schwenk hin zur Entwicklung von Systemen künstlicher Intelligenz kam während der Promotion an der TUM, insbesondere, da mein Doktorvater erst kürzlich von der Carnegie Mellon University (CMU) dorthin gewechselt hatte. (An der CMU wurde der Begriff Künstliche Intelligenz ja ursprünglich geprägt.) Dadurch hatte ich mir Schwerpunkte auf global verteilte Systeme und Künstliche Intelligenz gesetzt. Nach meinem akademischen Ausbildungsweg war ich dann in der Unternehmensberatung und später in der Marktforschung tätig. Als Global Head für Business Applications bei der GfK SE, der Gesellschaft für Konsumforschung, haben wir bereits 2011 auf Big Data Technologien, wie Hadoop und NoSQL,  gesetzt.

Als die Allianz sich auf Gruppenebene verstärkt im Bereich Digitalisierung und somit auch Data Analytics und Data Science aufstellte und konsequent ein eigenes Data & Analytics Team aufbaute, kam für mich die Gelegenheit zum Wechsel nach München. Seit Mai 2014 leite ich nun Global Data & Analytics (GD&A) bei der Allianz SE und setze vor allem auf Leute, die bereits Data Analytics und Data Science Expertise mitbringen, oft auch von außerhalb der Finanz- und Versicherungsindustrie.

Data Science Blog: Welche Rolle sehen Sie für Big Data Analytics in der Finanz- und Versicherungsbranche?

Aus meiner Sicht ist sogenannte „Big Data“ Technologie, also verteilte Systeme, neue Datenbanken usw., die eigentliche Maschinerie hinter der Digitalisierung. Es gibt zunehmend viele „Frontends“, also z. B. Benutzeroberflächen, (mobile) Geräte und Sensoren, für Anwender, mit denen Daten generiert werden. Webseiten, Apps, Smartphones und Connected Cars sind für sich gesehen jedoch noch nicht besonders intelligent und somit eingeschränkt nützlich. Die wirklich nutzbringende Intelligenz basiert auf Kontext, Daten und Analytics und ergibt sich erst durch die Vernetzung unzähliger Einzelkomponenten über Data Analytics Systeme. Auf dieser Basis lassen sich dann neue und digitale Geschäftsmodelle fördern.

Viele der heute gängigen Anwendungsfälle sind vielleicht von der Grundidee her manchmal ein alter Hut, lassen sich durch die jetzt verfügbare Technologie aber deutlich besser oder gar erstmalig lösen. Beispielsweise betreibt die Allianz Betrugserkennung schon sehr lange. Mittlerweile lassen sich jedoch komplexe oder gar organisierte Betrugsnetzwerke mit Ansätzen wie maschinellem Lernen (Machine Learning) und Graphen-Datenbanken sehr viel schneller, deutlich zuverlässiger und auch noch kostengünstiger aufdecken. Dadurch entstand bereits ein erheblich messbarer Vorteil für die Versichertengemeinschaft!

Data Science Blog: Wie arbeitet das Data & Analytics Team?

Im Data & Analytics Team werden daten-getriebene und analytische Anwendungsfälle („Use Cases“) pilotiert, prototypisch umgesetzt, methodisch validiert und auf unserer Referenzarchitektur („Stack“) aufgesetzt.

Ich glaube, die Data Scientists fühlen sich hier wohl, da wir für die unterschiedlichsten Fachbereiche und Landesgesellschaften tätig werden, die über große und sehr variantenreiche Datenquellen verfügen und sehr vielseitige Problemstellungen mitbringen. Abwechslung sowie beständiges Lernen sind somit garantiert. Für die Fachbereiche bieten wir alles aus einer Hand und geben einen schnellen Einstieg in die produktive Nutzung von großen und verteilten Datenbeständen.

Wir fühlen uns eigentlich fast wie ein eigenes Start-Up innerhalb des Konzerns und haben unsere eigene Infrastruktur. Das gibt uns Geschwindigkeit und Flexibilität bei gleichzeitig höchsten Standards für Sicherheits- und Datenschutz.

Data Science Blog: Finden die Analysen nur in Ihrem Team oder auch in den Fachbereichen statt?

Die Projekte werden in der Regel bei uns zentral durchgeführt, werden dabei aber meist vom Fachbereich angestoßen. Wir arbeiten dabei mit den jeweiligen Kollegen Hand in Hand. Die Fachbereiche sind stets eingeladen, möglichst eng mit uns zusammen zu arbeiten. Natürlich gibt es aber auch Projekte, die zentral ansetzen und im Wesentlichen erstmal von uns allein getrieben werden, insbesondere Themen, die eher R&D sind.

Data Science Blog: In wie weit werden unstrukturierte Daten in die Analysen einbezogen?

Unstrukturierte Daten spielen eine immer größere Rolle. Ich vermute, dass bereits etwa 70% der verwendeten Daten nach Volumen unstrukturiert oder semi-strukturiert sind.

Data Science Blog: Werden diese vollwertig genutzt oder sind diese nur eine Vorstufe, bevor sie in eine strukturierte Datenbank gespeist werden?

Unstrukturierte Daten werden bei uns nicht in eine strukturierte Datenbank überführt. Grundsätzlich belassen wir Rohdaten i.d.R. möglichst unverändert.

Aus technischer Sicht liegt unser Fokus vor allem auf den sogenannten NoSQL-Datenbanken und dazu passenden Datenformaten, wie z. B. großen, flachen Tabellen („Bigtable“), Parquet- und neuen Prozessmodellen, wie Streaming und Microbatches usw. Relationale Datenbanken spielen dabei eine eher untergeordnete Rolle, haben aber natürlich auch weiterhin ihre Berechtigung, beispielsweise für Meta-/ Stammdaten.

Data Science Blog: Die Allianz als Versicherer besitzt personenbezogene Datenbestände, welche Rolle spielt in Ihrer Arbeit der Datenschutz?

Wir befassen uns sehr viel mit IT-Sicherheit, Datenschutz (Data Privacy) und Datenethik. Die rechtlich zulässige Nutzung von Daten setzt für uns den Rahmen jeglicher Aktivitäten. Und während wir in Bezug auf IT-Sicherheit auf erhebliche Erfahrungswerte und Lösungsmuster zurückgreifen können, sind Data Privacy und Datenethik neue Themenkomplexe im Bereich der Datenanalytik, die sehr eng mit der Analyse verknüpft sind. Ich glaube, dass die letztliche Komplexität hierbei noch nicht vollständig erfasst ist, weswegen wir uns auch stark in der Forschung und Entwicklung in diesem Feld engagieren.

So hat die Allianz kürzlich einen Lehrstuhl für „Großskalige Datenanalyse und Maschinelles Lernen“ an der TU-München gestiftet, wovon wir uns u.a. einen Beitrag zur Erörterung entsprechender Fragen zur Datennutzung  erhoffen.

Data Science Blog: Welche Art von Data Scientists suchen Sie für Ihre zukünftigen Umsetzungen?

Data Scientists können bei uns abwechslungsreich arbeiten und für verschiedene Projekte unterschiedliche Rollen einnehmen und daran wachsen. Unsere Kollegen haben vorwiegend einen ingenieur- oder naturwissenschaftlichen Hintergrund, vor allem Informatiker, Physiker, Mathematiker und Statistiker, aber auch beispielsweise Psychologen.

Data Science Blog: Suchen Sie eher den introvertierten Nerd oder den kommunikationsstarken Beratertyp?

Wir suchen vor allem Hardcore Data Scientists, dazu gehören für mich eher die Naturwissenschaftler. Für uns ist Data Science programmatisch, also ganz klar abgegrenzt von „Klick“-orientierter Business Intelligence. Im Data Science kommen verschiedene Tools und Programmiersprachen zum Einsatz. Die meisten Data Scientists sind zwar keine Software-Entwickler, aber dennoch werden die Aufgaben im Kern durch Programmierung unter Einsatz von statistischen Verfahren und Methoden des maschinellen Lernens gelöst. Von einem Data Scientist erwarte ich darüber hinaus, dass die Qualität eines Modells nicht nur bloß eingeschätzt, sondern auch methodisch fundiert belegt werden kann.

Auf der anderen Seite haben wir auch Business Analysts, die vor allem in der Koordination der Use Cases eingesetzt werden. Ein Business Analyst versteht den Businesskontext und den Geschäftszweck von Daten und Analysen, unterstützt im Projektmanagement und kümmert sich um die Kommunikation und Implementierung in den Fachbereichen.

Data Science Blog: Unterscheiden Sie in Ihrem Bereich auch zwischen Data Scientist und Data Engineer?

Ja. In meinem Team arbeiten ungefähr 30% Data Engineers, 60% sind Data Scientists und 10% Business Analysts. Unsere Data Engineers kümmern sich um u.a. den Technologie und Tool-Stack und das Engineering.

Ich denke, viele der momentan kommerziell sehr erfolgreichen Use Cases sind sehr Engineering-lastig, haben also mit Datenhaltung, -transformation, -bewegung und Ausführbarkeit bzw. Anwendung zu tun. Dann spielt dabei Daten und Software Engineering sogar die größere Rolle als Data Science.

Und obwohl wir genau diese Jobtitel, also Data Scientist, Data Engineer und Business Analyst, haben, sind die Grenzen dazwischen fließend. Für unseren agilen Ansatz ist dabei vor allem wichtig, dass alle Mitarbeiter auf Augenhöhe in einem „self-contained“ Team zusammenarbeiten.

Data Science vs Data Engineering

Das Berufsbild des Data Scientsts ist gerade erst in Deutschland angekommen, da kommen schon wieder neue Jobbezeichnungen auf uns zu. “Ist das wirklich notwendig?”, wird sich so mancher fragen. Aber die Antwort lautet ganz klar: ja!

Welcher Data Scientist kennt das nicht: ein Recruiter ruft an, spricht von einer tollen neuen Herausforderung für einen Data Scientist wie man es sich ja offensichtlich auf seinem LinkedIn-Profil für sich beansprucht, doch bei der Besprechung der Vakanz stellt sich schnell heraus, dass man über fast keine der geforderten Skills verfügt. Dieser Mismatch liegt vor allem daran, dass unter den Job des Data Scientist alle möglichen Tätigkeitsprofile, Methoden- und Tool-Wissen zusammengefasst werden, die ein einzelner Mensch kaum in seinem Leben lernen kann.

Viele offene Jobs, die unter der Bezeichnung Data Science besetzt werden sollen, beschreiben eher das Berufsbild des Data Engineers.


english-flagRead this article in English:
“Data Scientist vs Data Engineer – What is the Difference?”


Was macht ein Data Engineer?

Im Data Engineering geht es vor allem darum, Daten zu sammeln bzw. zu generieren, zu speichern, historisieren, aufzubereiten, anzureichern und nachfolgenden Instanzen zur Verfügung zu stellen. Ein Data Engineer, je nach Rang oft auch als Big Data Engineer oder Big Data Architect bezeichnet, modelliert skalierbare Datenbank- und Datenfluss-Architekturen, entwickelt und verbessert die IT-Infrastruktur hardware- und softwareseitig, befasst sich dabei auch mit Themen wie IT-Security, Datensicherheit und Datenschutz. Ein Data Engineer ist je nach Bedarf teilweise Administrator der IT-Systeme und auch ein Software Entwickler, denn er erweitert die Software-Landschaft bei Bedarf um eigene Komponenten. Neben den Aufgaben im Bereich ETL / Data Warehousing, führt er auch Analysen durch, zum Beispiel solche, um die Datenqualität oder Nutzerzugriffe zu untersuchen.

Ein Data Engineer arbeitet vor allem mit Datenbanken und Data Warehousing Tools.

Ein Data Engineer ist tendenziell ein ausgebildeter Ingenieur/Informatiker und eher weit vom eigentlichen Kerngeschäft des Unternehmens entfernt. Die Karrierestufen des Data Engineers sind in der Regel:

  1. (Big) Data Architect
  2. BI Architect
  3. Senior Data Engineer
  4. Data Engineer

Was macht ein Data Scientist?

Auch wenn es viele Überschneidungspunkte mit dem Tätigkeitsfeld des Data Engineers geben mag, so lässt sich der Data Scientist dadurch abgrenzen, dass er seine Arbeitszeit möglichst dazu nutzt, die zur Verfügung stehenden Daten explorativ und gezielt zu analysieren, die Analyseergebnisse zu visualisieren und in einen roten Faden einzuspannen (Storytelling). Anders als der Data Engineer, bekommt ein Data Scientist ein Rechenzentrum nur selten zu Gesicht, denn er zapft Daten über Schnittstellen an, die ihm der Data Engineer bereitstellt.

Ein Data Scientist befasst sich mit mathematischen Modellen, arbeitet vornehmlich mit statistischen Verfahren und wendet sie auf die Daten an, um Wissen zu generieren. Gängige Methoden des Data Mining, Machine Learning und Predictive Modelling sollten einem Data Scientist bekannt sein, wobei natürlich jeder ganz individuell Schwerpunkte setzt. Data Scientists arbeiten grundsätzlich nahe am Fachbereich und benötigen entsprechendes Fachbereichswissen. Data Scientists arbeiten mit proprietären Tools (z. B. von IBM, SAS oder QlikTech) und programmieren Analysen auch selbst, beispielsweise in Scala, Java, Python, Julia oder R.

Data Scientists können vielfältige akademische Hintergründe haben, einige sind Informatiker oder Ingenieure für Elektrotechnik, andere sind Physiker oder Mathematiker, nicht wenige auch Wirtschaftswissenschaftler.

  1. Chief Data Scientist
  2. Senior Data Scientist
  3. Data Scientist
  4. Data Analyst oder Junior Data Scientist

Data Scientist vs Data Analyst

Oft werde ich gefragt, wo eigentlich der Unterschied zwischen einem Data Scientist und einem Data Analyst läge bzw. ob es dafür überhaupt ein Unterscheidungskriterium gäbe:

Meiner Erfahrung nach, steht die Bezeichnung Data Scientist für die neuen Herausforderungen für den klassischen Begriff des Data Analysten. Ein Data Analyst betreibt Datenanalysen wie ein Data Scientist, komplexere Themen, wie Predictive Analytics und Machine Learning bzw. künstliche Intelligenz, sind aber eher was für den Data Scientist. Ein Data Scientist ist sozusagen ein Data Analyst++.

Und ein Business Analyst?

Business Analysten können (müssen aber nicht) auch Data Analysten sein. In jedem Fall haben sie einen sehr starkem Bezug zum Fachbereich bzw. zum Kerngeschäft des Unternehmens. Im Business Analytics geht es um die Analyse von Geschäftsmodellen und Geschäftserfolgen. Gerade die Analyse von Geschäftserfolgen geschieht in der Regel IT-gestützt und da setzen viele Business Analysten an. Dashboards, KPIs und SQL sind das Handwerkszeug eines guten Business Analysten.