Interview – Mit Data Science Kundenverhalten vorhersagen

Frau Dr. Eva-Marie Müller-Stüler ist Associate Director in Decision Science der KPMG LLP in London. Sie absolvierte zur Diplom-Mathematikerin an der Technischen Universität München, mit einem einjährigen Auslandssemester in Tokyo, und promovierte an der Philipp Universität in Marburg.

linkedin-button xing-button

english-flagRead this article in English:
“Interview – Using Decision Science to forecast customer behaviour”

Data Science Blog: Frau Dr. Müller-Stüler, welcher Weg hat Sie bis an die Analytics-Spitze der KPMG geführt?

Ich hatte schon immer viel Spaß an analytischen Fragestellungen, aber auch ein großes Interesse an Menschen und Finance. Die Frage wie Menschen ticken und Entscheidungen treffen finde ich unglaublich spannend. Im Mathematikstudium und auch bei der Doktorarbeit kamen dann das Auswerten von großen Datenmengen und das Programmieren von Algorithmen hinzu. Die solide mathematische Ausbildung kombiniert mit dem spezifischen Branchen- und Finanzverständnis ermöglicht es mir das Geschäftsmodell meiner Kunden zu verstehen und Methoden zu entwickeln, die den Markt verändern und neue Wege finden.

Data Science Blog: Welche Analysen führen Sie für Ihre Kundenaufträge durch? Welche Vorteile generieren Sie für Ihre Kunden?

Unser Team beschäftigt sich hauptsächlich mit Behaviour und Customer Science. Daher auch der Slogan „We understand human behaviour and we change it“. Unser Focus ist der Mensch (z.B. Kunde oder der Mitarbeiter) und die Frage, wie wir ihn durch das Verständnis seiner Datenartefakte im Verhalten ändern bzw. zukünftiges Verhalten vorhersagen können. Auf dieser Basis entwickeln wir Always-on forecasting Modelle, die es dem Mandanten ermöglichen, bereits im Vorfeld zu agieren. Das kann z.B. bedeuten, durch ortgenaue Informationen spezifische Kundennachfrage an einem bestimmten Standort vorherzusagen, wie sie verbessert oder in die gewünschte Richtung beeinflusst werden kann oder durch welche Maßnahmen bzw. Promotions welcher Kundentyp optimal erreicht wird. Oder auch die Frage wo und mit welcher Produktmischung am besten ein neues Geschäft eröffnet werden soll, ist mit Predictive Analytics viel genauer vorherzusagen als durch herkömmliche Methoden.

Data Science Blog: Welche Voraussetzungen müssen erfüllt sein, damit prädiktive Analysen für Kundenverhalten adäquat funktionieren?

Die Daten müssen natürlich eine gewisse Qualität und Historie haben um z. B. auch Trends und Zyklen zu erkennen. Oft kann man sich aber auch über die Einbindung neuer Datenquellen einen Vorteil erschaffen. Dabei ist Erfahrung und Kreativität enorm wichtig, um zu verstehen was möglich ist und die Qualität verbessert oder ob etwas nur für mehr Rauschen sorgt.

Data Science Blog: Welche externen Datenquellen müssen Sie dafür einbinden? Wie behandeln Sie unstrukturierte Daten?

Hier in England ist man – was externe Datenquellen angeht – schon sehr verwöhnt. Wir benutzen im Schnitt an die 10.000 verschiedene Signale, die je nach Fragestellung unterschiedlich seien können: z. B. die Zusammensetzung der Bevölkerung, Nahverkehrsinformationen, die Nähe von Sehenswürdigkeiten, Krankenhäusern, Schulen, Kriminalitätsraten und vieles mehr. Der Einfluss eines Signals ist bei jedem Problem unterschiedlich. So kann eine hohe Anzahl an Taschendiebstählen ein Zeichen dafür sein, dass in der Gegend viel los ist und die Menschen im Schnitt viel Bargeld bei sich tragen. Das kann z. B. für einen Fast Food-Retailer in der Innenstadt durchaus einen positiven Einfluss auf sein Geschäft haben in einer anderen Gegend aber das Gegenteil bedeuten.

Data Science Blog: Welche Möglichkeiten bietet Data Science für die Forensik bzw. zur Betrugserkennung?

Da jeden Kunden tausende Datensignale umgeben und er durch sein Verhalten weitere produziert und aussendet, kann man gerade beim Online-Geschäft schon ein ziemlich gutes Bild über die Person bekommen. Jede Art von Mensch hat ein gewisses Verhaltensmuster und das gilt auch für Betrüger. Diese Muster muss man nur rechtzeitig erkennen oder vorherzusagen lernen.

Data Science Blog: Welche Tools verwenden Sie bei Ihrer Arbeit? In welchen Fällen setzten Sie auf proprietäre Software, wann hingegen auf Open Source?

Das hängt vom Arbeitsschritt und dem definierten Ziel ab. Wir unterscheiden unser Team in unterschiedliche Gruppen: Unsere Data Wrangler (die für das Extrahieren, Erzeugen und Aufbereiten der Daten zuständig sind) arbeiten mit anderen Tools als z. B. unsere Data Modeller. Im Grunde umfasst es die gesamte Palette von SQL Server, R, Python, manchmal aber auch Matlab oder SAS. Immer häufiger arbeiten wir auch mit auf Cloud-Technologie basierenden Lösungen. Data Visualisation und Dashboards in Qlik, Tableau oder Alteryx geben wir in der Regel jedoch an andere Teams weiter.

Data Science Blog: Wie sieht Ihrer Erfahrung nach der Arbeitsalltag als Data Scientist nach dem morgendlichen Café bis zum Feierabend aus?

Meine Rolle ist vielleicht am besten zu beschreiben als der Player-Coach. Da läuft von allem etwas mit ein. Am Anfang eines Projektes geht es vor Allem darum, mit den Mandaten die Fragestellung zu erarbeiten und das Projekt zu gewinnen. Teil dessen ist auch neue Ideen und Methoden zu entwickeln.  Während eines Projektes sind das Team Management, der Wissenstransfer im Team, der Review und das Hinterfragen der Modelle meine Hauptaufgaben. Am Schluss kommt dann der endgültige Sign-off des Projektes. Da ich oft mehrere Projekte in unterschiedlichen Stadien gleichzeitig leite, wird es garantiert nie langweilig.

Data Science Blog: Sind gute Data Scientists Ihrer Erfahrung nach tendenziell eher Beratertypen oder introvertierte Nerds?

Das hängt so ein bisschen davon ab wo man seinen Schwerpunkt sieht. Als Data Visualizer oder Data Artist geht es darum die Informationen auf das wesentlich zu reduzieren und toll und verständlich darzustellen. Dafür braucht man Kreativität und ein gutes Verständnis für das Geschäft und einen sicheren Umgang mit den Tools.

Der Data Analyst beschäftigt sich vor Allem mit dem „Slice and Dice“ von Data. Ziel ist es, die Vergangenheit zu analysieren und Zusammenhänge zu erkennen. Es ist wichtig zusätzlich zu dem finanziellen Wissen auch gute mathematische Fähigkeiten zu haben.

Der Data Scientist ist der mathematischste von allen. Er beschäftigt sich damit aus den Daten tiefere Zusammenhänge zu erkennen und Vorhersagen zu treffen. Dabei geht es um die Entwicklung von komplizierten Modellen oder auch Machine Learning Algorithmen. Ohne eine gute mathematische Ausbildung und Programmierkenntnisse ist es leider nicht möglich die Sachen in voller Tiefe zu verstehen. Die Gefahr falsche Schlüsse zu ziehen oder Korrelationen zu interpretieren, die sich aber nicht bedingen ist sehr groß. Ein einfaches Beispiel hierfür ist, dass im Sommer, wenn das Wetter schön ist, mehr Menschen Eis essen und in Seen baden gehen. Daher lässt sich eine eindeutige Korrelation zwischen Eis essen und der Anzahl an Ertrunkenen zeigen, obwohl nicht das Eis essen zum Ertrinken führt sondern die beeinflussende Variable die Temperatur ist. Daher ist ein Doktor in einem mathematiknahen Fach schon wichtig.

Genauso ist aber für den Data Scientist auch das entsprechende Finanz- und Branchenwissen wichtig, denn seine Erkenntnisse und Lösung müssen relevant für den Kunden sein und deren Probleme lösen oder Prozesse verbessern. Die tollste AI Maschine bringt keiner Bank einen Wettbewerbsvorteil, wenn sie den Eisverkauf auf Basis des Wetters vorhersagt. Das kann zwar rechnerisch 100% richtig sein, hat aber keine Relevanz für den Kunden.

Es ist im Grunde wie in anderen Bereichen (z. B. der Medizin) auch. Es gibt viele verschiedene Schwerpunkte und für ernsthafte Probleme wendet man sich am besten an einen Spezialisten, damit man keine falschen Schlüsse zieht.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder Wirtschaftslehre, abgeschlossen haben, was würden sie diesen jungen Damen und Herren raten, wie sie gute Data Scientists werden können?

Nie aufhören mit dem Lernen!  Der Markt entwickelt sich derzeit unglaublich schnell und hat so viele tolle Seiten. Man sollte einfach mit Leidenschaft, Begeisterung und Kreativität dabei sein und Spaß an der Erkennung von Mustern und Zusammenhängen haben. Wenn man sich dann noch mit interessanten und inspirierenden Menschen umgibt, von denen man noch mehr lernen kann, bin ich zuversichtlich, dass man eine tolle Arbeitszeit haben wird.

Data Driven Thinking

Daten gelten als vierter Produktionsfaktor – diese Erkenntnis hat sich mittlerweile in den meisten Führungsetagen durchgesetzt. Während das Buzzword Big Data gerade wieder in der Senke verschwindet, wird nun vor allem von der Data Driven Company gesprochen, oder – im Kontext von I4.0 – von der Smart Factory.
Entsprechend haben die meisten Konzerne in den Aufbau einer Big-Data-Infrastruktur investiert und auch die größeren Mittelständler beginnen allmählich damit, einen Anfang zu setzen. Für den Anfang bedarf es jedoch gar nicht erst eine neue IT-Infrastruktur oder gar eine eigene Data Science Abteilung, ein richtiger Start zum datengetriebenen Unternehmen beginnt mit dem richtigen Mindset – ein Bewusst sein für Datenpotenziale.

Data Driven Thinking

Auch wenn es spezielle Lösungsanbieter anders verkaufen, ist nicht etwa eine bestimmte Datenbank oder eine bestimmte Analysemethodik für die Bewerkstelligung der Digitalisierung notwendig, sondern die datengetriebene Denkweise. In den Datenbeständen der Unternehmen und jenen aus weiteren bisher unerschlossenen Datenquellen stecken große Potenziale, die erkannt werden wollen. Es ist jedoch nicht notwendig, gleich als ersten Schritt jegliche Potenziale in Daten erkennen zu müssen, denn es ist viel hilfreicher, für aktuelle Problemstellungen die richtigen Daten zu suchen, in denen die Antworten für die Lösungen stecken könnten.

Data Driven Thinking oder auch kurz Data Thinking, wie angeblich von einem der ersten Chief Data Officer als solches bezeichnet und auch von meinem Chief Data Scientist Kollegen Klaas Bollhoefer beworben, ist die korrekte Bezeichnung für das richtige Mindset, mit dem sowohl aktuelle Probleme als auch deren Lösungen aus Daten heraus besser identifiziert werden können. Hierfür braucht man auch kein Data Scientist zu sein, es reicht bereits ein in den Grundzügen ausgeprägtes Bewusstsein für die Möglichkeiten der Datenauswertung – Ein Skill, der zeitnah für alle Führungskräfte zum Must-Have werden wird!

Data Scientists als Design Thinker

Was gerade in Europa vordergründig kritisiert wird: Es treffen traditionelle Denkmuster auf ganz neue Produkte und Dienste, mit immer schnelleren Entwicklungsprozessen und tendenziell kürzeren Lebenszyklen – eine zum Scheitern verurteilte Kombination und sicherlich auch einer der Gründe, warum us-amerikanische und auch chinesische Internetunternehmen hier die Nase vorn haben.

Ein zeitgemäßer Ansatz, der im Produktmanagement bereits etabliert ist und genau dort das letzte Quäntchen Innovationskraft freisetzt, ist Design Thinking. Dabei handelt es sich um einen iterativen Ideenfindungs und -validierungsprozess, bei dem die Wünsche und Bedürfnisse der Anwender durchgängig im Fokus stehen, im Hintergrund jedoch steht ein interdisziplinäres Team, dass ein Geschäftsmodell oder einen Geschäftsprozess unter Berücksichtigung des Kundenfeedbacks designed. Nutzer und Entwickler müssen dabei stets im engen Austausch stehen. Erste Ideen und Vorschläge werden bereits möglichst früh vorgestellt, damit bereits lange vor der Fertigstellung das Feedback der Anwender in die weitere Realisierung einfließen kann. Somit orientiert sich die gesamte Entwicklungsphase am Markt – Zu spät erkannte Fehlentwicklungen und Flops lassen sich weitgehend vermeiden. Design Thinker stellen dem Nutzer gezielte Fragen und analysieren dessen Abläufe (und nichts anderes tut ein Data Scientist, er beobachtet seine Welt jedoch viel umfassender, nämlich über jegliche zur Verfügung stehende Daten).

Der Design Thinking Prozess führt crossfunktionale Arbeitsgruppen durch  sechs  Phasen:

In der ersten Phase, dem Verstehen, definiert die Arbeitsgruppe den Problemraum. In der darauffolgenden Phase des Beobachtens ist es entscheidend, die Aktivitäten im Kontext, also vor Ort, durchzuführen und Anwender in ihrem jeweiligen Umfeld zu befragen. In der dritten Phase werden die gewonnenen Erkenntnisse zusammengetragen. In der nachfolgenden Phase der Ideenfindung entwickelt das Team zunächst eine  Vielzahl von Lösungsoptionen. Abschließend werden beim Prototyping, in der fünften Phase, konkrete Lösungen entwickelt, die in der letzten Phase an den Zielgruppen auf ihren Erfolg getestet werden.

Beim Design Thinking mag es zwar eine grundsätzliche Vorgabe für den Ablauf der Ideenfindung und -erprobung geben – der eigentliche Mehrwert steckt jedoch in der dafür nötigen Denkweise und der Einstellung gegenüber dem Experimentieren sowie die Arbeit in einem interdisziplinären Team.

Data Driven Business Cycle

Data Driven Thinking überträgt diesen Ansatz auf die Mehrwert-Generierung unter Einsatz von Datenanalytik und leistet einen Transfer dieser systematischen Herangehensweise an komplexe Problemstellungen im Hinblick auf die Realisierung dafür angesetzter Big Data Projekte. Design Thinking unter Nutzung von Big Data ist überaus mächtig, wenn es darum geht, kundenorientierte Produkte und Prozesse zu entwickeln. Im Data Driven Business Cycle werden für immer neue Ideen und Fragestellungen:

  1. Daten generiert und gesammelt
  2. Daten gesichert, verwaltet und aufbereitet
  3. Daten analysiert
  4. daraus Erkenntnisse gezogen

Aus diesen sich iterativ kreisenden Prozessen der Datennutzung entsteht ein Data Pool (oftmals auch als Data Lake bezeichnet), der immer wieder zum für die Beantwortung von Fragen genutzt werden kann.

Prinzipien des maschinellen Lernen verstehen lernen

Data Driven Thinking entsteht mit dem Bewusstsein für die Potenziale, die in Daten liegen. Noch wirkungsvoller wird diese Denkweise, wenn auch ein Bewusstsein für die Möglichkeiten der Datenauswertung vorhanden ist.

„Kinder, die heute nicht programmieren können, sind die Analphabeten der Zukunft.“ schimpfte Vorzeige-Unternehmer Frank Thelen kürzlich in einer Politik-Talkrunde und bekräftigte damit meine noch davor verkündete Meinung “Karriere ohne Programmier-Erfahrung wird nahezu undenkbar”, denn “Systeme der künstlichen Intelligenz werden in der Zukunft unseren Einkauf und die Warenlieferung übernehmen, unsere Autos fahren, unsere Buchhaltung erledigen, unser Geld optimal auf den Finanzmärkten anlegen und unsere Krankheiten frühzeitig diagnostizieren und die bestmögliche medizinische Behandlung vorgeben.”

Jetzt muss niemand zum Experten für die Entwicklung künstlicher Systeme werden, um hier schritthalten zu können. Ein grundsätzliches Verständnis von den unterschiedlichen Prinzipien des maschinellen Lernen kann jedoch dabei helfen, solche Systeme und die dazugehörigen Chancen und Risiken besser einschätzen zu können, denn diese werden uns in Alltag und Beruf vermehrt begegnen, dabei einen entscheidenden Einfluss auf den Erfolg des Data Driven Business ausüben.

 

Interview – OTTO auf dem Weg zum intelligenten Echtzeitunternehmen

Interview mit Dr. Michael Müller-Wünsch über die Bedeutung von Data Science für den Online-Handel

cio-mueller-wuensch-interviewDr. Michael Müller-Wünsch ist seit August 2015 CIO der OTTO-Einzelgesellschaft in Hamburg. Herr Müller-Wünsch studierte die Diplom-Studiengänge Informatik sowie BWL mit Schwerpunkt Controlling an der TU Berlin. In seinen Rollen als IT-Leiter und CIO wurde er mehrfach für seine Leistungen ausgezeichnet und gilt heute als eine der erfahrensten Führungskräfte mit explizitem Know How in der Nutzung von Big Data für den eCommerce.

Data Science Blog: Herr Dr. Müller-Wünsch, welcher Weg hat Sie bis in den Bereichsvorstand von OTTO geführt?

Mein Weg wurde sicherlich bestimmt durch meine große Begeisterung für Technologie und Innovationen. Dazu habe ich als Sohn eines Textileinzelhändlers früh einen Sinn für Kundenorientierung entwickelt. Bei OTTO, dem größten deutschen Onlinehändler für Fashion und Lifestyle, kann ich nun beides optimal zusammenbringen und die digitale Transformation des Unternehmens weiter vorantreiben.

Data Science Blog: Viele reden heute von einer datengetriebenen Unternehmensausrichtung. Was ist Ihre Version von einer Data-Driven Company?

Mein Ziel ist es, OTTO zum intelligenten Echzeitunternehmen zu machen. Damit meine ich eine Organisation, die sich durch selbst lernende Algorithmen ständig weiterentwickelt und verbessert und Kundenerwartungen in jedem Augenblick sofort erfüllen kann. Ohne zeitraubende Batchverarbeitungsprozesse und ohne Medienbrüche.

Data Science Blog: Welche Rolle sehen Sie für Big Data Analytics für den Einzelhandel?

Predictive Analytics helfen uns beispielsweise maßgeblich dabei, Artikelabsatzprognosen zu erstellen und zu antizipieren, wie oft ein bestimmter Artikel morgen nachgefragt werden wird. Das erhöht die Lieferbereitschaft und vermeidet Lagerüberhänge – ist also gut für beide Seiten, für unsere Kunden und für unser Unternehmen. Darüber hinaus geht es heute immer stärker darum, das Onlinemarketing datenbasiert intelligent auszusteuern und den Kunden ein maximal relevantes Angebot auf otto.de zu präsentieren.

Data Science Blog: Für den deutschsprachigen Raum gilt Otto als Händler „am weitesten voraus“ in Sachen Big Data. Sehen Sie Ihren größten Wettbewerb eher im Silicon Valley?

In Zeiten des E-Commerce müssen wir den Wettbewerb in alle Richtungen beobachten. Wir müssen permanent damit rechnen, dass sich das Marktumfeld und das Kundenverhalten ändern. Das ist immer schwerer vorherzusehen. Mehr denn je kommt es deshalb darauf an, sich flexibel aufzustellen, um schnell reagieren zu können.

Data Science Blog: In Sachen Datenschutz gibt es auf politischer Ebene sowohl Bestrebungen zur Verschärfung als auch zur Lockerung der Gesetzgebung. Als Einzelhändler arbeiten Sie sehr viel mit personenbezogenen Datenbeständen, wie sehr werden Sie bei Ihrer Arbeit eigentlich durch gültige Datenschutzgesetze eingeschränkt?

Das Vertrauen der Kunden hat für uns allerhöchste Priorität, deshalb ist es für uns selbstverständlich, sehr sorgsam mit Daten umzugehen. Wir setzen dabei konsequent auf Transparenz und Selbstbestimmung. Das heißt, dass wir unseren Kunden keine Mehrwerte vorenthalten möchten, die durch moderne Technologien möglich werden und das digitale Shopping-Erlebnis bereichern können. Wir erklären im Shop aber ausführlich, was wir tun, und bieten auch die Möglichkeit, bestimmte Features zu deaktivieren.

Data Science Blog: Wofür nutzt Otto Big Data und Data Science eigentlich genau?

Wir verfolgen bei OTTO einen so genannten 360°-Ansatz: Unser Ziel ist es, die Kunden auf ihrer gesamten Customer Journey zu begleiten und bestenfalls in Echtzeit mit ihnen zu interagieren –  von der ersten Informationsrecherche bis hin zur Lieferung; und das über alle Kanäle und Touchpoints hinweg. Anhand von anonymisierten Daten aus jedem dieser Kundenkontaktpunkte können wir dann Leistungen entwickeln und gute Geschäftsentscheidungen treffen, um damit Umsatz- und Ergebnispotentiale zu erschließen. Ich möchte hier aber gar nicht vorgreifen: Mein Kollege Thomas Schlüter, IT-Bereichsleiter Business Intelligence bei OTTO, wird darüber auf dem Data Leader Day am 17. November in Berlin ausführlich sprechen.

Data Science Blog: Big Data, Data Science, Business Intelligence und viele Begriffe mehr – Grenzen Sie hier ab oder wie lautet Ihr internes Wording?

Big Data verstehe ich als den Rohstoff, den wir uns mithilfe von Business Intelligence als Fachdisziplin erschließen und nutzbar machen. Innerhalb der BI arbeiten wir dann sowohl mit Analytics Methoden als auch mit Data Science Modellen für komplexere und oftmals prognostische Fragestellungen.

Data Science Blog: Aktuell scheint der Trend hin zum Data Lab zu gehen. Finden die Analysen nur in solchen Labs oder eher in den konkreten Fachbereichen statt?

Bei OTTO ist die BI gleich in zwei Vorstandsbereichen verankert: Im Vertrieb bei meinem Kollegen Marc Opelt und bei mir in der Technologie. Das sagt schon einiges über die stetig steigende Bedeutung aus. Wir sind davon überzeugt, dass der Schlüssel zum Erfolg in der partnerschaftlichen Zusammenarbeit zwischen Fachbereich und IT liegt und sich das Thema auch immer weiter in die Fachbereiche hinein entwickeln wird. Aktuell arbeiten wir beispielsweise an einer zukunftsweisenden neuen BI-Plattform, die wir BRAIN nennen – das funktioniert einfach nur bereichsübergreifend im Team.

Data Science Blog: Ihre Investitionen in diese neuen Technologien und Methoden sind recht hoch. Wie ist die Erwartung für den Break-Event-Point?

Als wir im März dieses Jahres die Wachstumszahlen der OTTO-Einzelgesellschaft vorgestellt haben, hat Alexander Birken es im Ausblick auf den Punkt gebracht: Wir haben uns in den vergangenen Jahren kontinuierlich eine sehr robuste Wirtschaftskraft erarbeitet. Insofern können wir es uns im wahrsten Sinne des Wortes leisten, die Investitionsgeschwindigkeit weiter spürbar zu erhöhen und damit die Zukunft von OTTO zu gestalten. Vor allem die technologischen Wachstumsbereiche werden weiter konsequent vorangetrieben.

Data Science Blog: Ihr Engagement für Big Data zeigt sich auch in den Jobportalen, dabei unterscheiden Sie die Jobprofile auch z. B. nach Data Scientist und Date Engineer. Welche Art von Mensch suchen Sie für Ihre zukünftigen Umsetzungen? Eher den introvertierten Nerd oder den kommunikationsstarken Beratertyp?

Ich glaube, wir brauchen vor allem Menschen, die Spaß haben an Veränderung und die im Sinne des Unternehmenserfolgs ganzheitlich denken, bis zum Konsumenten da draußen.


Anmerkung der Redaktion: Welche Potenziale das Unternehmen OTTO aus Daten nutzbar macht und mit welchen Methoden und Technologien die BI bei OTTO arbeitet, erfahren Sie am 17. November beim Data Leader Day in Berlin.

Data Leader Guide – Call for Papers

Connected Industry e. V., der Verband für Digitalisierung und Vernetzung, sammelt wegweisende Anwendungsfälle rund um Digitalisierung und Data Science und fasst diese in einem Leitfaden zusammen, dem Data Leader Guide 2016.

data-leader-guide-cover

Welche Inhalte kommen in den Data Leader Guide?

Der Data Leader Guide konzentriert sich auf Anwendungsfälle aus dem deutschsprachigen Wirtschaftsraum D/A/CH. In diesem Data Leader Guide werden vornehmlich die praktisch umgesetzten Use Cases / Business Cases von Anwender-Unternehmen aus den Branchen Industrie/Produktion, Dienstleistungen, Finanzen und Handel praxisorientiert beschrieben.

Was ist das Ziel des Data Leader Guide?

Anhand greifbarer Erfahrungswerte soll Entscheidern, Entwicklern und sonstigen Interessenten eine Orientierung und der Zugang zu dieser komplexen Materie erleichtert werden. Von besonderem Nutzen ist dabei der branchenübergreifende Blickwinkel des Leitfadens, da der Wissenstransfer von anderen Industrien gerade bei Big Data nicht hoch genug eingeschätzt werden kann.

Wann wird der Data Leader Guide 2016 erscheinen?

Pünktlich zum Data Leader Day am 17. November 2016. Die Ausgaben werden als Druckversion sowie als digitale Version erscheinen.

Warum sollte Ihre Anwendungsfall bzw. Projekt nicht fehlen?

Ihr Projekt wird zum Aushängeschild für die Innovationskraft und des Fortschritts Ihres Unternehmens. Darüber hinaus unterstreicht es die Attraktivität Ihres Unternehmens für qualifizierten Nachwuchs aus dem IT- und ingenieurswissenschaftlichen Bereich. Schließlich ist die Aufnahme Ihres Anwendungsfalles in den Data Leader Guide eine der seltenen Möglichkeiten, diesen auch öffentlich zu präsentieren und somit die Leistung des gesamten Projekt-Teams zu würdigen.

Call for Papers

So bringen Sie Ihren Anwendungsfall in den Data Leader Guide:

Sie sind Geschäftsführer, CIO oder ein Mitarbeiter mit Verantwortung für ein Projekt mit starkem Bezug zur Digitalisierung, Big Data, Data Science oder Industrie 4.0? Dann sollten Sie Ihr Projekt für einen Eintrag in den Data Leader Guide von Connected Industry bewerben. Genauere Informationen, wie Sie Ihren Anwendungsfall (Use Case / Business Case) in den Data Leader Guide 2016 bringen, finden Sie über diesen Direktlink zum Connected Industry e.V.

Data Leader Day

Unser Event für Big Data Anwender – Data Leader Day

Mit Stolz und Freude darf ich verkünden, dass wir ausgehend von unserer Data Science Blog Community den Data Leader Day am 17. November in Berlin maßgeblich mitorganisieren werden!

Der große DataLeaderDay am 17. November 2016 in Berlin bringt das Silicon Valley nach Deutschland. Die Konferenz fokussiert dabei auf die beiden Megatrends in der Digitalwirtschaft: Data Science und Industrie 4.0. Erleben Sie auf dem Data Leader Day was jetzt möglich ist – von Pionieren und hochrangigen Anwendern.
dataleaderday-teilnehmer-logos

www.dataleaderday.com

Ein vielfältiges Programm mit Keynote, Präsentationen sowie Use & Business Cases zeigt Ihnen aus der Praxis, wie Sie die Digitalisierung im Unternehmen umsetzen und als neues Wertschöpfungsinstrument einsetzen können. Und das Wichtigste: Sie erleben, welche Wettbewerbsvorteile Sie mit diesen Technologien verwirklichen können. Der Networking-Hub bietet zudem viele Möglichkeiten um Spitzenkräfte zu treffen und um sich über neueste Technologien, Methoden und Entwicklungen auszutauschen.

Zielgruppe – und was Euch erwartet

Auf dem Event werden Entscheider in Führungsposition ihre erfolgreichen Big Data & Data Science Anwendungen präsentieren. Es wird für unterschiedliche Branchen und Fachbereiche viele Erfolgsstories geben, die Mut machen, selbst solche oder ähnliche Anwendungsfälle anzugehen. Ihr werdet mit den Entscheidern networken können!

– Persönliche Vermittlung für ein Karrieregespräch gesucht? Sprecht mich einfach an! –

Unser Data Leader Day richtet sich an Führungskräfte, die von der Digitalisierung bereits profitieren oder demnächst profitieren wollen, aber auch an technische Entwickler, die neue Impulse für erfolgreiche Big Data bzw. Smart Data Projekte mitnehmen möchten. Das Event ist exklusiv und nicht – wie sonst üblich – von Vertrieblern zum Verkauf designed, sondern von Anwendern für Anwender gemacht.

Ort, Programm und Agenda

Aktuelle Informationen zum Event finden sich auf der Event-Seite: www.dataleaderday.com

 

 

Interview – Erfolgreiche Big Data Projekte mit DataLab

dr-susan-wegnerDr. Susan Wegner ist seit 2011 Vice President für den Bereich Smart Data Analytics & Communication und Leiterin des DataLabs bei den T-Labs in Berlin (Telekom Innovation Laboratories), einer eigenen Abteilung für Research & Development für Big Data Projekte. Die promovierte Informatikerin war zuvor Leiterin bei der T-Systems für Services and Platforms und ist auch in der universitären Welt der Datenwissenschaften international sehr gut vernetzt.

Data Science Blog: Frau Dr. Wegner, welcher Weg hat Sie bis an die Analytics-Spitze der Deutschen Telekom geführt?

Ich studierte Informatik an der TU-Berlin und schrieb meine Doktorarbeit im Bereich des maschinellen Lernens (Machine Learning) für die digitale Bildsegmentierung. Dabei werden Mustererkennungsalgorithmen (Pattern Recognition) eingesetzt, um Bilderkennung zu ermöglichen, ein Thema, dass u.a. durch Augmented Reality immer bedeutender wird.

Ich bin daher recht früh an dem Thema der Datenverarbeitung und Mustererkennung dran gewesen. Vor etwa drei Jahren hatte unser Vorstand zwar noch kein klares Bild von Big Data, aber der Konzern suchte neue Speerspitzen, die die Themen vorantreiben. Mein Einstieg zu dieser Position gelang mir über die ersten Projekte mit Big Data Analytics: Algorithmen für datengetriebene Empfehlungssysteme (Recommendation Systems).

Für mich war mein Weg bis hierher tatsächlich auch eine Lebenslektion, die besagt, dass es sich lohnen kann, früh in neue Themen einzusteigen und dann auch dabei zu bleiben, um sich permanent verbessern zu können.

Data Science Blog: Als Leiterin des DataLabs, ein Datenlabor der Telekom, setzen Sie Big Data Projekte nachweisbar erfolgreich um. Was ist eigentlich ein DataLab?

Ein DataLab ist ein eigener physischer Unternehmensbereich, indem Datenbestände verknüpft, explorativ analysiert und neue Anwendungsfälle (Use Cases) gefahrlos erprobt werden können. Gefahrlos bedeutet in diesem Kontext, dass erstens die Sicherheit der Daten und die legitime Nutzung der Daten gewährleistet ist. Es bedeutet aber auch, dass wir raus aus dem meist engeren Horizont der Fachbereiche kommen, so dass die Daten und Möglichkeiten in einem neuen Licht betrachtet werden können.

In einem DataLab kombinieren wir die IT-technische Sicht mit der Kunden- und Business-Sicht. Die meisten Big Data Projekte sind äußerst interdisziplinär und das dafür nötige interdisziplinäre Team können wir so kompromisslos nur als DataLab aufstellen.

Data Science Blog: Könnten die Projekte nicht einfach in den jeweiligen Fachbereichen direkt umgesetzt werden? Oder in der zentralen Unternehmens-IT-Abteilung?

Jeden Anwendungsfall betrachten wir im DataLab im interdisziplinären Team aus der Kunden-, Business- und IT-Perspektive.

Wir möchten in einem DataLab Anwendungsfälle schnell auf ihre Machbarkeit hin prüfen und auch in die Praxis umsetzen. Dafür brauchen wir nicht nur technische Lösungen. Zu Beginn arbeiten wir viel mit Design Thinking und im engen Austausch mit unseren Kunden bzw. deren Fachbereichen. Ist der Anwendungsfall entwickelt, geht die Entwicklung schnell in die IT-technische Phase.

Die Unternehmens-IT hat in der Regel eher eine administrative Sicht und kann die IT-Ressourcen nicht flexibel genug bereitstellen. Gerade die Prototypen-Entwicklung bedarf einer gewissen Flexibilität der IT-Infrastruktur und eine gesicherten Umgebung. In einem externen DataLab, entkoppelt von den Produktivsystemen können wir mit der IT-Infrastruktur und auch mit den Analyseverfahren experimentieren. Die schwierig zu findenden Fachkräfte dafür sind meistens begeistert von den abwechslungsreichen Arbeitsplätzen, denn sie können hier ihre Kenntnisse und Kreativität voll einbringen. Dadurch können wir jedes Proof of Concept einer Analysemethodik oder eines Anwendungsfalls binnen weniger Wochen realisieren.

Und nicht zu vergessen: In einem DataLab gibt es keine Denkverbote. Ich beobachtete häufig, dass gerade junge Wissenschaftler und kreative Köpfe den etablierten Fachkollegen relativ kritische Fragen gestellt haben, die im Fachbereich niemals gestellt werden. In einem Datenlabor können wir hinterfragen und Betriebsblindheit entkräften.

Nur in einem DataLab können wir die Kreativität erbringen, die für die vielen Erfolge notwendig ist. Mit meinen Teams habe ich bereits mehr als 20 Big Data Projekte erfolgreich umgesetzt, allerdings bezeichnen wir uns auch deshalb als ein „Lab“, weil wir viele Experimente wagen und da muss im Sinne von „Fail fast“ auch mal ein Fehlschlag erlaubt sein.

Data Science Blog: Warum sollten Unternehmen auf unternehmensexterne Datenlabore wie die der T-Labs setzen?

In unseren T-Labs verfügen wir über viel Erfahrung aus unterschiedlichsten Projekten. Darüber hinaus verfügen wir über die Data Science Ressourcen und die IT-Infrastruktur, die von unseren Kunden genutzt werden kann.

Data Science Blog: Sie bearbeiten Anwendungsfälle unterschiedlicher Branchen. Können sich Branchen die Anwendungsfälle gegenseitig abschauen oder sollte jede Branche auf sich selbst fokussiert bleiben?

Meistens bleiben beispielsweise Maschinenbauer, Händler und Banker gerne unter sich und suchen ihre branchenspezifischen Lösungen. Einige Branchen entdecken bestimmte Analysemethoden gerade erst, die in anderen längst gängig sind.

Tritt man jedoch einen Schritt zurück, wird oft sichtbar, dass viele Branchen die gleichen Analysemethoden für ihre jeweiligen Zwecke nutzen und schon früher für sich entdeckt haben könnten, hätten sie nur mal den Blick zu anderen Branchen gewagt.

Data Science Blog: Aus den unüberschaubar vielen Anwendungsfällen herausgegriffen, was sind ihre aktuellen Top-Projekte?

Als wir vor etwa 6 Jahren angefangen haben, behandelten wir vor allem Recommendation Systeme im Bereich Customer Analytics, seitdem sind viele Anwendungsfälle hinzugekommen.

Es gibt sehr viele interessante Projekte. Eines unserer Top-Projekte liegt im Bereich Predictive Maintenance, wo Vorhersagen von Maschinenausfällen bzw. die Optimierung von Wartungsintervallen durch Analyse der Maschinendatenhistorie erreicht werden.  Ein anderes Projekt ist eines aus dem Energiemanagement. Dabei geht es darum, dass wir die Ausfallwahrscheinlichkeit für bestimmte elektrische Leitungen prognostizieren. Durch Analyse der  Auslastungsverläufe des Stromnetzes können wir die Auslastungsgefährdung berechnen und dabei helfen, das Konzept des Smart Grid zu realisieren.

Data Science Blog: Führen Sie auch Telekom-interne Projekte durch?

Ja, wir nutzen unsere internen Projekte auch zur Erprobung unserer eigenen Leistungen, so dass wir unseren Kunden ausgereifte Leistungen anbieten können. Interne Projekte sind u.a. Fraud-Detection und unser eigenes Customer Analytics, um unseren Kunden stets ein sicheres und attraktives Angebot machen zu können.

Ein zurzeit wichtiges internes Projekt ist die Synthetisierung von Daten, das ist ein datenschutzrelevantes Thema. Die Anonymisierung von Daten ist ein essenzielles Thema, denn  unter bestimmten Umständen könnten selbst in anonymen Datenbeständen durch Kombination von gewissen Merkmalen einzelne Personen  wieder identifiziert werden. Deshalb haben wir Algorithmen entwickelt, die statistische Zwillinge aus den Realdaten bilden, aber absolut keinen Bezug mehr zu den Ursprungsdaten ermöglichen.

Data Science Blog: Der Datenschutz scheint den kreativen Umgang mit Daten also ziemlich einzuschränken?

Unser deutscher Datenschutz ist sicherlich nicht übertrieben. Als Telekommunikationsunternehmen müssen wir unsere Kunden vor Datenmissbrauch schützen. Wir haben 60 feste Mitarbeiter, die nur für den Datenschutz zuständig sind und diese sind bei jedem Projekt von Anfang an mit eingebunden.

Aber selbst wenn der Datenschutz eingeräumt ist, müssen die Analysen nicht zwangsweise gut sein. Wir möchten Daten nur dann nutzen, wenn die Kunden auch einen Vorteil davon haben.

Als Deutsche Telekom haben wir darüber hinaus den Vorteil, dass unsere Daten nachweislich ausschließlich in unseren eigenen deutschen Rechenzentren  verbleiben, das heißt sie unterliegen ununterbrochen dem strengen deutschen Datenschutz.

Data Science Blog: Welche Algorithmen und Tools verwenden Sie für Ihre Anwendungsfälle?

Das hängt natürlich ganz von den Anwendungsfällen ab. Selten deckt ein Tool alleine den kompletten Bedarf ab, daher kombinieren wir in der Regel viele Tools miteinander. Als Programmiersprache setzen wir vor allem auf Scala, R und Python. Für die Infrastruktur nutzen wir aktuell die Hadoop Distributionen von Cloudera und Hortonworks, sowie z.B. Storm, Spark, Datameer, KNIME, Flink und als Cloud-Plattform Pivotal, sowie Tableau zur Datenvisualisierung. Wir versuchen uns stets auf wenige Toolanbieter zu einigen, müssen jedoch auch Kompromisse eingehen, da wir in mehreren unterschiedlichen Ländern arbeiten.

Stellen wir fest, dass notwendige Lösungen noch nicht vorhanden sind, realisieren wir diese selber. Daher können wir auch als eigene Lösungsentwickler betrachtet werden.

Data Science Blog: Woher beziehen Sie Ihr technisches Know-How?

Unser DataLab in Berlin besteht aus 12 Mitarbeitern. Wir arbeiten jedoch eng mit unseren Kollegen von T-Systems zusammen und sind selbst ein An-Institut der Technischen Universität Berlin, aus der wir einen Großteil unserer Kompetenz für Machine Learning schöpfen. Wie entwickeln aber auch Systeme mit der Ben-Gurion-University in Israel und der Berkeley University of California.

Außerdem arbeiten wir bei einigen Anwendungen mit Motionlogic zusammen, einer 100%-Tochter der Deutschen Telekom, die in den T-Labs entstanden ist und sich auf fundierte Analysen von Verkehrs- und Bewegungsströmen spezialisiert hat, die auf anonymen Signalisierungsdaten aus dem Mobilfunk- und WiFi-Netz basieren.

Data Science Blog: Wie stellen Sie ein Data Science Team auf? Und suchen Sie für dieses Team eher Nerds oder extrovertierte Beratertypen?

Ich selbst stehe ganz hinter den Nerds, aber für ein gutes Team braucht es eine Kombination. Neben der analytischen Denkweise ist vor allem die Flexibilität, sich auf neue Themen und Teamarbeit einzulassen, sehr wichtig. Nerds bilden sowas wie einen Kern der Data Science Teams und bringen gute Ideen ein, auf die etablierte Geschäftsleute nicht so leicht kommen. Schafft man es, diese Nerds mit den Kollegen aus den Fachbereichen, beim Customer Analytics also die Marketing-Experten, zusammen zu bringen und dass sie sich gegenseitig anerkennen, dann steht dem Erfolg nichts mehr im Wege.

Fortbildungsangebote für Data Science und Data Engineering

Der Artikel “Was macht ein Data Scientist? Und was ein Data Engineer?” ist einer der beliebtesten dieser Plattform und immer wieder werde ich gefragt, wo man sich denn zum Data Scientist oder zum Data Engineer ausbilden lassen kann. Meine Antwort lautet meistens: Mit Selbststudium und Learning-by-Doing kann man sehr viel erreichen!

Es gibt jedoch viele Fortbildungsangebote, die einem Lerner das Lernen zwar nicht abnehmen, dieses jedoch didaktisch aufbereiten und modulweise vermitteln. Diejenigen Angebote, von denen wir von Teilnehmern hören, dass sie tatsächlich ihr Geld oder die Mühe wert sein sein sollen, nehmen wir von nun an in unseren Fortbildungskatalog auf.

[button link=”https://www.data-science-blog.com/ausbildung-fortbildung-studium-data-science/” icon=”link” color=”silver” text=”dark” window=”yes”]Zum Fortbildungskatalog![/button]

Master-Studium

Die beste Möglichkeit, Data Scientist oder Data Engineer zu werden, ist von Anfang an das richtige Studium auszuwählen, am besten bereits den Bachelor-Studiengang darauf ausgerichtet zu haben. Soweit mit bekannt, gibt es aber noch keinen Bachelor-Studiengang direkt für Data Science und das ist auch gut so, denn Data Science würde ich eher als Spezialisierung sehen, im Bachelor-Studium geht es aber um Grundwissen und das lernen von akademischer Methodik. Es gibt jedoch bereits ein breites Angebot an Master-Studiengängen, die direkt auf Data Science oder (Big) Data Engineering abzielen und die gute Nachricht: Diese Master-Studiengänge sind zugänglich für sehr viele Bachelor-Studiengänge, meistens mindestens für Bachelor-Absolventen der Mathematik, Informatik oder Ingenieurwissenschaften und sehr häufig auch für Absolventen der Wirtschafts- und Geisteswissenschaften. Voraussetzung sind meistens nur nachgewiesene Kenntnisse über die Grundlagen der Programmierung und der Statistik. Der diese Master-Studiengänge gerade erst angelaufen sind, der Trend jedoch viele Studierende verspricht, könnte für den Zugang jedoch eine sehr gute Bachelor-Abschlussnote Pflicht werden!

Ein Master-Studium mit Spezialisierung auf Data Science oder Big Data ist mit Sicherheit ein Aushängeschild für den eigenen Lebenslauf und ein Gewinn für die Glaubwürdigkeit, wenn man seine Karriere in der angewandten Datenwissenschaft plant.

Zertifikate – Frontalunterricht und Online-Kurse

Für wen ein Master-Studium irgendwie zu spät oder aus anderen Gründen nicht infrage kommt, reine Selbststudium mit einem guten Buch aber auch nicht reicht, kann eines der vielen Fortbildungsangebote mit Aussicht auf ein Zertifikat nutzen. Es gibt diverse Anbieter von Zertifizierungen zum Data Scientist oder Data Engineer.

Einige Angebote finden überwiegend vor Ort beim Anbieter statt, was von vielen Lernern bevorzugt wird, um dem Lernen und den Prüfungen nicht ausweichen zu können. Ein solches Beispiel ist das Zertifikatsprogramm der Fraunhofer ACADEMY.
Es gibt aber weit mehr Angebote, die rein online stattfinden. Meistens wird hier frontal über eine Sammlung von Videos gelehrt. Das wohl bekannteste Angebot an Video-Lehrgängen hat sicherlich Coursera.org.
Einige Anbieter gehen jedoch noch weiter, setzen daher nicht nur auf Videos, sondern vor allem auf richtig gute interaktive Online-Kurse, bei der jede Lektion eine praktische Übung bzw. kleine Prüfung über eine Entwicklungsumgebung in der Cloud darstellt. Solch ein Angebot bietet beispielsweise der interaktive Lehrgang von DataQuest.io.

https://www.data-science-blog.com/ausbildung-fortbildung-studium-data-science/

Interview – Data Science in der FinTech-Branche

Christian Rebernik ist CTO bei Number 26 und zuständig für die technische Entwicklung dieses FinTech-Unternehmens. Er studierte Informatik und Wirtschaftsinformatik und kann auf langjährige Erfahrung als Software-Entwickler zurückgreifen. Seit etwa 2010 war er als CTO und CIO bei diversen eCommerce-christian-rebernikUnternehmen, u.a. bei Immobilien.net (heute ImmobilienScout24), PARSHIP und Zanox, tätig und gilt daher als ein etablierter IT-Manager, der seine Kenntnisse als Mentor des Axel Springer Plug and Play Accelerators weitergibt.

Data Science Blog: Herr Rebernik, wie sind Sie als CTO zum FinTech Number26 gekommen?

Ich durfte die Gründer im Accelerator 2013 als Mentor begleiten. Damals war das Produkt ausgelegt auf Teenager als Zielgruppe. 2014 änderten die Gründer Valentin und Maximilian das Produkt auf Number26, ein mobile-first Gehaltskonto mit Mastercard und der Vision das weltbeste Bankerlebnis zu bieten. Damit hatten sie aus meiner Sicht den richtigen Nerv der Zeit getroffen. Mein Erfahrung mit Banken war nicht positiv bis dato. Number26 hat aus meiner Sicht das Potential Bankwesen zu verändern.

Data Science Blog: Die FinTech-Szene möchte vieles besser machen als traditionelle Banken. Welche Rolle spielt Data Science dabei?

Beim Online-Banking etablierter Banken erhält man meistens nur eine reine Ansicht des Bankkontos, quasi eine statische und nicht kundenorientierte Darstellung des Kontostandes und der Kontotransaktionen. Wir glauben, diese Auflistung ohne Intelligenz ist nicht ausreichend und wenig auf den Kundenutzen fokussiert, mit der heutigen Technik kann man deutlich mehr bieten.
Unser Ziel ist es, eine der besten Customer Experience zu schaffen. Dank moderner Technologien haben wir viele unterschiedliche Möglichkeiten, um das zu erreichen. Eine davon ist es Smart Banking anzubieten, hier kommt Data Science ins Spiel.

Data Science Blog: Wofür nutzt Number26 Data Science genau?

Wir starten in Sachen Data Science jetzt erst voll durch. Unser erster Data Scientist wurde letztes Jahr im Oktober eingestellt. Unser Team ist also noch im Aufbau. Aktuell steht die sichere und number26appautomatisierte Kategorisierung von Finanztransaktionen bei uns im Fokus. Damit bieten wir den Nutzern leicht verständliche und genaue Auswertungen ihrer finanziellen Situation sowie eine Übersicht ihrer Einnahmen und Ausgaben. Interessanterweise gibt es unseres Wissens nach noch keine Bank, die Transaktionen direkt für den Kundennutzen kategorisiert.
Abhängig von der Transaktionsart nutzen wir unterschiedliche Methoden des maschinellen Lernens, die wir für die Erkennung der übergeordneten Kategorie verwenden.

Data Science Blog: Welche Machine Learning Methoden kommen zum Einsatz? Und wo finden die Analysen statt?

Wir haben mehrere ML-Methoden ausprobiert und durch eine Prototyping-Phase hinsichtlich ihrer Treffgenauigkeit bewertet. Wir setzen auf Amazon Webservices (AWS) und nutzen das Amazon Machine Learning Framework, auf dem wir auch unsere Modelle testen und Algorithmen erstellen. Der Input ist beispielsweise eine Kontotransaktion.
Unsere Algorithmen versuchen dieses dann zu kategorisieren. Daraus gewinnen wir zusätzliche Informationen, die wir unseren Kunden als Mehrwert anbieten.
Handelt es sich um eine Peer-to-Peer-Transaktion, wenn beispielsweise ich einem Freund Geld überweise, parsen wir den Verwendungszweck und nutzen Textmustererkennung zur Kategorisierung der Überweisung. Dazu splitten wir den Überweisungstext in einzelne Wörter auf, deren Bedeutung über Wörterbücher erkannt werden. Dadurch entstehen Kategorien, die vom Nutzer auch manuell nachträglich geändert werden können. Dieses Nutzerfeedback fließt in den Algorithmus zurück und wird in zukünftige Kategorisierungen mit einbezogen. Wir arbeiten nach mehreren Experimenten nun vermehrt mit Vector Spacing Modellen, wie dem k-Nearest-Neighbour-Algorithmus, über zurzeit 12 Achsen (Vektordimensionen). Jeder Vektor stellt eine Eigenschaft einer Transaktion dar, beispielsweise Geldbetrag, Verwendungszweck, Empfänger oder Währung. Je näher die Eigenschaften, die im Vektorraum als Punkte dargestellt werden, an den Eigenschaften anderer Finanztransaktion im selben Vektorraum liegen, desto wahrscheinlicher ist die Gemeinsamkeit als Kategorie.
Natürlich gibt es immer wieder False-Positives, die die eigentliche Herausforderung in Data Science darstellen. Beispielsweise lassen sich seltene Transaktionen wie die Zahnarztrechnung nur schwer trainieren. Wir trainieren unsere Kategorisierung der Banktransaktionen unter Einbeziehung der MasterCard-Kreditkartentransaktionen. Alle Vertragspartner bei MasterCard müssen einige Angaben mahcen, z.B. welche Art von Händler sie sind, Das hilft natürlich bei der Kategorisierung.

Data Science Blog: Der Beruf des Data Scientist wurde schon öfter als„Sexiest Job des 21. Jahrhunderts“ zitiert, gilt das auch in der Finanzindustrie?

Wir als FinTech-Unternehmen sind technologiegetrieben und in unserer Branche macht es wirklich Spaß, Probleme des Finanzalltags zu lösen. Neue Lösungen anzubieten, auf die vorher noch niemand gekommen ist, ist zwar nicht jedermanns Sache, unser Schlag Menschen entwickelt aber genau dafür die größte Leidenschaft.

Data Science Blog: Was sind Ihrer Meinung nach die alltäglichen Aufgaben eines Data Scientists und welche Skills sollte ein Data Scientist dafür mitbringen?

Die Arbeit als Data Scientist ist meines Erachtens dreigeteilt: ein Drittel Datenaufbereitung, ein Drittel Software-Entwicklung und ein Drittel Analyse.
Zum ersten Drittel gehört die Sichtung der Daten und Identifikation der Datenqualität. Ein Data Scientist muss aber auch Software-Entwickler sein und ein Verständnis für Software-Architekturen mitbringen. Große Datenmengen lassen sich nur über skalierbare Anwendungen auswerten. Wichtige Hilfsmittel und Testumgebungen müssen dafür selbst entwickelt werden.
Für die Analyse ist ein gutes Verständnis von Mathematik unumgänglich. Hinzu kommt ein ausgezeichnetes Verständnis für das Kerngeschäft des Unternehmens, in unserem Fall das Finanzwesen, um dementsprechend relevante Analysen durchzuführen.

Interview – Advanced Data Science in der Finanz- und Versicherungsbranche

Dr. Andreas Braun von der Allianz SE spricht exklusiv mit dem Data Science Blog über die Bedeutung von Data Science in der Finanz- und Versicherungsindustrie und was er von einem guten Data Scientist erwartet.

dr-andreas-braunDr. Andreas Braun ist Head of Global Data & Analytics bei der Allianz SE in München. Der promovierte Informatiker von der TU München begann seine Karriere als Berater bei Accenture, leitete danach verschiedene Abteilungen für Analyse und Digitalisierung und zuletzt den globalen Geschäftsbereich Business Applications bei der GfK SE. Er gilt heute als eine der erfahrensten Führungskräfte mit explizitem Know How in der Nutzung von Data & Analytics.

Data Science Blog: Herr Dr. Braun, welcher Weg hat Sie bis an die Analytics-Spitze der Allianz SE geführt?

Als Informatiker kam ich über Software-Entwicklung und Verteilte Systeme zur Datenanalyse. Schon während des Studiums war ich Mitbegründer einer Software-Firma, die Bildverarbeitungs- und Analyse-Software entwickelte. Der Schwenk hin zur Entwicklung von Systemen künstlicher Intelligenz kam während der Promotion an der TUM, insbesondere, da mein Doktorvater erst kürzlich von der Carnegie Mellon University (CMU) dorthin gewechselt hatte. (An der CMU wurde der Begriff Künstliche Intelligenz ja ursprünglich geprägt.) Dadurch hatte ich mir Schwerpunkte auf global verteilte Systeme und Künstliche Intelligenz gesetzt. Nach meinem akademischen Ausbildungsweg war ich dann in der Unternehmensberatung und später in der Marktforschung tätig. Als Global Head für Business Applications bei der GfK SE, der Gesellschaft für Konsumforschung, haben wir bereits 2011 auf Big Data Technologien, wie Hadoop und NoSQL,  gesetzt.

Als die Allianz sich auf Gruppenebene verstärkt im Bereich Digitalisierung und somit auch Data Analytics und Data Science aufstellte und konsequent ein eigenes Data & Analytics Team aufbaute, kam für mich die Gelegenheit zum Wechsel nach München. Seit Mai 2014 leite ich nun Global Data & Analytics (GD&A) bei der Allianz SE und setze vor allem auf Leute, die bereits Data Analytics und Data Science Expertise mitbringen, oft auch von außerhalb der Finanz- und Versicherungsindustrie.

Data Science Blog: Welche Rolle sehen Sie für Big Data Analytics in der Finanz- und Versicherungsbranche?

Aus meiner Sicht ist sogenannte „Big Data“ Technologie, also verteilte Systeme, neue Datenbanken usw., die eigentliche Maschinerie hinter der Digitalisierung. Es gibt zunehmend viele „Frontends“, also z. B. Benutzeroberflächen, (mobile) Geräte und Sensoren, für Anwender, mit denen Daten generiert werden. Webseiten, Apps, Smartphones und Connected Cars sind für sich gesehen jedoch noch nicht besonders intelligent und somit eingeschränkt nützlich. Die wirklich nutzbringende Intelligenz basiert auf Kontext, Daten und Analytics und ergibt sich erst durch die Vernetzung unzähliger Einzelkomponenten über Data Analytics Systeme. Auf dieser Basis lassen sich dann neue und digitale Geschäftsmodelle fördern.

Viele der heute gängigen Anwendungsfälle sind vielleicht von der Grundidee her manchmal ein alter Hut, lassen sich durch die jetzt verfügbare Technologie aber deutlich besser oder gar erstmalig lösen. Beispielsweise betreibt die Allianz Betrugserkennung schon sehr lange. Mittlerweile lassen sich jedoch komplexe oder gar organisierte Betrugsnetzwerke mit Ansätzen wie maschinellem Lernen (Machine Learning) und Graphen-Datenbanken sehr viel schneller, deutlich zuverlässiger und auch noch kostengünstiger aufdecken. Dadurch entstand bereits ein erheblich messbarer Vorteil für die Versichertengemeinschaft!

Data Science Blog: Wie arbeitet das Data & Analytics Team?

Im Data & Analytics Team werden daten-getriebene und analytische Anwendungsfälle („Use Cases“) pilotiert, prototypisch umgesetzt, methodisch validiert und auf unserer Referenzarchitektur („Stack“) aufgesetzt.

Ich glaube, die Data Scientists fühlen sich hier wohl, da wir für die unterschiedlichsten Fachbereiche und Landesgesellschaften tätig werden, die über große und sehr variantenreiche Datenquellen verfügen und sehr vielseitige Problemstellungen mitbringen. Abwechslung sowie beständiges Lernen sind somit garantiert. Für die Fachbereiche bieten wir alles aus einer Hand und geben einen schnellen Einstieg in die produktive Nutzung von großen und verteilten Datenbeständen.

Wir fühlen uns eigentlich fast wie ein eigenes Start-Up innerhalb des Konzerns und haben unsere eigene Infrastruktur. Das gibt uns Geschwindigkeit und Flexibilität bei gleichzeitig höchsten Standards für Sicherheits- und Datenschutz.

Data Science Blog: Finden die Analysen nur in Ihrem Team oder auch in den Fachbereichen statt?

Die Projekte werden in der Regel bei uns zentral durchgeführt, werden dabei aber meist vom Fachbereich angestoßen. Wir arbeiten dabei mit den jeweiligen Kollegen Hand in Hand. Die Fachbereiche sind stets eingeladen, möglichst eng mit uns zusammen zu arbeiten. Natürlich gibt es aber auch Projekte, die zentral ansetzen und im Wesentlichen erstmal von uns allein getrieben werden, insbesondere Themen, die eher R&D sind.

Data Science Blog: In wie weit werden unstrukturierte Daten in die Analysen einbezogen?

Unstrukturierte Daten spielen eine immer größere Rolle. Ich vermute, dass bereits etwa 70% der verwendeten Daten nach Volumen unstrukturiert oder semi-strukturiert sind.

Data Science Blog: Werden diese vollwertig genutzt oder sind diese nur eine Vorstufe, bevor sie in eine strukturierte Datenbank gespeist werden?

Unstrukturierte Daten werden bei uns nicht in eine strukturierte Datenbank überführt. Grundsätzlich belassen wir Rohdaten i.d.R. möglichst unverändert.

Aus technischer Sicht liegt unser Fokus vor allem auf den sogenannten NoSQL-Datenbanken und dazu passenden Datenformaten, wie z. B. großen, flachen Tabellen („Bigtable“), Parquet- und neuen Prozessmodellen, wie Streaming und Microbatches usw. Relationale Datenbanken spielen dabei eine eher untergeordnete Rolle, haben aber natürlich auch weiterhin ihre Berechtigung, beispielsweise für Meta-/ Stammdaten.

Data Science Blog: Die Allianz als Versicherer besitzt personenbezogene Datenbestände, welche Rolle spielt in Ihrer Arbeit der Datenschutz?

Wir befassen uns sehr viel mit IT-Sicherheit, Datenschutz (Data Privacy) und Datenethik. Die rechtlich zulässige Nutzung von Daten setzt für uns den Rahmen jeglicher Aktivitäten. Und während wir in Bezug auf IT-Sicherheit auf erhebliche Erfahrungswerte und Lösungsmuster zurückgreifen können, sind Data Privacy und Datenethik neue Themenkomplexe im Bereich der Datenanalytik, die sehr eng mit der Analyse verknüpft sind. Ich glaube, dass die letztliche Komplexität hierbei noch nicht vollständig erfasst ist, weswegen wir uns auch stark in der Forschung und Entwicklung in diesem Feld engagieren.

So hat die Allianz kürzlich einen Lehrstuhl für „Großskalige Datenanalyse und Maschinelles Lernen“ an der TU-München gestiftet, wovon wir uns u.a. einen Beitrag zur Erörterung entsprechender Fragen zur Datennutzung  erhoffen.

Data Science Blog: Welche Art von Data Scientists suchen Sie für Ihre zukünftigen Umsetzungen?

Data Scientists können bei uns abwechslungsreich arbeiten und für verschiedene Projekte unterschiedliche Rollen einnehmen und daran wachsen. Unsere Kollegen haben vorwiegend einen ingenieur- oder naturwissenschaftlichen Hintergrund, vor allem Informatiker, Physiker, Mathematiker und Statistiker, aber auch beispielsweise Psychologen.

Data Science Blog: Suchen Sie eher den introvertierten Nerd oder den kommunikationsstarken Beratertyp?

Wir suchen vor allem Hardcore Data Scientists, dazu gehören für mich eher die Naturwissenschaftler. Für uns ist Data Science programmatisch, also ganz klar abgegrenzt von „Klick“-orientierter Business Intelligence. Im Data Science kommen verschiedene Tools und Programmiersprachen zum Einsatz. Die meisten Data Scientists sind zwar keine Software-Entwickler, aber dennoch werden die Aufgaben im Kern durch Programmierung unter Einsatz von statistischen Verfahren und Methoden des maschinellen Lernens gelöst. Von einem Data Scientist erwarte ich darüber hinaus, dass die Qualität eines Modells nicht nur bloß eingeschätzt, sondern auch methodisch fundiert belegt werden kann.

Auf der anderen Seite haben wir auch Business Analysts, die vor allem in der Koordination der Use Cases eingesetzt werden. Ein Business Analyst versteht den Businesskontext und den Geschäftszweck von Daten und Analysen, unterstützt im Projektmanagement und kümmert sich um die Kommunikation und Implementierung in den Fachbereichen.

Data Science Blog: Unterscheiden Sie in Ihrem Bereich auch zwischen Data Scientist und Data Engineer?

Ja. In meinem Team arbeiten ungefähr 30% Data Engineers, 60% sind Data Scientists und 10% Business Analysts. Unsere Data Engineers kümmern sich um u.a. den Technologie und Tool-Stack und das Engineering.

Ich denke, viele der momentan kommerziell sehr erfolgreichen Use Cases sind sehr Engineering-lastig, haben also mit Datenhaltung, -transformation, -bewegung und Ausführbarkeit bzw. Anwendung zu tun. Dann spielt dabei Daten und Software Engineering sogar die größere Rolle als Data Science.

Und obwohl wir genau diese Jobtitel, also Data Scientist, Data Engineer und Business Analyst, haben, sind die Grenzen dazwischen fließend. Für unseren agilen Ansatz ist dabei vor allem wichtig, dass alle Mitarbeiter auf Augenhöhe in einem „self-contained“ Team zusammenarbeiten.

Data Science vs Data Engineering

Das Berufsbild des Data Scientsts ist gerade erst in Deutschland angekommen, da kommen schon wieder neue Jobbezeichnungen auf uns zu. “Ist das wirklich notwendig?”, wird sich so mancher fragen. Aber die Antwort lautet ganz klar: ja!

Welcher Data Scientist kennt das nicht: ein Recruiter ruft an, spricht von einer tollen neuen Herausforderung für einen Data Scientist wie man es sich ja offensichtlich auf seinem LinkedIn-Profil für sich beansprucht, doch bei der Besprechung der Vakanz stellt sich schnell heraus, dass man über fast keine der geforderten Skills verfügt. Dieser Mismatch liegt vor allem daran, dass unter den Job des Data Scientist alle möglichen Tätigkeitsprofile, Methoden- und Tool-Wissen zusammengefasst werden, die ein einzelner Mensch kaum in seinem Leben lernen kann.

Viele offene Jobs, die unter der Bezeichnung Data Science besetzt werden sollen, beschreiben eher das Berufsbild des Data Engineers.


english-flagRead this article in English:
“Data Scientist vs Data Engineer – What is the Difference?”


Was macht ein Data Engineer?

Im Data Engineering geht es vor allem darum, Daten zu sammeln bzw. zu generieren, zu speichern, historisieren, aufzubereiten, anzureichern und nachfolgenden Instanzen zur Verfügung zu stellen. Ein Data Engineer, je nach Rang oft auch als Big Data Engineer oder Big Data Architect bezeichnet, modelliert skalierbare Datenbank- und Datenfluss-Architekturen, entwickelt und verbessert die IT-Infrastruktur hardware- und softwareseitig, befasst sich dabei auch mit Themen wie IT-Security, Datensicherheit und Datenschutz. Ein Data Engineer ist je nach Bedarf teilweise Administrator der IT-Systeme und auch ein Software Entwickler, denn er erweitert die Software-Landschaft bei Bedarf um eigene Komponenten. Neben den Aufgaben im Bereich ETL / Data Warehousing, führt er auch Analysen durch, zum Beispiel solche, um die Datenqualität oder Nutzerzugriffe zu untersuchen.

Ein Data Engineer arbeitet vor allem mit Datenbanken und Data Warehousing Tools.

Ein Data Engineer ist tendenziell ein ausgebildeter Ingenieur/Informatiker und eher weit vom eigentlichen Kerngeschäft des Unternehmens entfernt. Die Karrierestufen des Data Engineers sind in der Regel:

  1. (Big) Data Architect
  2. BI Architect
  3. Senior Data Engineer
  4. Data Engineer

Was macht ein Data Scientist?

Auch wenn es viele Überschneidungspunkte mit dem Tätigkeitsfeld des Data Engineers geben mag, so lässt sich der Data Scientist dadurch abgrenzen, dass er seine Arbeitszeit möglichst dazu nutzt, die zur Verfügung stehenden Daten explorativ und gezielt zu analysieren, die Analyseergebnisse zu visualisieren und in einen roten Faden einzuspannen (Storytelling). Anders als der Data Engineer, bekommt ein Data Scientist ein Rechenzentrum nur selten zu Gesicht, denn er zapft Daten über Schnittstellen an, die ihm der Data Engineer bereitstellt.

Ein Data Scientist befasst sich mit mathematischen Modellen, arbeitet vornehmlich mit statistischen Verfahren und wendet sie auf die Daten an, um Wissen zu generieren. Gängige Methoden des Data Mining, Machine Learning und Predictive Modelling sollten einem Data Scientist bekannt sein, wobei natürlich jeder ganz individuell Schwerpunkte setzt. Data Scientists arbeiten grundsätzlich nahe am Fachbereich und benötigen entsprechendes Fachbereichswissen. Data Scientists arbeiten mit proprietären Tools (z. B. von IBM, SAS oder QlikTech) und programmieren Analysen auch selbst, beispielsweise in Scala, Java, Python, Julia oder R.

Data Scientists können vielfältige akademische Hintergründe haben, einige sind Informatiker oder Ingenieure für Elektrotechnik, andere sind Physiker oder Mathematiker, nicht wenige auch Wirtschaftswissenschaftler.

  1. Chief Data Scientist
  2. Senior Data Scientist
  3. Data Scientist
  4. Data Analyst oder Junior Data Scientist

Data Scientist vs Data Analyst

Oft werde ich gefragt, wo eigentlich der Unterschied zwischen einem Data Scientist und einem Data Analyst läge bzw. ob es dafür überhaupt ein Unterscheidungskriterium gäbe:

Meiner Erfahrung nach, steht die Bezeichnung Data Scientist für die neuen Herausforderungen für den klassischen Begriff des Data Analysten. Ein Data Analyst betreibt Datenanalysen wie ein Data Scientist, komplexere Themen, wie Predictive Analytics und Machine Learning bzw. künstliche Intelligenz, sind aber eher was für den Data Scientist. Ein Data Scientist ist sozusagen ein Data Analyst++.

Und ein Business Analyst?

Business Analysten können (müssen aber nicht) auch Data Analysten sein. In jedem Fall haben sie einen sehr starkem Bezug zum Fachbereich bzw. zum Kerngeschäft des Unternehmens. Im Business Analytics geht es um die Analyse von Geschäftsmodellen und Geschäftserfolgen. Gerade die Analyse von Geschäftserfolgen geschieht in der Regel IT-gestützt und da setzen viele Business Analysten an. Dashboards, KPIs und SQL sind das Handwerkszeug eines guten Business Analysten.