Tag Archive for: FinTech

Five ways Data Science is used in Fintech

Data science experts process and act upon data that digital resources produce. In the fintech world, data comes from mobile apps, transactions, conversations and financial standings. With this data for fintech, experts can improve the experience and success of businesses and customers alike.

Apps like PayPal, Venmo and Cash App have led the way for other fintech organizations, big and small, to grow. In fact, roughly 65% of Americans are already using digital banking in some capacity, whether it’s an app or online service. This growth, in turn, brings benefits. From personalization to integrating robotic advisors, here are five ways data scientists help fintech brands.

1. Personalization

Finance is one of the most personal industries out there as it deals with your private accounts and data. To match this uniqueness, fintechs can use data science for personalization. That way, customer service caters to individual needs.

As the fintech company gathers data from individual transactions, communications, behavior and interests, data scientists can then use said data to curate a better experience for the customer. They can advertise products and services that the customer may need to help with savings, for instance.

Contis is one example of a fintech that has integrated personalization into its services. Customers receive specific recommendations to create an efficient experience.

2. Fundraising

Fundraising had an interesting year in 2020. Amid racial justice protests and movements, crowdfunding took off on fintechs like GoFundMe and Kickstarter. These platforms helped provide funding for those who needed it. From here, data scientists can use fundraising in unique ways.

They can help raise money by targeting people who have donated in the past, or who are likely to donate based on spending habits. This data provides a more well-rounded fundraising campaign.

Then, once they do have donors, they can again use data to segment contributors by interest, demographic or engagement history. This segmentation helps advertise in a more personal, interest-specific way.

3. Fraud Detection

Cybercriminals thrive on an abundance of digital interactions. With the rise in digital banking — and the pandemic-driven shift to technology — fintechs could potentially see high rates of fraud. In fact, by the end of 2020, the United States saw about $11 billion in lost funds from credit card fraud alone.

Data for fintech brands will help address and prevent fraud like this in the future. As customers produce data from their transactions and interactions, it provides a better picture of their behavior. If there’s deviance, the data then shows potential fraud may be occurring.

If fraud does occur, data scientists can then use that instance to learn and properly recognize how data behaves during cybercriminal activity.

4. Robo-Advisors

With more people using fintech services, employees have a lot on their hands. They must properly address the customers’ needs and provide solutions. However, in the online world, employees are now getting some robotic assistance.

Robo-advisors use machine learning algorithms to interact with customers online or on mobile apps. They ask questions, understand the problems and provide solutions. They also collect data like customer goals and financial plans, which they can report back to data scientists for analysis.

Overall, roughly 75% and 46% of large and small banks, respectively, are implementing artificial intelligence to some degree. This data-driven revolution is one to keep your eye on.

5. Blockchain Governance

Blockchain governance is a somewhat newer way that experts can use data for fintech services. The blockchain is commonly known for its support of cryptocurrency services. Though crypto assets like Bitcoin and Ethereum are on the rise, the blockchain itself is still getting its footing.

Now, fintechs like PayPal are offering crypto services, which means data scientists will be able to expand what’s possible for digital banking. As customers transfer crypto funds, data scientists can monitor their activity and get a better handle on the data that exists on the blockchain. From there, they can provide personalization and prevent fraud in the same ways as they would with standard digital banking.

A Changing Landscape

As data scientists continue to help fintech services grow, you’ll notice each of these five areas begins to become more common. Some, like personalization and fraud detection, are already key focuses for fintech companies. However, alongside robo-advisor, fundraising and blockchain, they all have room to grow through the use of data science.

Interview: Data Science in der Finanzbranche

Interview mit Torsten Nahm von der DKB (Deutsche Kreditbank AG) über Data Science in der Finanzbranche

Torsten Nahm ist Head of Data Science bei der DKB (Deutsche Kreditbank AG) in Berlin. Er hat Mathematik in Bonn mit einem Schwerpunkt auf Statistik und numerischen Methoden studiert. Er war zuvor u.a. als Berater bei KPMG und OliverWyman tätig sowie bei dem FinTech Funding Circle, wo er das Risikomanagement für die kontinentaleuropäischen Märkte geleitet hat.

Hallo Torsten, wie bist du zu deinem aktuellen Job bei der DKB gekommen?

Die Themen Künstliche Intelligenz und maschinelles Lernen haben mich schon immer fasziniert. Den Begriff „Data Science“ gibt es ja noch gar nicht so lange. In meinem Studium hieß das „statistisches Lernen“, aber im Grunde ging es um das gleiche Thema: dass ein Algorithmus Muster in den Daten erkennt und dann selbstständig Entscheidungen treffen kann.

Im Rahmen meiner Tätigkeit als Berater für verschiedene Unternehmen und Banken ist mir klargeworden, an wie vielen Stellen man mit smarten Algorithmen ansetzen kann, um Prozesse und Produkte zu verbessern, Risiken zu reduzieren und das Kundenerlebnis zu verbessern. Als die DKB jemanden gesucht hat, um dort den Bereich Data Science weiterzuentwickeln, fand ich das eine äußerst spannende Gelegenheit. Die DKB bietet mit über 4 Millionen Kunden und einem auf Nachhaltigkeit fokussierten Geschäftsmodell m.E. ideale Möglichkeiten für anspruchsvolle aber auch verantwortungsvolle Data Science.

Du hast viel Erfahrung in Data Science und im Risk Management sowohl in der Banken- als auch in der Versicherungsbranche. Welche Rolle siehst du für Big Data Analytics in der Finanz- und Versicherungsbranche?

Banken und Versicherungen waren mit die ersten Branchen, die im großen Stil Computer eingesetzt haben. Das ist einfach ein unglaublich datengetriebenes Geschäft. Entsprechend haben komplexe Analysemethoden und auch Big Data von Anfang an eine große Rolle gespielt – und die Bedeutung nimmt immer weiter zu. Technologie hilft aber vor allem dabei Prozesse und Produkte für die Kundinnen und Kunden zu vereinfachen und Banking als ein intuitives, smartes Erlebnis zu gestalten – Stichwort „Die Bank in der Hosentasche“. Hier setzen wir auf einen starken Kundenfokus und wollen die kommenden Jahre als Bank deutlich wachsen.

Kommen die Bestrebungen hin zur Digitalisierung und Nutzung von Big Data gerade eher von oben aus dem Vorstand oder aus der Unternehmensmitte, also aus den Fachbereichen, heraus?

Das ergänzt sich idealerweise. Unser Vorstand hat sich einer starken Wachstumsstrategie verschrieben, die auf Automatisierung und datengetriebenen Prozessen beruht. Gleichzeitig sind wir in Dialog mit vielen Bereichen der Bank, die uns fragen, wie sie ihre Produkte und Prozesse intelligenter und persönlicher gestalten können.

Was ist organisatorische Best Practice? Finden die Analysen nur in deiner Abteilung statt oder auch in den Fachbereichen?

Ich bin ein starker Verfechter eines „Hub-and-Spoke“-Modells, d.h. eines starken zentralen Bereichs zusammen mit dezentralen Data-Science-Teams in den einzelnen Fachbereichen. Wir als zentraler Bereich erschließen dabei neue Technologien (wie z.B. die Cloud-Nutzung oder NLP-Modelle) und arbeiten dabei eng mit den dezentralen Teams zusammen. Diese wiederum haben den Vorteil, dass sie direkt an den jeweiligen Kollegen, Daten und Anwendern dran sind.

Wie kann man sich die Arbeit bei euch in den Projekten vorstellen? Was für Profile – neben dem Data Scientist – sind beteiligt?

Inzwischen hat im Bereich der Data Science eine deutliche Spezialisierung stattgefunden. Wir unterscheiden grob zwischen Machine Learning Scientists, Data Engineers und Data Analysts. Die ML Scientists bauen die eigentlichen Modelle, die Date Engineers führen die Daten zusammen und bereiten diese auf und die Data Analysts untersuchen z.B. Trends, Auffälligkeiten oder gehen Fehlern in den Modellen auf den Grund. Dazu kommen noch unsere DevOps Engineers, die die Modelle in die Produktion überführen und dort betreuen. Und natürlich haben wir in jedem Projekt noch die fachlichen Stakeholder, die mit uns die Projektziele festlegen und von fachlicher Seite unterstützen.

Und zur technischen Organisation, setzt ihr auf On-Premise oder auf Cloud-Lösungen?

Unsere komplette Data-Science-Arbeitsumgebung liegt in der Cloud. Das vereinfacht die gemeinsame Arbeit enorm, da wir auch sehr große Datenmengen z.B. direkt über S3 gemeinsam bearbeiten können. Und natürlich profitieren wir auch von der großen Flexibilität der Cloud. Wir müssen also z.B. kein Spark-Cluster oder leistungsfähige Multi-GPU-Instanzen on premise vorhalten, sondern nutzen und zahlen sie nur, wenn wir sie brauchen.

Gibt es Stand heute bereits Big Data Projekte, die die Prototypenphase hinter sich gelassen haben und nun produktiv umgesetzt werden?

Ja, wir haben bereits mehrere Produkte, die die Proof-of-Concept-Phase erfolgreich hinter sich gelassen haben und nun in die Produktion umgesetzt werden. U.a. geht es dabei um die Automatisierung von Backend-Prozessen auf Basis einer automatischen Dokumentenerfassung und -interpretation, die Erkennung von Kundenanliegen und die Vorhersage von Prozesszeiten.

In wie weit werden unstrukturierte Daten in die Analysen einbezogen?

Das hängt ganz vom jeweiligen Produkt ab. Tatsächlich spielen in den meisten unserer Projekte unstrukturierte Daten eine große Rolle. Das macht die Themen natürlich anspruchsvoll aber auch besonders spannend. Hier ist dann oft Deep Learning die Methode der Wahl.

Wie stark setzt ihr auf externe Vendors? Und wie viel baut ihr selbst?

Wenn wir ein neues Projekt starten, schauen wir uns immer an, was für Lösungen dafür schon existieren. Bei vielen Themen gibt es gute etablierte Lösungen und Standardtechnologien – man muss nur an OCR denken. Kommerzielle Tools haben wir aber im Ergebnis noch fast gar nicht eingesetzt. In vielen Bereichen ist das Open-Source-Ökosystem am weitesten fortgeschritten. Gerade bei NLP zum Beispiel entwickelt sich der Forschungsstand rasend. Die besten Modelle werden dann von Facebook, Google etc. kostenlos veröffentlicht (z.B. BERT und Konsorten), und die Vendors von kommerziellen Lösungen sind da Jahre hinter dem Stand der Technik.

Letzte Frage: Wie hat sich die Coronakrise auf deine Tätigkeit ausgewirkt?

In der täglichen Arbeit eigentlich fast gar nicht. Alle unsere Daten sind ja per Voraussetzung digital verfügbar und unsere Cloudumgebung genauso gut aus dem Home-Office nutzbar. Aber das Brainstorming, gerade bei komplexen Fragestellungen des Feature Engineering und Modellarchitekturen, finde ich per Videocall dann doch deutlich zäher als vor Ort am Whiteboard. Insofern sind wir froh, dass wir uns inzwischen auch wieder selektiv in unseren Büros treffen können. Insgesamt hat die DKB aber schon vor Corona auf unternehmensweites Flexwork gesetzt und bietet dadurch per se flexible Arbeitsumgebungen über die IT-Bereiche hinaus.

Interview – Data Science in der FinTech-Branche

Christian Rebernik ist CTO bei Number 26 und zuständig für die technische Entwicklung dieses FinTech-Unternehmens. Er studierte Informatik und Wirtschaftsinformatik und kann auf langjährige Erfahrung als Software-Entwickler zurückgreifen. Seit etwa 2010 war er als CTO und CIO bei diversen eCommerce-christian-rebernikUnternehmen, u.a. bei Immobilien.net (heute ImmobilienScout24), PARSHIP und Zanox, tätig und gilt daher als ein etablierter IT-Manager, der seine Kenntnisse als Mentor des Axel Springer Plug and Play Accelerators weitergibt.

Data Science Blog: Herr Rebernik, wie sind Sie als CTO zum FinTech Number26 gekommen?

Ich durfte die Gründer im Accelerator 2013 als Mentor begleiten. Damals war das Produkt ausgelegt auf Teenager als Zielgruppe. 2014 änderten die Gründer Valentin und Maximilian das Produkt auf Number26, ein mobile-first Gehaltskonto mit Mastercard und der Vision das weltbeste Bankerlebnis zu bieten. Damit hatten sie aus meiner Sicht den richtigen Nerv der Zeit getroffen. Mein Erfahrung mit Banken war nicht positiv bis dato. Number26 hat aus meiner Sicht das Potential Bankwesen zu verändern.

Data Science Blog: Die FinTech-Szene möchte vieles besser machen als traditionelle Banken. Welche Rolle spielt Data Science dabei?

Beim Online-Banking etablierter Banken erhält man meistens nur eine reine Ansicht des Bankkontos, quasi eine statische und nicht kundenorientierte Darstellung des Kontostandes und der Kontotransaktionen. Wir glauben, diese Auflistung ohne Intelligenz ist nicht ausreichend und wenig auf den Kundenutzen fokussiert, mit der heutigen Technik kann man deutlich mehr bieten.
Unser Ziel ist es, eine der besten Customer Experience zu schaffen. Dank moderner Technologien haben wir viele unterschiedliche Möglichkeiten, um das zu erreichen. Eine davon ist es Smart Banking anzubieten, hier kommt Data Science ins Spiel.

Data Science Blog: Wofür nutzt Number26 Data Science genau?

Wir starten in Sachen Data Science jetzt erst voll durch. Unser erster Data Scientist wurde letztes Jahr im Oktober eingestellt. Unser Team ist also noch im Aufbau. Aktuell steht die sichere und number26appautomatisierte Kategorisierung von Finanztransaktionen bei uns im Fokus. Damit bieten wir den Nutzern leicht verständliche und genaue Auswertungen ihrer finanziellen Situation sowie eine Übersicht ihrer Einnahmen und Ausgaben. Interessanterweise gibt es unseres Wissens nach noch keine Bank, die Transaktionen direkt für den Kundennutzen kategorisiert.
Abhängig von der Transaktionsart nutzen wir unterschiedliche Methoden des maschinellen Lernens, die wir für die Erkennung der übergeordneten Kategorie verwenden.

Data Science Blog: Welche Machine Learning Methoden kommen zum Einsatz? Und wo finden die Analysen statt?

Wir haben mehrere ML-Methoden ausprobiert und durch eine Prototyping-Phase hinsichtlich ihrer Treffgenauigkeit bewertet. Wir setzen auf Amazon Webservices (AWS) und nutzen das Amazon Machine Learning Framework, auf dem wir auch unsere Modelle testen und Algorithmen erstellen. Der Input ist beispielsweise eine Kontotransaktion.
Unsere Algorithmen versuchen dieses dann zu kategorisieren. Daraus gewinnen wir zusätzliche Informationen, die wir unseren Kunden als Mehrwert anbieten.
Handelt es sich um eine Peer-to-Peer-Transaktion, wenn beispielsweise ich einem Freund Geld überweise, parsen wir den Verwendungszweck und nutzen Textmustererkennung zur Kategorisierung der Überweisung. Dazu splitten wir den Überweisungstext in einzelne Wörter auf, deren Bedeutung über Wörterbücher erkannt werden. Dadurch entstehen Kategorien, die vom Nutzer auch manuell nachträglich geändert werden können. Dieses Nutzerfeedback fließt in den Algorithmus zurück und wird in zukünftige Kategorisierungen mit einbezogen. Wir arbeiten nach mehreren Experimenten nun vermehrt mit Vector Spacing Modellen, wie dem k-Nearest-Neighbour-Algorithmus, über zurzeit 12 Achsen (Vektordimensionen). Jeder Vektor stellt eine Eigenschaft einer Transaktion dar, beispielsweise Geldbetrag, Verwendungszweck, Empfänger oder Währung. Je näher die Eigenschaften, die im Vektorraum als Punkte dargestellt werden, an den Eigenschaften anderer Finanztransaktion im selben Vektorraum liegen, desto wahrscheinlicher ist die Gemeinsamkeit als Kategorie.
Natürlich gibt es immer wieder False-Positives, die die eigentliche Herausforderung in Data Science darstellen. Beispielsweise lassen sich seltene Transaktionen wie die Zahnarztrechnung nur schwer trainieren. Wir trainieren unsere Kategorisierung der Banktransaktionen unter Einbeziehung der MasterCard-Kreditkartentransaktionen. Alle Vertragspartner bei MasterCard müssen einige Angaben mahcen, z.B. welche Art von Händler sie sind, Das hilft natürlich bei der Kategorisierung.

Data Science Blog: Der Beruf des Data Scientist wurde schon öfter als„Sexiest Job des 21. Jahrhunderts“ zitiert, gilt das auch in der Finanzindustrie?

Wir als FinTech-Unternehmen sind technologiegetrieben und in unserer Branche macht es wirklich Spaß, Probleme des Finanzalltags zu lösen. Neue Lösungen anzubieten, auf die vorher noch niemand gekommen ist, ist zwar nicht jedermanns Sache, unser Schlag Menschen entwickelt aber genau dafür die größte Leidenschaft.

Data Science Blog: Was sind Ihrer Meinung nach die alltäglichen Aufgaben eines Data Scientists und welche Skills sollte ein Data Scientist dafür mitbringen?

Die Arbeit als Data Scientist ist meines Erachtens dreigeteilt: ein Drittel Datenaufbereitung, ein Drittel Software-Entwicklung und ein Drittel Analyse.
Zum ersten Drittel gehört die Sichtung der Daten und Identifikation der Datenqualität. Ein Data Scientist muss aber auch Software-Entwickler sein und ein Verständnis für Software-Architekturen mitbringen. Große Datenmengen lassen sich nur über skalierbare Anwendungen auswerten. Wichtige Hilfsmittel und Testumgebungen müssen dafür selbst entwickelt werden.
Für die Analyse ist ein gutes Verständnis von Mathematik unumgänglich. Hinzu kommt ein ausgezeichnetes Verständnis für das Kerngeschäft des Unternehmens, in unserem Fall das Finanzwesen, um dementsprechend relevante Analysen durchzuführen.

Interview – Wie der Einstieg in Data Science gelingt

dr-alexander-beckAlexander Beck ist promovierter Ökonom und Physiker und hat in seiner Karriere sowohl selbst als Quant wie auch als Consultant im Data Science Bereich gearbeitet. Heute leitet er ein Data Science Team beim Bezahldienstleister PAYMILL in München, einer der führenden Payment Service Provider in Europa. Die E-Payment Lösung von PAYMILL erlaubt sichere und einfache Online Zahlungen.

Data Science Blog: Herr Dr. Beck, wie waren Ihre ersten 100 Tage in der Arbeitswelt von Paymill?
Spannend. Obwohl Paymill mit sehr fähigen Entwicklern arbeitet, war die erste Zeit davon geprägt, die richtigen Grundsteine für skalierbare und hochautomatisierte Daten-Analytik zu legen. Hierbei haben wir bewusst auf Open Source Technologien gesetzt, so zum Beispiel das Datenanalyse-Framework Python Pandas. Zudem setzen wir zur automatisierten Workflow-Steuerung die Software Airflow ein, die von AirBnB als Open Source Projekt entwickelt wird. Damit haben wir ein System geschaffen, mit dem wir sehr schlank, flexibel und nutzenorientiert arbeiten können und uns nicht mit Lizenzen und ähnlichen Dingen herumschlagen müssen.

Data Science Blog: Wie nutzt Paymill Data Science und was lässt sich damit erreichen?
Die Bandbreite hier ist wirklich groß und reicht von vollautomatisiertem Reporting bis hin zum Einsatz von Natural Language Processing und Predictive Analytics. Dabei gehen wir immer vom Nutzen des End-Anwenders aus und versuchen, unsere Lösungen für den Anwender so einfach und treffend wir möglich zu gestalten – meistens ist das Endprodukt eine schlanke Website, die alle relevanten Informationen enthält und die natürlich regelmäßig aktualisiert wird. Hierbei setzen wir auf 100% automatisierbare Konzepte. Datenanalyse soll dem Unternehmen dabei helfen, proaktiv und informiert statt reaktiv und uninformiert zu sein, das gelingt uns an vielen Stellen schon recht gut.

Data Science Blog: Viele Entscheider beklagen, dass Big Data nur den Konzernen nutzt, während der deutsche Mittelstand eher außen vor bleibe. Welche Hürden haben Mittelständler hier zu überwinden?
Viele Mittelständler verfügen heute nicht über die Datengrundlage, die nötig wäre, von diesem Trend zu profitieren. Hier sollte der Mittelstand beherzt handeln und lieber einen Euro zu viel als zu wenig an den entscheidenden Stellen investieren. Fairerweise muss man wohl sagen, dass nicht jedes Geschäftsmodell für den Einsatz von Data Science geeignet ist bzw. davon profitieren wird. Hier lohnt sich in den meisten Fällen eine Analyse der drei vielversprechendsten Anwendungsfälle aus Sicht der Unternehmensführung. Dann sollte neben einer Investitionsrechnung auch eine Analyse der Datenlage und Schritte zur Verbesserung dieser vorgenommen werden. Hierfür habe ich beispielsweise das DIFA Framework entwickelt.

Data Science Blog: An welchen Stellen eines Unternehmens können am schnellsten Mehrwerte gewonnen werden?
Das hängt natürlich sehr vom Geschäftsmodell ab. Im eCommerce beispielsweise ist die Sicherung der Kundenbeziehung durch zielgerichtete und effektive Maßnahmen sicherlich einer der stärksten Hebel. Zudem ist dies ein Anwendungsfall, wo im Unternehmen auch ausreichend Daten vorliegen um mit Analytics echte Mehrwerte zu schaffen. Fraud ist ein weiteres Anwendungsgebiet das nebenbei auch sehr zukunftsfähig ist, schaut man sich die aktuellen Fraud-Zahlen beispielsweise beim Kreditkarten Betrug an. Hier hilft man übrigens gleich doppelt: Man schützt Kunden davor, Opfer von Betrug zu werden und erleichtert der hausinternen Abteilung die Arbeit im Umgang mit Fraud-Fällen.

Data Science Blog: Wie sollte ein mittelständisches Unternehmen in Big Data und Data Science einsteigen?
Ein mittelständisches Unternehmen sollte sich von einem unabhängigen Experten beraten lassen. Dieser sollte neben der Data Science Kompetenz auch Branchen- und Prozesskenntnisse besitzen. Es ist übrigens auch nicht per se für jedes Unternehmen gesetzt, dass es mit Big Data und Data Science Mehrwerte für sich generieren kann. Überall dort wo ein Prozess in hoher Frequenz abläuft, die äußeren Parameter eine gewisse Varianz vorgeben und eine monetäre Verknüpfung existiert, macht Datenanalyse aber vermutlich Sinn. Ein ganz klassisches Beispiel hierfür ist die Kreditvergabe.

Data Science Blog: Lässt sich Data Science auch outsourcen? Wenn ja, was spräche dafür oder dagegen?
Was dafür spricht: Das Skillset des Data Scientist ist schon ein Besonderes und der Markt an guten Data Scientists ist knapp. Zudem ist der Aufbau von Technologie natürlich auch immer mit Kosten für Installation und Wartung verbunden, die teilweise nicht unerheblich sind. Gegen Outsourcing sprechen aus meiner Sicht aber weit gewichtigere Gründe. Um echte Mehrwerte zu schaffen, muss ein Data Scientist einen barriereferien Zugang zu den Mitarbeitern und den Daten des Unternehmens haben. Nur so lassen sich meines Erachtens Prozesse, Daten und alle Besonderheiten im Detail verstehen und nachvollziehen. Der häufig zitierte 80/20 Berater-Ansatz funktioniert im Data Science Umfeld meistens nicht. Sie müssen sich also auf eine ganz andere Art und Weise in einem Unternehmen auskennen, als dies einem Außenstehenden in einem vernünftigen Kostenrahmen gelingen wird. Aus meiner eigenen Erfahrung kann ich sagen, dass wir bei Paymill auf unsere erfolgreichsten Anwendungsfälle durch Gespräche in der Kaffee-Ecke gestoßen sind, hierfür müssen Sie Teil des Teams sein.

Data Science Blog: Sie haben bereits viele Analytics-Projekte betreut. Wie hoch ist die Quote an erfolgreichen Projekten gegenüber den nicht erfolgreichen? Konnten Sie Gründe für das Scheitern von solchen Projekten identifizieren?
Wenn Sie Erfolg damit assoziieren, wie hoch die Quote ist, wo wir dem Kunden weiterhelfen konnten, dann sage ich: sehr hoch. Allerdings sind hier auch Fälle dabei, wo wir einem Kunden sagen konnten, wo noch Hausaufgaben beispielsweise in der Datenhaltung zu erledigen sind. So gab es einmal einen Fall, wo eine Vertriebsmannschaft mit Prognosen unterstützt werden sollte. Die Datenbasis bestand allerdings nur aus erfolgreichen Abschlüssen, die nicht-erfolgreichen Vertriebsaktivitäten waren nicht aufgezeichnet worden. Hier müssen also erst einmal Daten vervollständigt werden, bevor über Predictive Analytics gesprochen wird. Trotzdem haben wir dem Unternehmen mit dieser Erkenntnis und einer Anleitung für nächste Schritte weitergeholfen.

Data Science Blog: Sollten Data Scientists in den jeweiligen Fachbereichen oder in der IT angesiedelt sein oder sogar eine eigene Stabstelle darstellen?
Ich habe gute Erfahrungen damit gemacht, wenn Data Science als eigenständige Einheit funktioniert. So lassen sich Anwendungsfälle, die über einzelne Departments hinausgehen, besser umsetzen. Zudem ist es auch einfach abwechslungsreicher für die Data Scientists.

Data Science Blog: Wann ist mit einem Break-Even-Point zu rechnen, wenn ein Unternehmen die Investition plant, eine Data Science Abteilung aufzubauen? Sie sollten vor der Gründung einer Data Science Abteilung eine realistische Machbarkeitsstudie durchführen. Nicht jedes Unternehmen und Geschäftsmodell wird in gleichem Maße von einer Data Science Abteilung profitieren. Ich würde aber sagen, dass man schon mit 10 bis 12 Monaten rechnen muss. Diese Zahl hängt aber sehr stark davon ab, wie viel Aufbau- und Aufräumarbeit bei der Datanbasis geleistet werden muss. Schlussendlich sollten auch immer weiche Faktoren mit in die Rechnung genommen werden. Eventuell fühlen sich Kunden durch entsprechende Maßnahmen besser angesprochen oder strategische Entscheidungen können auf einer soliden Datengrundlage getroffen werden. Das werden Sie nicht 1:1 in einer monetären Kenngröße abgebildet sehen, der positive Effekt ist aber zweifelsfrei vorhanden.

Data Science Blog: Die Methodenvielfalt scheint groß zu sein: Predictive Analytics, Distributed Data Processing, Realtime Analytics, Machine Learning. Welche Methoden bringen den größten Mehrwert?
Ich glaube das lässt sich so allgemein nicht beantworten. Sehr gute Erfahrungen haben wir mit automatisierten Warnsystemen gemacht – diese liefern einen sehr direkten und messbaren Mehrwert und sind verhältnismäßig zügig und ohne große Kosten aufgebaut. Auch hier kommt interessante Analytics zum Einsatz. Nehmen Sie als Beispiel einen Anbieter von Webhosting der messen möchte, ob eine Webseite Opfer einer Massenanfragen-Attacke ist. Hier müssen Sie clevere Analytics verwenden, sonst klemmen Sie im schlimmsten Fall einem Ihrer Kunden zur besten Verkaufszeit die Webseite ab.

Data Science Blog: Was macht Ihrer Meinung nach einen guten Data Scientist aus? Welche Skills sollte ein Data Scientist haben und wie können Neulinge diese erwerben?
Sie sollten ihr Handwerk grundlegend verstehen. Damit meine ich das Verarbeiten von Daten und die Anwendung von Standard Analytics Verfahren. Selbstverständlich sollten Sie sehr flüssig programmieren können, meiner Ansicht nach idealerweise in Python. Diese beiden Eigenschaften sind nicht hinreichend, aber die Basis Ihres Erfolgs. Daneben sollten Sie eine absolute Umsetzer-Mentalität und ein Bewusstsein für hohe Qualität haben. Wenn Sie dazu noch Spaß daran haben, Ihre Arbeit anderen zu erklären und eigenständig werthaltige Anwendungsszenarieren aufzuspüren, sind Sie – denke ich – sehr gut aufgestellt. Neulinge sollten sich nicht vom Hype um Data Science verrückt machen lassen, sondern sich bewusst sein, dass auch hier der erste Schritt darin besteht, ein solides Handwerk zu erlernen mit dem Sie später viel anfangen können.