Neues Weiterbildungsangebot zu Programmiersprache R an der TU Dortmund

Anzeige: Neues Weiterbildungsangebot zu Programmiersprache R an der TU Dortmund

In der Tagesseminarreihe Dortmunder R-Kursean der Technischen Universität Dortmund vermitteln erfahrene Experten die praktische Anwendung der Open-Source Statistiksoftware R. Die Teilnehmenden erwerben dadurch Schlüsselkompetenzen im Umgang mit Big Data.

Das Seminar R-Basiskurs für Anfänger findet am 22.02. & 23.02.18 statt. Den Teilnehmern wird der praxisrelevante Part der Programmiersprache näher gebracht, um so die Grundlagen zur ersten Datenanalyse — vom Datensatz zu statistischen Kennzahlen und ersten Datenvisualisierungen — zu schaffen. Anmeldeschluss ist der 01.02.2018.

Das Seminar R-Vertiefungskurs für Fortgeschrittene findet am 06.03. & 07.03.18 statt. Die Veranstaltung ist ideal für Teilnehmende mit ersten Vorkenntnissen, die ihre Analysen effizient mit R durchführen möchten. Anmeldeschluss ist der 13.02.2018.

Weitere inhaltliche Informationen zu den R-Kursen finden Sie unter:
http://dortmunder-r-kurse.de/

Weiterbildungsangebote zu Data Science und R an der TU Dortmund

Anzeige: Interessante Weiterbildungsangebote zu Data Science und Programmiersprache R an der TU Dortmund

Das Zertifikatsstudium „Data Science and Big Data“ an der Technischen Universität Dortmund startet im Januar 2018 in den zweiten Durchgang. Aufbauend auf datenwissenschaftlichen Erkenntnissen steht die praxisnahe Umsetzung eines eigenen Big-Data Projekts im Fokus der Weiterbildung. Mithilfe von Methoden aus den Disziplinen Statistik, Informatik und Journalistik erwerben die Teilnehmerinnen und Teilnehmer wertvolle Kompetenzen in den Bereichen Datenanalyse, Datenmanagement und Ergebnisdarstellung. Die Bewerbungsphase läuft noch bis zum 8. November 2017. Mehr Infos finden Sie unter: https://data-science-blog.com/tu-dortmund-berufsbegleitendes-zertifikatsstudium/

Ganz neu ist ein weiteres Tagesseminarangebot im Bereich Data Science ab Frühjahr 2018: Dortmunder R-Kurse. Hier vermitteln Experten in Kursen für Anfänger und Fortgeschrittene die praktische Anwendung der Statistiksoftware R. Näheres dazu gibt es hier: www.zhb.tu-dortmund.de/r-kurse

 

Data Science Knowledge Stack – Was ein Data Scientist können muss

Was muss ein Data Scientist können? Diese Frage wurde bereits häufig gestellt und auch häufig beantwortet. In der Tat ist man sich mittlerweile recht einig darüber, welche Aufgaben ein Data Scientist für Aufgaben übernehmen kann und welche Fähigkeiten dafür notwendig sind. Ich möchte versuchen, diesen Konsens in eine Grafik zu bringen: Ein Schichten-Modell, ähnlich des OSI-Layer-Modells (welches übrigens auch jeder Data Scientist kennen sollte).
Ich gebe Einführungs-Seminare in Data Science für Kaufleute und Ingenieure und bei der Erläuterung, was wir in den Seminaren gemeinsam theoretisch und mit praxisnahen Übungen erarbeiten müssen, bin ich auf die Idee für dieses Schichten-Modell gekommen. Denn bei meinen Seminaren fängt es mit der Problemstellung bereits an, ich gebe nämlich Seminare für Data Science für Business Analytics mit Python. Also nicht beispielsweise für medizinische Analysen und auch nicht mit R oder Julia. Ich vermittle also nicht irgendein Data Science, sondern eine ganz bestimmte Richtung.

Ein Data Scientist muss bei jedem Data Science Vorhaben Probleme auf unterschiedlichsten Ebenen bewältigen, beispielsweise klappt der Datenzugriff nicht wie geplant oder die Daten haben eine andere Struktur als erwartet. Ein Data Scientist kann Stunden damit verbringen, seinen eigenen Quellcode zu debuggen oder sich in neue Data Science Pakete für seine ausgewählte Programmiersprache einzuarbeiten. Auch müssen die richtigen Algorithmen zur Datenauswertung ausgewählt, richtig parametrisiert und getestet werden, manchmal stellt sich dabei heraus, dass die ausgewählten Methoden nicht die optimalen waren. Letztendlich soll ein Mehrwert für den Fachbereich generiert werden und auch auf dieser Ebene wird ein Data Scientist vor besondere Herausforderungen gestellt.


english-flagRead this article in English:
“Data Science Knowledge Stack – Abstraction of the Data Scientist Skillset”


Data Science Knowledge Stack

Mit dem Data Science Knowledge Stack möchte ich einen strukturierten Einblick in die Aufgaben und Herausforderungen eines Data Scientists geben. Die Schichten des Stapels stellen zudem einen bidirektionalen Fluss dar, der von oben nach unten und von unten nach oben verläuft, denn Data Science als Disziplin ist ebenfalls bidirektional: Wir versuchen gestellte Fragen mit Daten zu beantworten oder wir schauen, welche Potenziale in den Daten liegen, um bisher nicht gestellte Fragen zu beantworten.

Der Data Science Knowledge Stack besteht aus sechs Schichten:

Database Technology Knowledge

Ein Data Scientist arbeitet im Schwerpunkt mit Daten und die liegen selten direkt in einer CSV-Datei strukturiert vor, sondern in der Regel in einer oder in mehreren Datenbanken, die ihren eigenen Regeln unterliegen. Insbesondere Geschäftsdaten, beispielsweise aus dem ERP- oder CRM-System, liegen in relationalen Datenbanken vor, oftmals von Microsoft, Oracle, SAP oder eine Open-Source-Alternative. Ein guter Data Scientist beherrscht nicht nur die Structured Query Language (SQL), sondern ist sich auch der Bedeutung relationaler Beziehungen bewusst, kennt also auch das Prinzip der Normalisierung.

Andere Arten von Datenbanken, sogenannte NoSQL-Datenbanken (Not only SQL)  beruhen auf Dateiformaten, einer Spalten- oder einer Graphenorientiertheit, wie beispielsweise MongoDB, Cassandra oder GraphDB. Einige dieser Datenbanken verwenden zum Datenzugriff eigene Programmiersprachen (z. B. JavaScript bei MongoDB oder die graphenorientierte Datenbank Neo4J hat eine eigene Sprache namens Cypher). Manche dieser Datenbanken bieten einen alternativen Zugriff über SQL (z. B. Hive für Hadoop).

Ein Data Scientist muss mit unterschiedlichen Datenbanksystemen zurechtkommen und mindestens SQL – den Quasi-Standard für Datenverarbeitung – sehr gut beherrschen.

Data Access & Transformation Knowledge

Liegen Daten in einer Datenbank vor, können Data Scientists einfache (und auch nicht so einfache) Analysen bereits direkt auf der Datenbank ausführen. Doch wie bekommen wir die Daten in unsere speziellen Analyse-Tools? Hierfür muss ein Data Scientist wissen, wie Daten aus der Datenbank exportiert werden können. Für einmalige Aktionen kann ein Export als CSV-Datei reichen, doch welche Trennzeichen und Textqualifier können verwendet werden? Eventuell ist der Export zu groß, so dass die Datei gesplittet werden muss.
Soll eine direkte und synchrone Datenanbindung zwischen dem Analyse-Tool und der Datenbank bestehen, kommen Schnittstellen wie REST, ODBC oder JDBC ins Spiel. Manchmal muss auch eine Socket-Verbindung hergestellt werden und das Prinzip einer Client-Server-Architektur sollte bekannt sein. Auch mit synchronen und asynchronen Verschlüsselungsverfahren sollte ein Data Scientist vertraut sein, denn nicht selten wird mit vertraulichen Daten gearbeitet und ein Mindeststandard an Sicherheit ist zumindest bei geschäftlichen Anwendungen stets einzuhalten.

Viele Daten liegen nicht strukturiert in einer Datenbank vor, sondern sind sogenannte unstrukturierte oder semi-strukturierte Daten aus Dokumenten oder aus Internetquellen. Auch hier haben wir es mit Schnittstellen zutun, ein häufiger Einstieg für Data Scientists stellt beispielsweise die Twitter-API dar. Manchmal wollen wir Daten in nahezu Echtzeit streamen, beispielsweise Maschinendaten. Dies kann recht anspruchsvoll sein, so das Data Streaming beinahe eine eigene Disziplin darstellt, mit der ein Data Scientist schnell in Berührung kommen kann.

Programming Language Knowledge

Programmiersprachen sind für Data Scientists Werkzeuge, um Daten zu verarbeiten und die Verarbeitung zu automatisieren. Data Scientists sind in der Regel keine richtigen Software-Entwickler, sie müssen sich nicht um Software-Sicherheit oder -Ergonomie kümmern. Ein gewisses Basiswissen über Software-Architekturen hilft jedoch oftmals, denn immerhin sollen manche Data Science Programme in eine IT-Landschaft integriert werden. Unverzichtbar ist hingegen das Verständnis für objektorientierte Programmierung und die gute Kenntnis der Syntax der ausgewählten Programmiersprachen, zumal nicht jede Programmiersprache für alle Vorhaben die sinnvollste ist.

Auf dem Level der Programmiersprache gibt es beim Arbeitsalltag eines Data Scientists bereits viele Fallstricke, die in der Programmiersprache selbst begründet sind, denn jede hat ihre eigenen Tücken und Details entscheiden darüber, ob eine Analyse richtig oder falsch abläuft: Beispielsweise ob Datenobjekte als Kopie oder als Referenz übergeben oder wie NULL-Werte behandelt werden.

Data Science Tool & Library Knowledge

Hat ein Data Scientist seine Daten erstmal in sein favorisiertes Tool geladen, beispielsweise in eines von IBM, SAS oder in eine Open-Source-Alternative wie Octave, fängt seine Kernarbeit gerade erst an. Diese Tools sind allerdings eher nicht selbsterklärend und auch deshalb gibt es ein vielfältiges Zertifizierungsangebot für diverse Data Science Tools. Viele (wenn nicht die meisten) Data Scientists arbeiten überwiegend direkt mit einer Programmiersprache, doch reicht diese alleine nicht aus, um effektiv statistische Datenanalysen oder Machine Learning zu betreiben: Wir verwenden Data Science Bibliotheken, also Pakete (Packages), die uns Datenstrukturen und Methoden als Vorgabe bereitstellen und die Programmiersprache somit erweitern, damit allerdings oftmals auch neue Tücken erzeugen. Eine solche Bibliothek, beispielsweise Scikit-Learn für Python, ist eine in der Programmiersprache umgesetzte Methodensammlung und somit ein Data Science Tool. Die Verwendung derartiger Bibliotheken will jedoch gelernt sein und erfordert für die zuverlässige Anwendung daher Einarbeitung und Praxiserfahrung.

Geht es um Big Data Analytics, also die Analyse von besonders großen Daten, betreten wir das Feld von Distributed Computing (Verteiltes Rechnen). Tools (bzw. Frameworks) wie Apache Hadoop, Apache Spark oder Apache Flink ermöglichen es, Daten zeitlich parallel auf mehren Servern zu verarbeiten und auszuwerten. Auch stellen diese Tools wiederum eigene Bibliotheken bereit, für Machine Learning z. B. Mahout, MLlib und FlinkML.

Data Science Method Knowledge

Ein Data Scientist ist nicht einfach nur ein Bediener von Tools, sondern er nutzt die Tools, um seine Analyse-Methoden auf Daten anzuwenden, die er für die festgelegten Ziele ausgewählt hat. Diese Analyse-Methoden sind beispielweise Auswertungen der beschreibenden Statistik, Schätzverfahren oder Hypothesen-Tests. Etwas mathematischer sind Verfahren des maschinellen Lernens zum Data Mining, beispielsweise Clusterung oder Dimensionsreduktion oder mehr in Richtung automatisierter Entscheidungsfindung durch Klassifikation oder Regression.

Maschinelle Lernverfahren funktionieren in der Regel nicht auf Anhieb, sie müssen unter Einsatz von Optimierungsverfahren, wie der Gradientenmethode, verbessert werden. Ein Data Scientist muss Unter- und Überanpassung erkennen können und er muss beweisen, dass die Vorhersageergebnisse für den geplanten Einsatz akkurat genug sind.

Spezielle Anwendungen bedingen spezielles Wissen, was beispielsweise für die Themengebiete der Bilderkennung (Visual Computing) oder der Verarbeitung von menschlicher Sprache (Natural Language Processiong) zutrifft. Spätestens an dieser Stelle öffnen wir die Tür zum Deep Learning.

Fachexpertise

Data Science ist kein Selbstzweck, sondern eine Disziplin, die Fragen aus anderen Fachgebieten mit Daten beantworten möchte. Aus diesem Grund ist Data Science so vielfältig. Betriebswirtschaftler brauchen Data Scientists, um Finanztransaktionen zu analysieren, beispielsweise um Betrugsszenarien zu erkennen oder um die Kundenbedürfnisse besser zu verstehen oder aber, um Lieferketten zu optimieren. Naturwissenschaftler wie Geologen, Biologen oder Experimental-Physiker nutzen ebenfalls Data Science, um ihre Beobachtungen mit dem Ziel der Erkenntnisgewinnung zu machen. Ingenieure möchten die Situation und Zusammenhänge von Maschinenanlagen oder Fahrzeugen besser verstehen und Mediziner interessieren sich für die bessere Diagnostik und Medikation bei ihren Patienten.

Damit ein Data Scientist einen bestimmten Fachbereich mit seinem Wissen über Daten, Tools und Analyse-Methoden ergebnisorientiert unterstützen kann, benötigt er selbst ein Mindestmaß an der entsprechenden Fachexpertise. Wer Analysen für Kaufleute, Ingenieure, Naturwissenschaftler, Mediziner, Juristen oder andere Interessenten machen möchte, muss eben jene Leute auch fachlich verstehen können.

Engere Data Science Definition

Während die Data Science Pioniere längst hochgradig spezialisierte Teams aufgebaut haben, suchen beispielsweise kleinere Unternehmen eher den Data Science Allrounder, der vom Zugriff auf die Datenbank bis hin zur Implementierung der analytischen Anwendung das volle Aufgabenspektrum unter Abstrichen beim Spezialwissen übernehmen kann. Unternehmen mit spezialisierten Daten-Experten unterscheiden jedoch längst in Data Scientists, Data Engineers und Business Analysts. Die Definition für Data Science und die Abgrenzung der Fähigkeiten, die ein Data Scientist haben sollte, schwankt daher zwischen der breiteren und einer engeren Abgrenzung.

Die engere Betrachtung sieht vor, dass ein Data Engineer die Datenbereitstellung übernimmt, der Data Scientist diese in seine Tools lädt und gemeinsam mit den Kollegen aus dem Fachbereich die Datenanalyse betreibt. Demnach bräuchte ein Data Scientist kein Wissen über Datenbanken oder APIs und auch die Fachexpertise wäre nicht notwendig…

In der beruflichen Praxis sieht Data Science meiner Erfahrung nach so nicht aus, das Aufgabenspektrum umfasst mehr als nur den Kernbereich. Dieser Irrtum entsteht in Data Science Kursen und auch in Seminaren – würde ich nicht oft genug auf das Gesamtbild hinweisen. In Kursen und Seminaren, die Data Science als Disziplin vermitteln wollen, wird sich selbstverständlich auf den Kernbereich fokussiert: Programmierung, Tools und Methoden aus der Mathematik & Statistik.

Höhere Mathematik als Grundvoraussetzung für Data Scientists

Data Scientist ist der „sexiest Job“ auf der Welt. Data Science ist die neu erfundene Wissenschaft, die viele unserer Probleme lösen und uns die Zukunft angenehmer gestalten wird. Aber was genau ist Data Science? Was ist ein Datascientist und was macht er? Welche Ausbildung benötigt man, um ein Data Scientist zu sein? Muss er tiefe Kenntnisse der höheren Mathematik besitzen oder reicht das reine Methodenwissen aus? Diese Fragestellungen möchte ich in diesem Beitrag diskutieren.

Was versteht man also unter dem Begriff „Data Science“?

Dieses Wissensgebiet beschäftigt sich mit der Extraktion von Wissen aus Daten. Der Begriff selbst existiert bereits seit über 50 Jahren. Peter Naur verwendete ihn 1960 als Ersatz für den Begriff „Informatik“. 1997 schlug C.F. Jeff Wu in einem Vortrag anlässlich seiner Ernennung zum H. C. Carver Professor of Statistics vor, den Begriff „Statistiker“ in den Begriff „Datenwissenschafter“ umzubenennen. Ich persönlich hege aber Zweifel, dass Datenwissenschafter nur Statistiker sind.

Betrachtet man die Lehrpläne der Studiengänge für Data Science, so bestehen diese aus folgenden Fächern:

  • Mathematische Grundlagen (auch Teile der höheren Mathematik)
  • Stochastik
  • Statistik
  • Grundlegendes Wissen aus der Informatik (besonders auf dem Gebiet der Datenbanken und Big Data Technologien)
  • Signalverarbeitung

Sicherlich ist die obige Aufzählung gar nicht vollständig, da ich meine, dass auch Methoden der mathematischen Optimierung in diese Lehrpläne aufgenommen werden müssen.

Data Science beschäftigt sich also mit der Extraktion von Wissen aus Daten und leitet Empfehlungen daraus ab. Unmittelbar daraus ergibt sich daher auch die Aufgabenbeschreibung für den Data Scientist.

Der Aufgabenbereich eines Data Scientist.

Aus der Beschreibung des Tätigkeitsbereiches von Data Science ergibt sich nun unmittelbar die Aufgabenbeschreibung für den Data Scientist. Er muss aus Daten Wissen extrahieren und Handlungsempfehlungen ableiten. Daraus erkennt man sofort, dass seine Aufgabenstellung umfassender als die eines Statistikers ist. Ungeachtet einer Diskussion, ob der Aufgabenbereich von einer einzigen Person überhaupt zu bewerkstelligen ist, unterteilt er sich also in folgende Teilbereiche.

  • Datenextraktion, -zusammenführung und – aggregation
  • Datenanalyse
  • Hypothesenfindung (zusammen mit den entsprechenden Fachbereichen)
  • Hypothesentests
  • Erstellung von Prognosemodellen
  • Mathematischen Optimierungsrechnungen

Er unterstützt damit sehr viele Fachbereiche eines Unternehmens, benötigt aber auch bei der Durchführung seiner Aufgabengebiete Unterstützung von den Fachbereichen. Zudem bedürfen die letzten drei Punkte der obigen Liste auch ein tiefes Verständnis der angewendeten Algorithmen aus mathematischer Sicht. Es reicht sicherlich nicht aus, zu wissen, welche Methode für die Erzielung einer korrekten Beantwortung einer Fragestellung zu verwenden ist, vielmehr muss er auch wissen, ob die Voraussetzungen zur Anwendung der spezifischen Methode gegeben ist. So z.B. verwenden sehr viele Methoden und Verfahren der Statistik die – in der Praxis nicht immer gegebene – Voraussetzung, dass Daten normalverteilt sind. Da die erzielten Ergebnisse meist numerischer Natur sind bzw. auf numerischen Input basieren, sollte auch zudem Kenntnisse der numerischen Mathematik aufweisen. Zusammenfassend gesagt, ist also ein tiefes Wissen der Algorithmen notwendig, diese basieren auf Mathematik und deshalb lässt sich die Mathematik auch nicht aus dem Anforderungsprofil eines Data Scientist wegdiskutieren.

Warum diese Diskussion?

Ich erlebe immer wieder, dass mit den Argumentationen aufgefahren wird, es wäre nicht notwendig, dass ein Data Scientist eine fundierte Ausbildung auf dem Gebiet Mathematik (im Sinne von „höherer“ Mathematik) benötigt. Sogar bei einer Veranstaltung der Firma IBM musste ich hören, dass Online-Course – wie z. B. Coursera – ausreichen würden, der Rest, also das fehlende Wissen, würde dann durch ausreichend Praxis und Schulungen dieser Firma ohnehin vermittelt bzw. erarbeitet werden. Dass dem nicht so sein kann, ist augenscheinlich, wenn man sich das Vorlesungsverzeichnis z. B. des Studiums Technische Mathematik ansieht. Wann hat man schon die notwendige Zeit, sich mit den Themen Algebra, Analysis, Topologie, Funktionentheorie, Wahrscheinlichkeitsrechnung, Statistik, usw. intensiver auseinanderzusetzen, das Verständnis dieser Teildisziplinen durch das Studium und Lösen von mathematischen Problemen aufzubauen, wenn nicht während eines entsprechenden Studiums? Ich bin der Meinung, dass das im Selbststudium ohne Anleitung und Kontrolle und die dazugehörigen fachlichen Diskussionen mit den Lehrenden und Studienkollegen kaum möglich ist.

Resümee

Aus den oben angeführten Gründen heraus, plädiere ich für eine fundierte Basisausbildung, die dem Studium eines Mathematikers schon sehr nahekommt. Reines oberflächliches Anschneiden der Themen, wird nicht zum gewünschten Erfolg bzw. zur notwendigen Qualität führen. Den Allrounder wird es ohnehin nicht geben, d.h. die Spezialisierungen werden auch – so wie bei Mathematikern – bei den Data Scientists erhalten bleiben. Über eine rege Diskussion zu diesem Thema würde ich mich natürlich sehr freuen.

Lernplattform dataX Academy gewinnt Sonderpreis für “Digitale Bildung”

Sponsored Post


Big Data ist die Zukunft, doch den meisten Unternehmen fehlen ausgebildete Datenexperten. Die Berliner Gründer Leo Marose und Stefan Berntheisel haben eine Lernplattform entwickelt, die Datenkompetenz auf eine völlig neue Art und Weise vermitteln soll – interaktiv und am Beispiel realistischer Szenarien. Für ihr Konzept werden sie jetzt vom Bundeswirtschaftsministerium auf der CeBIT 2017 mit dem Sonderpreis für “Digitale Bildung” ausgezeichnet.

Der Bedarf an Experten für Themen wie Big Data, Machine Learning und künstlicher Intelligenz wächst rasant, das Angebot für Weiterbildungen ist aber immer noch gering. “Unternehmen sammeln immer mehr Daten, um wettbewerbsfähig zu sein – wissen aber oft nichts damit anzufangen”, erinnert sich der ehemalige Strategie-Berater Leo Marose. “Wir haben schnell gemerkt, dass hier ein riesiger Markt schlummert”. Gemeinsam mit dem IT-Systemarchitekten Stefan Berntheisel startet er 2016 dataX Academy. Die Idee: Angehende Data Scientists und Data Engineers sollen den Umgang mit komplexen Datensätzen nicht nur wie bislang in der Theorie, sondern auch in der Praxis lernen. Dazu stellt dataX Academy Online-Kurse mit echten Datensets und einer eigenen Programmierumgebung zur Verfügung. “Die Nutzer lösen dann realistische Übungsaufgaben, z. B. müssen sie herausfinden, an welchen Orten in New York mit der höchsten Taxi-Nachfrage zu rechnen ist. Allein für diese Aufgabe stehen mehr als 1,1 Milliarden echte Datenpunkte zur Verfügung”, erklärt Stefan Berntheisel. Andere Aufgaben stammen aus Bereichen wie Marketing, Geografie oder Logistik. Die Kurse werden gemeinsam mit Experten entwickelt und die Teilnehmer durch realistische Aufgaben und Probleme besser an die Praxis herangeführt. “Wir stellen immer die gesamte technische Infrastruktur für die Lernumgebung”, sagt Stefan Berntheisel und fügt hinzu: “So können Firmen ihre Mitarbeiter z. B. in Data Science sehr kostengünstig weiterbilden.” Die Kurse kosten zwischen 79 und 300 Euro. Mit dem Konzept gewann das Duo zuletzt den Startup-Award auf der Learntec 2017, der größten Messe für digitales Lernen in Europa, und erhielt eine EXIST-Förderung in Höhe von 125.000 Euro von der FU Berlin. Auf der diesjährigen CeBIT wird dataX Academy nun vom Bundeswirtschaftsministerium mit dem Sonderpreis für “Digitale Bildung” ausgezeichnet und erhält ein Preisgeld in Höhe von 10.000 Euro.

dataX Academy arbeitet aktuell an einer Finanzierungsrunde

– denn der Markt für Big Data wächst bis 2020 auf 61 Milliarden Dollar

Wenige Monate nach der Idee zu dataX Academy starteten Leo Marose und Stefan Berntheisel im Sommer 2016 einen ersten Produkttest in Indien, Europa und den USA – mit Erfolg. “Unsere Tests liefen sehr vielversprechend. Aktuell liegen unsere Akquisitionskosten pro Nutzer bei durchschnittlich einem Dollar. Deshalb arbeiten wir jetzt an einer weiteren Finanzierung, um unser Wachstum weiter zu beschleunigen”, sagt Leo Marose. Schon 2020 ist der Wachstumsmarkt Big Data über 61 Milliarden Dollar schwer, Experten schätzen das jährliche Wachstum auf satte 30 Prozent. Zwar gibt es bereits große E-Learning-Player am Markt mit vielseitigem Angebot, diese seien oft aber “nur in wenigen Bereichen spezialisiert und setzen vor allem auf Lernvideos oder Multiple-Choice-Tests”, so Stefan Berntheisel. “Der Bedarf ist riesig – allein in den USA fehlen über 500.000 Experten für Data Science, Data Engineering und Co. In Deutschland sind Datenexperten aktuell sogar noch schwieriger zu finden.” Deshalb rollt dataX Academy seine Lernplattform aktuell in Deutschland aus. Große Marken wie Daimler, Audi, Siemens und die Boston Consulting Group haben bereits Interesse angemeldet.

Über die dataX Academy

Das Berliner Startup dataX Academy trainiert die Datenexperten von Morgen. Mit der Plattform können Nutzer den Umgang mit “Big Data” nicht nur in der Theorie, sondern auch in der Praxis lernen. Dazu stellt dataX Online-Kurse mit echten Datensets und einer eigenen Programmierumgebung Verfügung. Die Kurse werden gemeinsam mit Experten entwickelt und die angehenden Data Scientists sowie Data Engineers durch realistische Aufgaben und Probleme besser an die Praxis herangeführt. So können Unternehmen oder Forschungseinrichtungen ihre Mitarbeiter kostengünstig weiterbilden.

Hinter der Idee stecken die Berliner Unternehmer Leo Marose und Stefan Berntheisel. Sie haben bereits zuvor das Online-Magazin BOXROX aufgebaut – mit monatlich einer Million Seitenaufrufe und internationalen Werbekunden wie Adidas, Reebok oder Nike. Zuletzt gewann dataX Academy den Startup-Award auf der Learntec, der größten Messe für digitales Lernen in Europa, und wurde vom Bundeswirtschaftsministerium mit dem Sonderpreis für “Digitale Bildung” auf der CeBit 2017 ausgezeichnet.

Pressekontakt

Leo Marose

Tel.: 0163 7788742

Mail: leo.marose@datax.academy

Web: www.datax.academy

 

Weitere Referenzen zu dataX Academy

 

 

Interview – Data Science in der Automobilbranche

Interview mit Herrn Dr. Florian Neukart, Principal Data Scientist der
Volkswagen Group of America

Herr Dr. Florian Neukart ist Principal Data Scientist der Volkswagen Group of America. Herr Neukart arbeitete nach seiner Promotion in der Informatik an der University of Brasov als Consultant für Business Analytics bei SAP und wechselte 2013 als Data Scientist zu Audi. 2015 übernahm er für mehr als ein Jahr die Funktion als Chief Technology Officer des Volkswagen Data Labs, bis er September 2016 zu Volkswagen in die USA wechselte. Darüber hinaus ist er bereits seit 2010 in der Forschung und Lehre für Quantum Computing, maschinelles Lernen und künstliche Intelligenz tätig und zudem Autor des Buches „Reverse Engineering the Mind – Consciously Acting Machines and Accelerated Evolution“.

Data Science Blog: Herr Dr. Neukart, Sie sind einer der führenden Data Scientists in der Automobilbranche. Schlägt Ihr Herz mehr für die automobile Praxis oder für die Forschung?

Das kann ich so klar nicht trennen – ich habe das Glück, seit Jahren in beiden Welten tätig sein zu können, und was für mich dabei den besonderen Reiz ausmacht, ist die Möglichkeit, neuste Forschung in die Praxis zu überführen, also anhand von realen Problemstellungen zu verifizieren, ob eine Theorie praxistauglich ist oder nicht. Umgekehrt gilt das genauso – es kommt vor, dass ich mich mit Fragestellungen konfrontiert sehe, für welche die erforderliche analytische Mathematik noch nicht entwickelt wurde, was wieder zu neuer Forschung und innovativen Ideen anregt. Schon mein ganzes Leben bin ich getrieben von Neugierde und will verstehen, wie Dinge funktionieren, unabängig davon, ob es sich um die Gruppendynamik und Selbstorganisation von Herzzellen, quantenphysikalisches Verhalten von subatomaren Teilchen, autonom agierende Fahrzeuge, Fluktuationsprognosen in Märkten oder die Auswertung und Interpretation von Sprache handelt. Dabei ist es zwar primär die Mathematik, die mir hilft, Zusammenhänge zu verstehen und zu interpretieren, aber erst die Technologien und Plattformen, die über die letzten Jahre entwickelt wurden, um etwa rechenintensive Mathematik zu parallelisieren, Daten im Hauptspeicher zu halten und effizient abzufragen, machen unsere Arbeit erst möglich und richtig interessant.

Data Science Blog: Welche Rolle spielt Data Science derzeit für die Automobilbranche? Sicherlich dreht sich gerade alles um das autonome Fahrzeug?

Natürlich sind selbstfahrende Fahrzeuge und Mobilität ein grosses Thema bei OEMs. Aber Data Science ist viel umfassender. Data Science hat bereits Einzug in die technische Entwicklung, Einkauf, Marketing, Logistik, Produktion, Sales, After Sales und Retail gehalten. Speziell der Connected Customer wird immer bedeutender, da sich die internationale Wettbewerbsfähigkeit in naher Zukunft auch über die neuen technischen und Serviceangebote definieren wird, die mit Hilfe von Data Science und maschinellem Lernen möglich werden. Bezogen auf selbstfahrende Fahrzeuge beginnen wir, das gesamte Ökosystem, bestehend aus Infrastruktur und unterschiedlichen Verkehrsteilnehmern, als Multi-Agentensystem zu betrachten. Vehicle to Vehicle und Vehicle to X-Kommunikation gewinnen an Bedeutung, und speziell die Einführung von sozialen Komponenten wird entscheidende Vorteile bringen. Beispielhaft gesprochen, können Ziele der Flotte sein, die Sicherheit für die Passagiere und andere Verkehrsteilnehmer (Passanten, Radfahrer, Motorräder, Fiaker :-)) zu maximieren und gleichzeitig den Verkehrsfluss zu optimieren. Es macht wenig Sinn, eine Ampel an einer Kreuzung auf Rot zu schalten, wenn die Kreuzung gefahrlos durchquert werden kann. Davon abgesehen werden in naher Zukunft alle Fahrzeuge mit ähnlichen Sensoren ausgestattet sein, etwa Kameras, LiDAR, Radar, Ultraschall und Mikrofonen zur akustischen Umfeldwahrnehmung. Ein weiteres Szenario versetzt die Stadtverwaltung in die Lage zu erkennen,  wo der Verkehrsfluss stockt und was getan werden muss, um diesen zu optimieren. Das „was getan werden muss“ ist extrem interessant – etwa könnte man die Strassen digital werden lassen, also Asphaltstraßen durch Glas ersetzen und durch OLEDs ergänzen. Damit sind dann dynamische Veränderungen der Verkehrsführung möglich. Materialtechnisch ist das machbar, denn die Oberflächenstruktur von Glas kann so entwickelt werden, dass dieses auch im Regen rutschfest ist. Glas kann zudem so flexibel und gleichzeitig stabil designet werden, dass auch darüberfahrende LKWs es nicht zum Brechen bringen. Die Abwärme der Displays kann zur Beheizung genutzt werden – es gibt somit auch im Winter keine Eisfahrbahnen mehr. Die Stadt kann sich selbst als Agent in die Multi-Agentenumgebung einbringen und zur Erreichung der definierten Ziele beitragen.

Data Science Blog: Was sind gerade heiße Themen im Automotive-Sektor? Und demgegenüber gestellt, welche Themen spielen in der KI-Forschung gerade eine größere Rolle?

Data Science hat in jedem Bereich Einzug gehalten. Jedes Thema ist auf seine Art „heiss“, egal ob es sich „nur“ um eine Marktprognose, die vorhin erwähnten Multi-Agentensysteme, kollaborative Arbeitsumgebungen, in denen Menschen und Roboter in der Produktion zusammenarbeiten, oder etwa persönliche Assistenten handelt. Nehmen wir eine Marktprognose als Beispiel. Hier sind für den menschlichen Entscheider nicht nur die internen Verkaufszahlen und alle Indikatoren, die etwa die Weltbank liefert, interessant, sondern auch die Gesellschaftsentwicklung und die politischen Strukturen.

In der KI-Forschung ist das für mich interessanteste Thema die generelle KI, also die Schaffung einer künstlichen Intelligenz, die domänenunabhängig komplexe Probleme selbstständig lösen kann. Vieles, was uns einfach scheint, hat sich aber als sehr komplex für KI-Systeme herausgestellt. Der Weg zur generellen KI und künstlichem Bewusstsein führt für mich über das Verständnis von Dingen, wobei ich hier sowohl ein Atom als auch eine komplexe Lebensform als „Ding“ zusammenfasse. Ein Teil, der uns (und Software) hilft, Dinge in deren Kontext und Umgebung einzubetten und zu beschreiben, ist die Sprache – etwa ist ein Reifen Teil eines Fahrzeugs und eine Schraube Teil eines Reifens. Das und die Kombinationen mit anderen Säulen der KI, wie etwa Computer Vision, Logik und Entscheidungsfindung, Maschine Learning und Multi-Agentensystemen (Multi-Agenten-Lernen), bringt uns der generellen und bewussten KI Schritt für Schritt näher, wobei ich mir hier nicht anmaße, eine Definition für Bewusstsein zu geben.

Data Science Blog: Welche Tools verwenden Sie bzw. Ihr Team bei Ihrer Arbeit? Setzen Sie dabei auch auf Open Source?

Wir sind „technolgieagnostisch“, wir versuchen also, für jeden Anwendungsfall die beste Technologie zu finden und einzusetzen. Das ist mal ein Tool oder eine Plattform von einem grossen Softwarehersteller, mal eine Lösung von einem Startup, wobei wir die meisten unserer Projekte doch in R oder Python umsetzen. Wir packen auch unsere Eigenentwicklungen in Libraries, die wir momentan aber noch ausschliesslich intern nutzen.


Data Science Blog: Was macht für Sie einen guten Data Scientist aus? Nach wem suchen Sie, wenn Sie einen Data Scientist einstellen?

Die wichtigste Eigenschaft scheint mir ein Drang nach dem Verständnis von Zusammenhängen und Dingen zu sein – eine starke Neugier – wobei ich unter „Dingen“ je nach Kontext Atome genauso wie komplexe Maschinen einordne.

Dass ich über Atome und komplexe Maschinen schreibe, hat damit zu tun, weil ich auch durch meinen zweiten Job an der Uni vielfältigste Daten analyiseren durfte. Und dass ich Beiträge zu Maschinenlernen und Physik verfasse, liegt tatsächlich in erster Linie an meiner Neugierde. Die Mathematik, Physik, Neurowissenschaft, Informatik … sind Grundlagen, die sich jemand aneignen wird, wenn sie/er verstehen will.

Data Science Blog: Wie sieht Ihrer Erfahrung nach der Arbeitsalltag als Data Scientist nach dem morgendlichen Café bis zum Feierabend aus?

Idealerweise startet der Tag nicht mit Emails :-). Wenn ich aus meiner Erfahrung sprechen darf, dann lässt einen die Data Science auch nach der Arbeit nicht los und die Grenzen von Beruf und Hobby überlagern sich irgendwann. Schon während dem morgendlichen Café tauschen wir uns über die jeweiligen Projekte aus – jeder sollte soviel wie möglich über alle Projekte wissen, um nicht lediglich Nischenwissen aufzubauen. Scrum hat sich auch in Bezug auf Data Science bewährt – je nachdem, wie viele Data Scientists an einem Thema arbeiten und wie viele Tasks anfallen, machen tägliche Stand-Ups Sinn – speziell wenn ein Projekt viele Subkomponenten hat, die als grosses Ganzes funktionieren müssen, hat so jeder Beteiligte immer vollste Transparenz. Die meiste Zeit fliesst natürlich in die Entwicklung der jeweiligen Prototypen / Produkte, aber etwa ein Drittel sollte reserviert sein für das Durcharbeiten von Papers mit aktuellsten Forschungsergebnissen und dem Einarbeiten in neue Technologien. Ich habe mal gesagt bekommen „Data Scientists sprechen nicht viel“, was für die Zeit während der Entwicklungsarbeit (und meiner Erfahrung nach auf die meisten Informatiker) auch zutrifft, da wir zumeist den Zustand eines komplexen Systems im Kopf behalten müssen – tatsächlich aber sprechen wir sehr gerne und viel über mögliche Arten, Probleme zu verstehen und zu lösen. Für meine Kollegen und mich ist Data Science kein bloßer Job, wir beschäftigen uns auch nach dem Feierabend noch mit relevanter Lektuere oder privaten Side-Projects – wie gesagt, wir haben das Glück, Job und Hobby zu vereinen.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder Wirtschaftslehre, abgeschlossen haben, was würden sie diesen jungen Damen und Herren raten, wie sie einen guten Einstieg ins Data Science bewältigen können?

Natürlich ist ein solider methodischer Hintergrund, darunter Statistik, Mathematik und Informatik mit Fokus auf Machine Learning erforderlich, und auch das technische Wissen, die Theorie in Produkte zu überführen, also in Programmiersprachen und relevante Libraries, Datenbanken, Streaming und IoT. Das sind Kernkompetenzen, aber wie gesagt, am Anfang steht die Neugierde. Ich rate jedoch jedem, sich einem Problem nicht ausschließlich über die Theorie zu nähern, sondern erst zu versuchen, das Problem zu verstehen und das theoretische Wissen hands-on aufzubauen. Niemand weiss alles, und die Recherche rund um ein Problem ist ein wichtiger Lernprozess, aus dem man unglaublich viel mitnehmen kann. Data Science ist immer hands-on, und Neugierde führt zum Ziel.

Data Leader Mindset

Wie werden Führungskräfte zum Data Leader?

Als eine Keynote am Data Leader Day 2016 (www.dataleaderday.com) erläuterte ich den Weg einer gewöhnlichen Führungskräft hin zum Data Leader, gemäß meiner Erfahrung. Ein Data Leader ist eine Führungskraft mit datengetriebener, problemlösungsorientierter Denkweise.

Die Präsentation findet sich nachfolgend eingebettet und zeigt die Route von der konventionellen Führungskraft zum innovativen Data Leader:

Read more

Interview – Erfolgreicher Aufbau einer Data Science Kompetenz

Interview mit Dr. Dirk Hecker vom Fraunhofer IAIS über den erfolgreichen Aufbau einer Data Science Kompetenz

dr-dirk-heckerDr. Dirk Hecker ist Geschäftsführer der »Fraunhofer-Allianz Big Data«, einem Verbund von 28 Fraunhofer-Instituten zur branchenübergreifenden Forschung und Technologieentwicklung im Bereich Big Data. Außerdem leitet Dr. Hecker die Abteilung »Knowledge Discovery« am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS. Die Forschungs­schwerpunkte der Abteilung liegen im Data Mining und Machine Learning. Darüber hinaus verantwortet Dr. Hecker das Data-Scientist-Qualifizierungsprogramm bei Fraunhofer und leitet die Arbeitsgruppe »Smart Cities« im »Smart Data Innovation Lab«. Herr Hecker ist in Mitglied der »Networked European Software and Services Initiative (NESSI)« und hat langjährige Erfahrung in der Leitung von Forschungs- und Industrieprojekten. Seine aktuellen Arbeitsschwerpunkte liegen in den Bereichen Big Data Analytics, Predictive Analytics und Deep Learning.

Data Science Blog: Herr Dr. Hecker, welcher Weg hat Sie zu Fraunhofer geführt und wie treiben Sie Data Science bei Fraunhofer voran?

Ich habe bereits als Student bei Fraunhofer angefangen und nach Abschluss meines Studiums schnell die Leitung einer Arbeitsgruppe übertragen bekommen. Unser Schwerpunkt war damals das Thema Mobility Mining, die automatisierte Extraktion von Mustern aus GPS, Mobilfunkdaten sowie Induktionsschleifenmessungen, vor allem zur Verkehrsmodellierung. Als uns 2012 die Big-Data-Welle erreichte und ich die Abteilung „Knowledge Discovery“ übernahm, haben wir die erste Potenzialanalyse für Big Data in Deutschland veröffentlicht und es fiel der Startschuss für unser Data-Science-Schulungsprogramm, da wir das Unterstützungspotenzial für Unternehmen im Bereich Data Science sofort erkannt haben. Mit der Gründung der Fraunhofer-Allianz Big Data vor jetzt fast drei Jahren konnten wir unser Angebot „Beratung, Technologie, Schulung“ branchenübergreifend ausbauen. Ein Beispiel ist der „Big Data Business Club“, eine exklusive Plattform für Chief Digital oder Data Officers (CDOs) in Unternehmen. Wir beraten und unterstützen Unternehmen branchenübergreifend bei der Umsetzung ihrer Big-Data-Projekte und entwickeln die passenden Tools und Softwareprodukte.

Data Science Blog: Könnten Unternehmen die Projekte nicht einfach in den jeweiligen Fachbereichen direkt selbst umsetzen? Oder in der zentralen Unternehmens-IT-Abteilung?

Für die Datenanalyse braucht man Experten, also Data Scientists. Die gibt es in vielen Fachabteilungen zunächst nicht, und oft auch noch nicht in der zentralen IT. Da ist es ein guter Weg, die Kompetenzen beim eigenen Personal in Kooperationsprojekten mit erfahrenen Partnern aufzubauen.

Data Science Blog: Sie bieten bei Fraunhofer ein sogenanntes „Data Science Starter Toolkit“ an, wofür brauchen Unternehmen ein weiteres Toolkit?

Bevor sie in eine Big-Data-Plattform investieren und sich damit längerfristig binden, können Unternehmen in diesem Toolkit eine breite Palette aktueller Big Data- und In-Memory-Technologien  erproben und sich hier beraten lassen. Außerdem erleichtert das Toolkit die nicht-kommerzielle Kooperation mit akademischen Partnern. Das ist besonders in der Anfangsphase interessant, wenn überhaupt erst das Potenzial in den eigenen Daten exploriert werden soll.

Data Science Blog: Sie bearbeiten Anwendungsfälle unterschiedlicher Branchen. Können sich Branchen die Anwendungsfälle gegenseitig abschauen oder sollte jede Branche auf sich selbst fokussiert bleiben?

Gute Branchenkenntnis ist für uns unerlässlich, denn jede Branche hat ihre Besonderheiten, etwa was die Prozesse oder auch die Datenquellen anbelangt. Dennoch können sich Unternehmen an Best-Practice-Beispielen aus anderen Branchen orientieren. Darum arbeiten wir auch in der Fraunhofer-Allianz Big Data instituts- und branchenübergreifend zusammen. Unsere Kunden schätzen es gerade in der Bratungs- und Ideenfindungsphase, wenn sie über den Tellerrand schauen können und Beispiele aus anderen Branchen vorgestellt bekommen. Außerdem lassen sich externe Datenquellen in verschiedenen Branchen nutzen: Social Media, Mobilfunkdaten, Wikipedia, Nachrichtenkanäle.  Schließlich erwarten wir im Bereich des Deep Learning, dass man bild-, sprach- und textverarbeitende Module in Zukunft vortrainieren und dann mit weniger Aufwand auf die Anwendung spezialisieren kann.

Data Science Blog: Welche Trends im Bereich Machine Learning bzw. Deep Learning werden Ihrer Meinung nach im kommenden Jahr 2017 von Bedeutung sein?

Schon heute ist das maschinelle Lernen die Schlüsseltechnik für die Echtzeitanalyse von Big Data, also die Überwachung und Automatisierung von Prozessen jeglicher Art. Deep Learning erschließt aktuell insbesondere unstrukturierte Datenmengen, also die bekannte Dimension „Variety“. Die Technik rund um Deep Learning ist aktuell verantwortlich für die jüngsten Erfolge im Bereich der Künstlichen Intelligenz: maschinelles Sehen, Text- und Sprachverstehen, Text- und Sprachproduktion, maschinelle Übersetzung. Damit werden zunehmend intelligente Geräte gebaut und Systeme entwickelt, die uns einerseits Routine-Sacharbeiten und -Entscheidungen abnehmen und uns andererseits als Assistenten begleiten und beraten. In Zukunft werden wir immer weniger auf graphische Benutzeroberflächen angewiesen sein, sondern sprechen oder chatten mit smarten Geräten, Umgebungen und Assistenzsystemen.

Data Science Blog: Es heißt, dass Data Scientists gerade an ihrer eigenen Arbeitslosigkeit arbeiten, da zukünftige Verfahren des maschinellen Lernens Data Mining selbstständig durchführen können. Werden die Tools Data Scientists bald ersetzen?

Auf keinen Fall. In industriellen Datenanalyseprojekten gehen ja bis zu 80% des Aufwands in die Erarbeitung der Aufgabenstellung, in Datenexploration und -vorverarbeitung. Und die Digitalisierung und das Internet der Dinge werden uns noch auf viele Jahre hinaus mit neuen Fragestellungen versorgen. Methoden des Reinforcement-Lernens, die Feedback nutzen, um selbstständig weiter zu lernen, sind Gegenstand aktiver Forschung.  Praktisch stellt sich da auch die Frage, wie Reaktionen der Umwelt überhaupt als Feedback zu interpretieren sind. Und schließlich stellt sich das Problem der Haftung. In einigen Anwendungsbereichen werden wir selbstlernende Systeme vorerst ausschließen, bis sichergestellt werden kann, dass sie sich kein unerwünschtes Verhalten aneignen.  Solche Systeme zu bauen wird eine neue Kompetenz von Data Scientists sein.

Data Science Blog: Sollten Unternehmen erfahrene Data Scientists direkt einkaufen? Oder gibt es auch realistische Möglichkeiten, diese einfach selbst auszubilden?

Wir arbeiten mit etlichen Unternehmen zusammen, die ihren Mitarbeitern eine Fortbildung finanzieren, sei es durch ein berufsbegleitendes Studium, sei es durch Kompaktkurse. Die Fraunhofer-Allianz Big Data bietet zum Beispiel ein umfassendes, kompaktes Schulungsprogramm mit Zertifizierung an. Zudem sind Auftragsprojekte eine gute Gelegenheit, das erlernte Wissen praktisch zu vertiefen. Datenanalyseprojekte sind ja von Natur aus agil und erfordern eine enge Zusammenarbeit. Da ist es leicht, die anstehenden Arbeiten wöchentlich zwischen eigenen Mitarbeitern und externen Experten aufzuteilen. So arbeiten wir bereits mit einigen Unternehmen erfolgreich zusammen, teilweise sind die Fachkräfte sogar bei uns vor Ort oder wir unterstützen sie direkt im Unternehmen.

Data Science Blog: Sind gute Data Scientists Ihrer Erfahrung nach tendenziell eher Beratertypen oder introvertierte Nerds?

Data Scientists, die angefangen beim Geschäft und der Anwendungsdisziplin über die Big-Data-Tools bis zu statistischer Analyse und maschinellen Lernen alles selbst beherrschen, finden Sie selten und dann können Sie die Experten vielleicht nicht bezahlen. Allein schon deshalb arbeiten Data Scientists in Teams und bündeln unterschiedliche Kompetenzen und auch Charaktere. Kommunikative Fähigkeiten sind dabei unabdingbar.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder Wirtschaftswissenschaften abgeschlossen haben, was würden Sie diesen jungen Damen und Herren raten, wie sie gute Data Scientists werden können?

Praxis und Neugier. In jedem Datenanalyseprojekt lernt man dazu – durch die Daten und durch die Zusammenarbeit mit den Kolleginnen und Kollegen. Darum würde ich nach einer Beschäftigung suchen, die immer neue Herausforderungen verspricht. Außerdem richten sich die Gehälter insbesondere nach den fortschrittlichen Tools, die man beherrscht – im Augenblick Spark und Python. Es ist also wichtig, den Blick auf technologische Entwicklungen nicht zu verlieren.

Anmerkung der Redaktion: Das Fortbildungsprogramm der Fraunhofer Acadamy zum Thema Data Science / Big Data ist im Aus- und Fortbildungskatalog enthalten.