Interview – Erfolgreicher Aufbau einer Data Science Kompetenz
Interview mit Dr. Dirk Hecker vom Fraunhofer IAIS über den erfolgreichen Aufbau einer Data Science Kompetenz
Dr. Dirk Hecker ist Geschäftsführer der »Fraunhofer-Allianz Big Data«, einem Verbund von 28 Fraunhofer-Instituten zur branchenübergreifenden Forschung und Technologieentwicklung im Bereich Big Data. Außerdem leitet Dr. Hecker die Abteilung »Knowledge Discovery« am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS. Die Forschungsschwerpunkte der Abteilung liegen im Data Mining und Machine Learning. Darüber hinaus verantwortet Dr. Hecker das Data-Scientist-Qualifizierungsprogramm bei Fraunhofer und leitet die Arbeitsgruppe »Smart Cities« im »Smart Data Innovation Lab«. Herr Hecker ist in Mitglied der »Networked European Software and Services Initiative (NESSI)« und hat langjährige Erfahrung in der Leitung von Forschungs- und Industrieprojekten. Seine aktuellen Arbeitsschwerpunkte liegen in den Bereichen Big Data Analytics, Predictive Analytics und Deep Learning.
Data Science Blog: Herr Dr. Hecker, welcher Weg hat Sie zu Fraunhofer geführt und wie treiben Sie Data Science bei Fraunhofer voran?
Ich habe bereits als Student bei Fraunhofer angefangen und nach Abschluss meines Studiums schnell die Leitung einer Arbeitsgruppe übertragen bekommen. Unser Schwerpunkt war damals das Thema Mobility Mining, die automatisierte Extraktion von Mustern aus GPS, Mobilfunkdaten sowie Induktionsschleifenmessungen, vor allem zur Verkehrsmodellierung. Als uns 2012 die Big-Data-Welle erreichte und ich die Abteilung „Knowledge Discovery“ übernahm, haben wir die erste Potenzialanalyse für Big Data in Deutschland veröffentlicht und es fiel der Startschuss für unser Data-Science-Schulungsprogramm, da wir das Unterstützungspotenzial für Unternehmen im Bereich Data Science sofort erkannt haben. Mit der Gründung der Fraunhofer-Allianz Big Data vor jetzt fast drei Jahren konnten wir unser Angebot „Beratung, Technologie, Schulung“ branchenübergreifend ausbauen. Ein Beispiel ist der „Big Data Business Club“, eine exklusive Plattform für Chief Digital oder Data Officers (CDOs) in Unternehmen. Wir beraten und unterstützen Unternehmen branchenübergreifend bei der Umsetzung ihrer Big-Data-Projekte und entwickeln die passenden Tools und Softwareprodukte.
Data Science Blog: Könnten Unternehmen die Projekte nicht einfach in den jeweiligen Fachbereichen direkt selbst umsetzen? Oder in der zentralen Unternehmens-IT-Abteilung?
Für die Datenanalyse braucht man Experten, also Data Scientists. Die gibt es in vielen Fachabteilungen zunächst nicht, und oft auch noch nicht in der zentralen IT. Da ist es ein guter Weg, die Kompetenzen beim eigenen Personal in Kooperationsprojekten mit erfahrenen Partnern aufzubauen.
Data Science Blog: Sie bieten bei Fraunhofer ein sogenanntes „Data Science Starter Toolkit“ an, wofür brauchen Unternehmen ein weiteres Toolkit?
Bevor sie in eine Big-Data-Plattform investieren und sich damit längerfristig binden, können Unternehmen in diesem Toolkit eine breite Palette aktueller Big Data- und In-Memory-Technologien erproben und sich hier beraten lassen. Außerdem erleichtert das Toolkit die nicht-kommerzielle Kooperation mit akademischen Partnern. Das ist besonders in der Anfangsphase interessant, wenn überhaupt erst das Potenzial in den eigenen Daten exploriert werden soll.
Data Science Blog: Sie bearbeiten Anwendungsfälle unterschiedlicher Branchen. Können sich Branchen die Anwendungsfälle gegenseitig abschauen oder sollte jede Branche auf sich selbst fokussiert bleiben?
Gute Branchenkenntnis ist für uns unerlässlich, denn jede Branche hat ihre Besonderheiten, etwa was die Prozesse oder auch die Datenquellen anbelangt. Dennoch können sich Unternehmen an Best-Practice-Beispielen aus anderen Branchen orientieren. Darum arbeiten wir auch in der Fraunhofer-Allianz Big Data instituts- und branchenübergreifend zusammen. Unsere Kunden schätzen es gerade in der Bratungs- und Ideenfindungsphase, wenn sie über den Tellerrand schauen können und Beispiele aus anderen Branchen vorgestellt bekommen. Außerdem lassen sich externe Datenquellen in verschiedenen Branchen nutzen: Social Media, Mobilfunkdaten, Wikipedia, Nachrichtenkanäle. Schließlich erwarten wir im Bereich des Deep Learning, dass man bild-, sprach- und textverarbeitende Module in Zukunft vortrainieren und dann mit weniger Aufwand auf die Anwendung spezialisieren kann.
Data Science Blog: Welche Trends im Bereich Machine Learning bzw. Deep Learning werden Ihrer Meinung nach im kommenden Jahr 2017 von Bedeutung sein?
Schon heute ist das maschinelle Lernen die Schlüsseltechnik für die Echtzeitanalyse von Big Data, also die Überwachung und Automatisierung von Prozessen jeglicher Art. Deep Learning erschließt aktuell insbesondere unstrukturierte Datenmengen, also die bekannte Dimension „Variety“. Die Technik rund um Deep Learning ist aktuell verantwortlich für die jüngsten Erfolge im Bereich der Künstlichen Intelligenz: maschinelles Sehen, Text- und Sprachverstehen, Text- und Sprachproduktion, maschinelle Übersetzung. Damit werden zunehmend intelligente Geräte gebaut und Systeme entwickelt, die uns einerseits Routine-Sacharbeiten und -Entscheidungen abnehmen und uns andererseits als Assistenten begleiten und beraten. In Zukunft werden wir immer weniger auf graphische Benutzeroberflächen angewiesen sein, sondern sprechen oder chatten mit smarten Geräten, Umgebungen und Assistenzsystemen.
Data Science Blog: Es heißt, dass Data Scientists gerade an ihrer eigenen Arbeitslosigkeit arbeiten, da zukünftige Verfahren des maschinellen Lernens Data Mining selbstständig durchführen können. Werden die Tools Data Scientists bald ersetzen?
Auf keinen Fall. In industriellen Datenanalyseprojekten gehen ja bis zu 80% des Aufwands in die Erarbeitung der Aufgabenstellung, in Datenexploration und -vorverarbeitung. Und die Digitalisierung und das Internet der Dinge werden uns noch auf viele Jahre hinaus mit neuen Fragestellungen versorgen. Methoden des Reinforcement-Lernens, die Feedback nutzen, um selbstständig weiter zu lernen, sind Gegenstand aktiver Forschung. Praktisch stellt sich da auch die Frage, wie Reaktionen der Umwelt überhaupt als Feedback zu interpretieren sind. Und schließlich stellt sich das Problem der Haftung. In einigen Anwendungsbereichen werden wir selbstlernende Systeme vorerst ausschließen, bis sichergestellt werden kann, dass sie sich kein unerwünschtes Verhalten aneignen. Solche Systeme zu bauen wird eine neue Kompetenz von Data Scientists sein.
Data Science Blog: Sollten Unternehmen erfahrene Data Scientists direkt einkaufen? Oder gibt es auch realistische Möglichkeiten, diese einfach selbst auszubilden?
Wir arbeiten mit etlichen Unternehmen zusammen, die ihren Mitarbeitern eine Fortbildung finanzieren, sei es durch ein berufsbegleitendes Studium, sei es durch Kompaktkurse. Die Fraunhofer-Allianz Big Data bietet zum Beispiel ein umfassendes, kompaktes Schulungsprogramm mit Zertifizierung an. Zudem sind Auftragsprojekte eine gute Gelegenheit, das erlernte Wissen praktisch zu vertiefen. Datenanalyseprojekte sind ja von Natur aus agil und erfordern eine enge Zusammenarbeit. Da ist es leicht, die anstehenden Arbeiten wöchentlich zwischen eigenen Mitarbeitern und externen Experten aufzuteilen. So arbeiten wir bereits mit einigen Unternehmen erfolgreich zusammen, teilweise sind die Fachkräfte sogar bei uns vor Ort oder wir unterstützen sie direkt im Unternehmen.
Data Science Blog: Sind gute Data Scientists Ihrer Erfahrung nach tendenziell eher Beratertypen oder introvertierte Nerds?
Data Scientists, die angefangen beim Geschäft und der Anwendungsdisziplin über die Big-Data-Tools bis zu statistischer Analyse und maschinellen Lernen alles selbst beherrschen, finden Sie selten und dann können Sie die Experten vielleicht nicht bezahlen. Allein schon deshalb arbeiten Data Scientists in Teams und bündeln unterschiedliche Kompetenzen und auch Charaktere. Kommunikative Fähigkeiten sind dabei unabdingbar.
Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder Wirtschaftswissenschaften abgeschlossen haben, was würden Sie diesen jungen Damen und Herren raten, wie sie gute Data Scientists werden können?
Praxis und Neugier. In jedem Datenanalyseprojekt lernt man dazu – durch die Daten und durch die Zusammenarbeit mit den Kolleginnen und Kollegen. Darum würde ich nach einer Beschäftigung suchen, die immer neue Herausforderungen verspricht. Außerdem richten sich die Gehälter insbesondere nach den fortschrittlichen Tools, die man beherrscht – im Augenblick Spark und Python. Es ist also wichtig, den Blick auf technologische Entwicklungen nicht zu verlieren.
Anmerkung der Redaktion: Das Fortbildungsprogramm der Fraunhofer Acadamy zum Thema Data Science / Big Data ist im Aus- und Fortbildungskatalog enthalten.