Höhere Mathematik als Grundvoraussetzung für Data Scientists
Data Scientist ist der „sexiest Job“ auf der Welt. Data Science ist die neu erfundene Wissenschaft, die viele unserer Probleme lösen und uns die Zukunft angenehmer gestalten wird. Aber was genau ist Data Science? Was ist ein Datascientist und was macht er? Welche Ausbildung benötigt man, um ein Data Scientist zu sein? Muss er tiefe Kenntnisse der höheren Mathematik besitzen oder reicht das reine Methodenwissen aus? Diese Fragestellungen möchte ich in diesem Beitrag diskutieren.
Was versteht man also unter dem Begriff „Data Science“?
Dieses Wissensgebiet beschäftigt sich mit der Extraktion von Wissen aus Daten. Der Begriff selbst existiert bereits seit über 50 Jahren. Peter Naur verwendete ihn 1960 als Ersatz für den Begriff „Informatik“. 1997 schlug C.F. Jeff Wu in einem Vortrag anlässlich seiner Ernennung zum H. C. Carver Professor of Statistics vor, den Begriff „Statistiker“ in den Begriff „Datenwissenschafter“ umzubenennen. Ich persönlich hege aber Zweifel, dass Datenwissenschafter nur Statistiker sind.
Betrachtet man die Lehrpläne der Studiengänge für Data Science, so bestehen diese aus folgenden Fächern:
- Mathematische Grundlagen (auch Teile der höheren Mathematik)
- Stochastik
- Statistik
- Grundlegendes Wissen aus der Informatik (besonders auf dem Gebiet der Datenbanken und Big Data Technologien)
- Signalverarbeitung
Sicherlich ist die obige Aufzählung gar nicht vollständig, da ich meine, dass auch Methoden der mathematischen Optimierung in diese Lehrpläne aufgenommen werden müssen.
Data Science beschäftigt sich also mit der Extraktion von Wissen aus Daten und leitet Empfehlungen daraus ab. Unmittelbar daraus ergibt sich daher auch die Aufgabenbeschreibung für den Data Scientist.
Der Aufgabenbereich eines Data Scientist.
Aus der Beschreibung des Tätigkeitsbereiches von Data Science ergibt sich nun unmittelbar die Aufgabenbeschreibung für den Data Scientist. Er muss aus Daten Wissen extrahieren und Handlungsempfehlungen ableiten. Daraus erkennt man sofort, dass seine Aufgabenstellung umfassender als die eines Statistikers ist. Ungeachtet einer Diskussion, ob der Aufgabenbereich von einer einzigen Person überhaupt zu bewerkstelligen ist, unterteilt er sich also in folgende Teilbereiche.
- Datenextraktion, -zusammenführung und – aggregation
- Datenanalyse
- Hypothesenfindung (zusammen mit den entsprechenden Fachbereichen)
- Hypothesentests
- Erstellung von Prognosemodellen
- Mathematischen Optimierungsrechnungen
Er unterstützt damit sehr viele Fachbereiche eines Unternehmens, benötigt aber auch bei der Durchführung seiner Aufgabengebiete Unterstützung von den Fachbereichen. Zudem bedürfen die letzten drei Punkte der obigen Liste auch ein tiefes Verständnis der angewendeten Algorithmen aus mathematischer Sicht. Es reicht sicherlich nicht aus, zu wissen, welche Methode für die Erzielung einer korrekten Beantwortung einer Fragestellung zu verwenden ist, vielmehr muss er auch wissen, ob die Voraussetzungen zur Anwendung der spezifischen Methode gegeben ist. So z.B. verwenden sehr viele Methoden und Verfahren der Statistik die – in der Praxis nicht immer gegebene – Voraussetzung, dass Daten normalverteilt sind. Da die erzielten Ergebnisse meist numerischer Natur sind bzw. auf numerischen Input basieren, sollte auch zudem Kenntnisse der numerischen Mathematik aufweisen. Zusammenfassend gesagt, ist also ein tiefes Wissen der Algorithmen notwendig, diese basieren auf Mathematik und deshalb lässt sich die Mathematik auch nicht aus dem Anforderungsprofil eines Data Scientist wegdiskutieren.
Warum diese Diskussion?
Ich erlebe immer wieder, dass mit den Argumentationen aufgefahren wird, es wäre nicht notwendig, dass ein Data Scientist eine fundierte Ausbildung auf dem Gebiet Mathematik (im Sinne von „höherer“ Mathematik) benötigt. Sogar bei einer Veranstaltung der Firma IBM musste ich hören, dass Online-Course – wie z. B. Coursera – ausreichen würden, der Rest, also das fehlende Wissen, würde dann durch ausreichend Praxis und Schulungen dieser Firma ohnehin vermittelt bzw. erarbeitet werden. Dass dem nicht so sein kann, ist augenscheinlich, wenn man sich das Vorlesungsverzeichnis z. B. des Studiums Technische Mathematik ansieht. Wann hat man schon die notwendige Zeit, sich mit den Themen Algebra, Analysis, Topologie, Funktionentheorie, Wahrscheinlichkeitsrechnung, Statistik, usw. intensiver auseinanderzusetzen, das Verständnis dieser Teildisziplinen durch das Studium und Lösen von mathematischen Problemen aufzubauen, wenn nicht während eines entsprechenden Studiums? Ich bin der Meinung, dass das im Selbststudium ohne Anleitung und Kontrolle und die dazugehörigen fachlichen Diskussionen mit den Lehrenden und Studienkollegen kaum möglich ist.
Resümee
Aus den oben angeführten Gründen heraus, plädiere ich für eine fundierte Basisausbildung, die dem Studium eines Mathematikers schon sehr nahekommt. Reines oberflächliches Anschneiden der Themen, wird nicht zum gewünschten Erfolg bzw. zur notwendigen Qualität führen. Den Allrounder wird es ohnehin nicht geben, d.h. die Spezialisierungen werden auch – so wie bei Mathematikern – bei den Data Scientists erhalten bleiben. Über eine rege Diskussion zu diesem Thema würde ich mich natürlich sehr freuen.