Höhere Mathematik als Grundvoraussetzung für Data Scientists
Data Scientist ist der „sexiest Job“ auf der Welt. Data Science ist die neu erfundene Wissenschaft, die viele unserer Probleme lösen und uns die Zukunft angenehmer gestalten wird. Aber was genau ist Data Science? Was ist ein Datascientist und was macht er? Welche Ausbildung benötigt man, um ein Data Scientist zu sein? Muss er tiefe Kenntnisse der höheren Mathematik besitzen oder reicht das reine Methodenwissen aus? Diese Fragestellungen möchte ich in diesem Beitrag diskutieren.
Was versteht man also unter dem Begriff „Data Science“?
Dieses Wissensgebiet beschäftigt sich mit der Extraktion von Wissen aus Daten. Der Begriff selbst existiert bereits seit über 50 Jahren. Peter Naur verwendete ihn 1960 als Ersatz für den Begriff „Informatik“. 1997 schlug C.F. Jeff Wu in einem Vortrag anlässlich seiner Ernennung zum H. C. Carver Professor of Statistics vor, den Begriff „Statistiker“ in den Begriff „Datenwissenschafter“ umzubenennen. Ich persönlich hege aber Zweifel, dass Datenwissenschafter nur Statistiker sind.
Betrachtet man die Lehrpläne der Studiengänge für Data Science, so bestehen diese aus folgenden Fächern:
- Mathematische Grundlagen (auch Teile der höheren Mathematik)
- Stochastik
- Statistik
- Grundlegendes Wissen aus der Informatik (besonders auf dem Gebiet der Datenbanken und Big Data Technologien)
- Signalverarbeitung
Sicherlich ist die obige Aufzählung gar nicht vollständig, da ich meine, dass auch Methoden der mathematischen Optimierung in diese Lehrpläne aufgenommen werden müssen.
Data Science beschäftigt sich also mit der Extraktion von Wissen aus Daten und leitet Empfehlungen daraus ab. Unmittelbar daraus ergibt sich daher auch die Aufgabenbeschreibung für den Data Scientist.
Der Aufgabenbereich eines Data Scientist.
Aus der Beschreibung des Tätigkeitsbereiches von Data Science ergibt sich nun unmittelbar die Aufgabenbeschreibung für den Data Scientist. Er muss aus Daten Wissen extrahieren und Handlungsempfehlungen ableiten. Daraus erkennt man sofort, dass seine Aufgabenstellung umfassender als die eines Statistikers ist. Ungeachtet einer Diskussion, ob der Aufgabenbereich von einer einzigen Person überhaupt zu bewerkstelligen ist, unterteilt er sich also in folgende Teilbereiche.
- Datenextraktion, -zusammenführung und – aggregation
- Datenanalyse
- Hypothesenfindung (zusammen mit den entsprechenden Fachbereichen)
- Hypothesentests
- Erstellung von Prognosemodellen
- Mathematischen Optimierungsrechnungen
Er unterstützt damit sehr viele Fachbereiche eines Unternehmens, benötigt aber auch bei der Durchführung seiner Aufgabengebiete Unterstützung von den Fachbereichen. Zudem bedürfen die letzten drei Punkte der obigen Liste auch ein tiefes Verständnis der angewendeten Algorithmen aus mathematischer Sicht. Es reicht sicherlich nicht aus, zu wissen, welche Methode für die Erzielung einer korrekten Beantwortung einer Fragestellung zu verwenden ist, vielmehr muss er auch wissen, ob die Voraussetzungen zur Anwendung der spezifischen Methode gegeben ist. So z.B. verwenden sehr viele Methoden und Verfahren der Statistik die – in der Praxis nicht immer gegebene – Voraussetzung, dass Daten normalverteilt sind. Da die erzielten Ergebnisse meist numerischer Natur sind bzw. auf numerischen Input basieren, sollte auch zudem Kenntnisse der numerischen Mathematik aufweisen. Zusammenfassend gesagt, ist also ein tiefes Wissen der Algorithmen notwendig, diese basieren auf Mathematik und deshalb lässt sich die Mathematik auch nicht aus dem Anforderungsprofil eines Data Scientist wegdiskutieren.
Warum diese Diskussion?
Ich erlebe immer wieder, dass mit den Argumentationen aufgefahren wird, es wäre nicht notwendig, dass ein Data Scientist eine fundierte Ausbildung auf dem Gebiet Mathematik (im Sinne von „höherer“ Mathematik) benötigt. Sogar bei einer Veranstaltung der Firma IBM musste ich hören, dass Online-Course – wie z. B. Coursera – ausreichen würden, der Rest, also das fehlende Wissen, würde dann durch ausreichend Praxis und Schulungen dieser Firma ohnehin vermittelt bzw. erarbeitet werden. Dass dem nicht so sein kann, ist augenscheinlich, wenn man sich das Vorlesungsverzeichnis z. B. des Studiums Technische Mathematik ansieht. Wann hat man schon die notwendige Zeit, sich mit den Themen Algebra, Analysis, Topologie, Funktionentheorie, Wahrscheinlichkeitsrechnung, Statistik, usw. intensiver auseinanderzusetzen, das Verständnis dieser Teildisziplinen durch das Studium und Lösen von mathematischen Problemen aufzubauen, wenn nicht während eines entsprechenden Studiums? Ich bin der Meinung, dass das im Selbststudium ohne Anleitung und Kontrolle und die dazugehörigen fachlichen Diskussionen mit den Lehrenden und Studienkollegen kaum möglich ist.
Resümee
Aus den oben angeführten Gründen heraus, plädiere ich für eine fundierte Basisausbildung, die dem Studium eines Mathematikers schon sehr nahekommt. Reines oberflächliches Anschneiden der Themen, wird nicht zum gewünschten Erfolg bzw. zur notwendigen Qualität führen. Den Allrounder wird es ohnehin nicht geben, d.h. die Spezialisierungen werden auch – so wie bei Mathematikern – bei den Data Scientists erhalten bleiben. Über eine rege Diskussion zu diesem Thema würde ich mich natürlich sehr freuen.
Eine kurze Nachfrage was verstehen Sie in diesem Fall als höhere Mathematik? So unterscheidet sich die Mathematische Ausbildung an unserer Universität in den Naturwissenschaften teilweise erheblich.
Hallo Johannes,
Also ich würde unter höherer Mathematik z.B. folgende Punkte verstehen (die Liste erhebt jetzt aber keinen Anspruch auf Vollständigkeit).
– Kenntnis über die Bedeutung positiver, negativer (semi) definiter Matrizen
– Ableitungen mehrdimensionaler Funktionen und diese richtig interpretieren können
– Kenntnis über stochastische Prozesse
– Verständnis warum z.B. die Summe zweier normalverteilter Zufallsgrößen wieder normalverteilt ist
– Beispiel lineare Regression: Wissen, dass R² alleine etwas zu wenig Aussagekraft hat
– das doch etwas schwierigere Thema “Zeitreihenanalyse” halbwegs zu beherrschen (z.B. Einheitswurzeltest,….)
– …
Ich hoffe, ich habe meine Intention des Begriffes “höhere Mathematik” damit näher gebracht.
Und ja – das Ausbildungskonzept etwas zu vereinheitlichen – ohne dabei die Freiheit der “Wissenschaft” zu verlieren, wäre ein großes Ziel (zumindest EU weit).
Als Physiker habe ich die Künste der höheren Mathematik ebenfalls erfolgreich durchwandert. Ob mir der Beweis, dass die Null eindeutig sei dabei half zu erkennen ob eine Observable normalverteilt sei glaube ich eher nicht. Kurse auf Coursera mit ihrem bottom-up approach geben da doch eher ganz konkrete Vorschläge und haben einen praktischen Ansatz. Ganz ohne mathematisches Vorwissen wird es aber nicht gehen, auch nicht auf Coursera.
Hallo Oliver,
Natürlich – als Physiker hat man sehr viel Ausbildung durchwandert. Ob es gerade das Verständnis der Algebra (z.B. Zahlentheorie)ist – bezweifle ich auch und hätte ich damit gar nicht gemeint. Coursera-Kurse finde ich grundsätzlich sehr gut (ich hole mir selbst immer Ideen für meine Vorträge bzw. Lehrveranstaltungen) – gehen mir aber zumeist nicht tief genug. Man kann natürlich lernen, z.B. wie man einen Motor repariert ohne in die Tiefe der Grundlagen zu gehen – ich bin nur leider nicht der Typ, der so eine Vorgangsweise gut findet. Aber ich gebe Dir Recht – der Zweck wäre auch so erfüllt.
Ich denke auch, dass man ohne mathematischen Hintergrund (vor allem in Statistik) nicht verstehen kann, was einzige Verfahren eigentlich machen. Ich habe selbst ein Informatik-Studium (kognitive Systeme) hinter mir und habe zusätzlich einen einen Online Kurs gemacht. Bin also auch eher ein Data Engineer als Data Scientist, aber trotzdem kann ich unterschreiben, dass das Niveau von den Onlinekursen zu niedrig ist und nicht ausreicht, um im Detail zu verstehen was da eigentlich vor sich geht und wie man Verfahren an seinen Zweck anpassen kann. Solch ein Onlinekurs ist aber auch gar nicht darauf ausgelegt, dass man alles genau versteht, sondern dient dazu reiner Anwender zu sein, der lernt welche Verfahren es gibt und welche man wo einsetzen kann und oftmals reicht das aus für einfache Vorhersagemodelle.
Was mich viel mehr stört ist, dass in Stellenanzeigen: Softwareentwickler, Analysten und Big Data und DevOps Spezialisten alle zu dem Data Scientist zusammengefasst werden Hauptsache es steht Data Science im Stellenangebot, nur weil die Stelle im entferntesten mit Daten zu tun hat.
Hallo Christian,
Es freut mich, dass Du meine Meinung teilst. Ich glaube, der Fehler war, dass man am Anfang alle Aufgabengebiete des Data Science in einen Topf geworfen hat. Ich bin der Meinung, dass man eine Dreiteilung machen müsste.
– Data Engineer
– Data Analyst
– Data Scientist
Da kann ich mich nur anschließen.
Die Unterscheidung zwischen Data Scientist und Data Engineer (sowie Data Analyst & Business Analyst) wurde übrigens bereits hier thematisiert: https://data-science-blog.com/blog/2015/12/29/data-science-vs-data-engineering/
Diesem Beitrag kann ich mich anschließen, sofern es sich nicht um die Hardware handelt. Ein Data Engineer soll sich doch um die Datenaufbereitung (und allem was dazu gehört softwareseitig) kümmern. Hardware – zumindest in größeren Organisationen – überlässt man am besten den erfahrenen IT-Experten des Rechenzentrums bzw. der IT-Abteilung für Infrastruktur.
Vielen Dank für diesen Artikel. Ich verstehe mich selbst als Statistiker und verfüge über mathematisches Zusatzwissen. Daher bezeichne ich mich manchmal selbst auch als “Data Scientist”. Ich kann dem Artikel deshalb von Herzen zustimmen. Er kommt meinem intuitivem Verständnis des “Data Scientist” sehr nahe. Leider wird auf dem Arbeitsmarkt unter “Data Science” anscheinend in erster Linie der Programmierer / Informatiker verstanden, nicht der Statistiker oder Anwender von Mathematik. Ich halte dies für ein grundsätzliches Mißverständnis, wahrscheinlich durch Leute hervorgerufen, die nicht wissen, was “Data Science” überhaupt ist, und es auch nicht wissen wollen.
Hallo Herr Dr. Walter,
Vielen Dank für den zustimmenden Beitrag!
Ich kann von mir behaupten, dass ich eigentlich alle Stufen des Data Scientists durchlaufen habe. Ich war Programmierer (auch Echtzeit-Programmierung), Datenbankexperte (habe sehr viele Datenmigrationen durchgeführt und DWHs aufgebaut) und bin schon aufgrund meiner Ausbildung (Technische Mathematik mit Schwerpunkt Wirtschafts- und Planungsmathematik) Mathematiker mit Schwerpunkt Stochastik, Statistik (und etwas mathematische Optimierung). Es wäre allerdings vermessen zu behaupten, dass ich auf allen diesen Gebieten zur selben Zeit einen sehr hohen Wissensstand halten kann, woraus schon folgt, dass es diesen Parade-Data Scientist nicht geben kann. Für das Durchlaufen all dieser Stationen habe ich auch nur etwa 23 Jahre gebraucht ;-). Die Recruiter haben sich auch nicht mit dem Begriff “Data Science” auseinander gesetzt, und für manche “Anforderer” ist es ein Trend-Synonym, das man sehr gerne verwendet, um zu zeigen “wir sind state of the art”.
Vielen Dank für den informativen Artikel, ist schon etwas her, vielleicht sehen Sie den Kommentar ja doch noch.
Ich studiere Psychologie und vertiefe mich in Informatik und Statistik. Mir ist klar, auch durch den Artikel, dass ich dadurch nie das mathematische Grundverständnis hinter den Datenanalysen verstehen werde, wie es ein Mathematiker/Statistiker tut. Jedoch wurden oben auch die anwendungslastigeren Berufe angesprochen, wo dies nicht in dem Ausmass benötigt wird.
Welche Möglichkeiten sehen Sie in meiner Position, wo ich durch mein psychologisches Wissen und eben den statistisch guten aber nicht exzellenten Fähigkeiten später einen Platz finden kann?
Vielen Dank für eine kurze Antwort