Einführung und Vertiefung in R Statistics mit den Dortmunder R-Kursen!

Im Rahmen der Dortmunder R Kurse bieten wir unsere Expertise in Schulungen für die Programmiersprache R an. Zielgruppe unserer Fortbildungen sind nicht nur Statistiker, sondern auch Anwender jeder Fachrichtung aus Industrie und Forschungseinrichtungen, die mit R ihre Daten analysieren wollen. Die Dortmunder R-Kurse werden ausschließlich von Statistikern mit langjähriger Erfahrung angeboten. Die Referenten gehören zum engsten Kreis der internationalen R-Gemeinschaft. Die angebotenen Kurse haben sich vielfach national und international bewährt.

Unsere Termine für die Online-Durchführung in diesem Jahr:

8., 9. und 10. Juni: R-Basiskurs (jeweils 9:00 – 14:00 Uhr)

22., 23., 24. und 25. Juni: R-Vertiefungskurs (jeweils 9:00 – 13:00 Uhr)

Kosten jeweils 750.00€, bei Buchung beider Kurse im Juni erhalten Sie einen Preisnachlass von 200€.

Zur Anmeldung gelangen Sie über den nachfolgenden Link:
https://www.zhb.tu-dortmund.de/zhb/wb/de/home/Seminare/Andere_Veranst/index.html

R Basiskurs

Das Seminar R Basiskurs für Anfänger findet am 8., 9. und 10. Juni 2020 statt. Den Teilnehmern wird der praxisrelevante Part der Programmiersprache näher gebracht, um so die Grundlagen zur ersten Datenanalyse — von Datensatz zu statistischen Kennzahlen und ersten Visualisierungen — zu schaffen. Anmeldeschluss ist der 25. Mai 2020.

Programm:

  • Installation von R und zugehöriger Entwicklungsumgebung
  • Grundlagen von R: Syntax, Datentypen, Operatoren, Funktionen, Indizierung
  • R-Hilfe effektiv nutzen
  • Ein- und Ausgabe von Daten
  • Behandlung fehlender Werte
  • Statistische Kennzahlen
  • Visualisierung

R Vertiefungskurs

Das Seminar R-Vertiefungskurs für Fortgeschrittene findet am 22., 23., 24. und 25. Juni (jeweils von 9:00 – 13:00 Uhr) statt. Die Veranstaltung ist ideal für Teilnehmende mit ersten Vorkenntnissen, die ihre Analysen effizient mit R durchführen möchten. Anmeldeschluss ist der 11. Juni 2020.

Der Vertiefungskurs baut inhaltlich auf dem Basiskurs auf. Es besteht aber keine Verpflichtung, bei Besuch des Vertiefungskurses zuvor den Basiskurs zu absolvieren, wenn bereits entsprechende Vorkenntnisse in R vorhanden sind.

Programm:

  • Eigene Funktionen, Schleifen vermeiden durch *apply
  • Einführung in ggplot2 und dplyr
  • Statistische Tests und Lineare Regression
  • Dynamische Berichterstellung
  • Angewandte Datenanalyse anhand von Fallbeispielen

Links zur Veranstaltung direkt:

R-Basiskurs: https://dortmunder-r-kurse.de/kurse/r-basiskurs/

R-Vertiefungskurs: https://dortmunder-r-kurse.de/kurse/r-vertiefungskurs/

Interview: Künstliche Intelligenz in der Pharma-Forschung und -Entwicklung

Interview mit Anna Bauer-Mehren, Head of Data Science in der Pharma-Forschung und -Entwicklung bei Roche in Penzberg

Frau Dr. Bauer-Mehren ist Head of Data Science im Bereich Pharma-Forschung und -Entwicklung bei Roche in Penzberg. Sie studierte Bioinformatik an der LMU München und schloss ihre Promotion im Bereich Biomedizin an der Pompeu Fabra Universität im Jahr 2010 in Spanien ab. Heute befasst sie sich mit dem Einsatz von Data Science zur Verbesserung der medizinischen Produkte und Prozesse bei Roche. Ferner ist sie Speaker der Predictive Analytics World Healthcare (Virtual Conference, Mai 2020).

Data Science Blog: Frau Bauer-Mehren, welcher Weg hat Sie bis an die Analytics-Spitze bei Roche geführt?

Ehrlich gesagt bin ich eher zufällig zum Thema Data Science gekommen. In der Schule fand ich immer die naturwissenschaftlich-mathematischen Fächer besonders interessant. Deshalb wollte ich eigentlich Mathematik studieren. Aber dann wurde in München, wo ich aufgewachsen und zur Schule gegangen bin, ein neuer Studiengang eingeführt: Bioinformatik. Diese Kombination aus Biologie und Informatik hat mich so gereizt, dass ich die Idee des Mathe-Studiums verworfen habe. Im Bioinformatik-Studium ging es unter anderem um Sequenzanalysen, etwa von Gen- oder Protein-Sequenzen, und um Machine Learning. Nach dem Masterabschluss habe ich an der Universitat Pompeu Fabra in Barcelona in biomedizinischer Informatik promoviert. In meiner Doktorarbeit und auch danach als Postdoktorandin an der Stanford School of Medicine habe ich mich mit dem Thema elektronische Patientenakten beschäftigt. An beiden Auslandsstationen kam ich auch immer wieder in Berührung mit Themen aus dem Pharma-Bereich. Bei meiner Rückkehr nach Deutschland hatte ich die Pharmaforschung als Perspektive für meine berufliche Zukunft fest im Blick. Somit kam ich zu Roche und leite seit 2014 die Abteilung Data Science in der Pharma-Forschung und -Entwicklung.

Data Science Blog: Was sind die Kernfunktionen der Data Science in Ihrem Bereich der Pharma-Forschung und -Entwicklung?

Ich bin Abteilungsleiterin für Data Science von pREDi (Pharma Research and Early Development Informatics), also von Roches Pharma-Forschungsinformatik. Dieser Bereich betreut alle Schritte von der Erhebung der Daten bis zur Auswertung und unterstützt alle Forschungsgebiete von Roche, von den Neurowissenschaften und der Onkologie bis hin zu unseren Biologie- und Chemielaboren, die die Medikamente herstellen. Meine Abteilung ist für die Auswertung der Daten zuständig. Wir beschäftigen uns damit, Daten so aufzubereiten und auszuwerten, dass daraus neue Erkenntnisse für die Erforschung und Entwicklung sowie die Optimierung von pharmazeutischen Produkten und Therapien gewonnen werden könnten. Das heißt, wir wollen die Daten verstehen, interpretieren und zum Beispiel einen Biomarker finden, der erklärt, warum manche Patienten auf ein Medikament ansprechen und andere nicht.

Data Science Blog: Die Pharmaindustrie arbeitet schon seit Jahrzehnten mit Daten z. B. über Diagnosen, Medikationen und Komplikationen. Was verbessert sich hier gerade und welche Innovationen geschehen hier?

Für die medizinische Forschung ist die Qualität der Daten sehr wichtig. Wenn ein Medikament entwickelt wird, fallen sehr große Datenmengen an. Früher hat niemand dafür gesorgt, dass diese Daten so strukturiert und aufbereitet werden, dass sie später auch in der Forschung oder bei der Entwicklung anderer Medikamente genutzt werden können. Es gab noch kein Bewusstsein dafür, dass die Daten auch über den eigentlichen Zweck ihrer Erhebung hinaus wertvoll sein könnten. Das hat sich mittlerweile deutlich verbessert, auch dank des Bereichs Data Science. Heute ist es normal, die eigenen Daten „FAIR“ zu machen. Das Akronym FAIR steht für findable, accessible, interoperable und reusable. Das heißt, dass man die Daten so sauber managen muss, dass Forscher oder andere Entwickler sie leicht finden, und dass diese, wenn sie die Berechtigung dafür haben, auch wirklich auf die Daten zugreifen können. Außerdem müssen Daten aus unterschiedlichen Quellen zusammengebracht werden können. Und man muss die Daten auch wiederverwenden können.

Data Science Blog: Was sind die Top-Anwendungsfälle, die Sie gerade umsetzen oder für die Zukunft anstreben?

Ein Beispiel, an dem wir zurzeit viel forschen, ist der Versuch, so genannte Kontrollarme in klinischen Studien zu erstellen. In einer klinischen Studie arbeitet man ja immer mit zwei Patientengruppen: Eine Gruppe der Patienten bekommt das Medikament, das getestet werden soll, während die anderen Gruppe, die Kontrollgruppe, beispielsweise ein Placebo oder eine Standardtherapie erhält. Und dann wird natürlich verglichen, welche der zwei Gruppen besser auf die Therapie anspricht, welche Nebenwirkungen auftreten usw. Wenn wir jetzt in der Lage wären, diesen Vergleich anhand von schon vorhanden Patientendaten durchzuführen, quasi mit virtuellen Patienten, dann würden wir uns die Kontrollgruppe bzw. einen Teil der Kontrollgruppe sparen. Wir sprechen hierbei auch von virtuellen oder externen Kontrollarmen. Außerdem würden wir dadurch auch Zeit und Kosten sparen: Neue Medikamente könnten schneller entwickelt und zugelassen werden, und somit den ganzen anderen Patienten mit dieser speziellen Krankheit viel schneller helfen.

Data Science Blog: Mit welchen analytischen Methoden arbeiten Sie und welche Tools stehen dabei im Fokus?

Auch wir arbeiten mit den gängigen Programmiersprachen und Frameworks. Die meisten Data Scientists bevorzugen R und/oder Python, viele verwenden PyTorch oder auch TensorFlow neben anderen.  Generell nutzen wir durchaus viel open-source, lizenzieren aber natürlich auch Lösungen ein. Je nachdem um welche Fragestellungen es sich handelt, nutzen wir eher statistische Modelle- Wir haben aber auch einige Machine Learning und Deep Learning use cases und befassen uns jetzt auch stark mit der Operationalisierung von diesen Modellen. Auch Visualisierung ist sehr wichtig, da wir die Ergebnisse und Modelle ja mit Forschern teilen, um die richtigen Entscheidungen für die Forschung und Entwicklung zu treffen. Hier nutzen wir z.B. auch RShiny oder Spotfire.

Data Science Blog: Was sind Ihre größten Herausforderungen dabei?

In Deutschland ist die Nutzung von Patientendaten noch besonders schwierig, da die Daten hier, anders als beispielsweise in den USA, dem Patienten gehören. Hier müssen erst noch die notwendigen politischen und rechtlichen Rahmenbedingungen geschaffen werden. Das Konzept der individualisierten Medizin funktioniert aber nur auf Basis von großen Datenmengen. Aktuell müssen wir uns also noch um die Fragen kümmern, wo wir die Datenmengen, die wir benötigen, überhaupt herbekommen. Leider sind die Daten von Patienten, ihren Behandlungsverläufen etc. in Deutschland oft noch nicht einmal digitalisiert. Zudem sind die Daten meist fragmentiert und auch in den kommenden Jahren wird uns sicherlich noch die Frage beschäftigen, wie wir die Daten so sinnvoll erheben und sammeln können, dass wir sie auch integrieren können. Es gibt Patientendaten, die nur der Arzt erhebt. Dann gibt es vielleicht noch Daten von Fitnessarmbändern oder Smartphones, die auch nützlich wären. Das heißt, dass wir aktuell, auch intern, noch vor der Herausforderung stehen, dass wir die Daten, die wir in unseren klinischen Studien erheben, nicht ganz so einfach mit den restlichen Datenmengen zusammenbringen können – Stichwort FAIRification. Zudem reicht es nicht nur, Daten zu besitzen oder Zugriff auf Daten zu haben, auch die Datenqualität und -organisation sind entscheidend. Ich denke, es ist sehr wichtig, genau zu verstehen, um was für Daten es sich handelt, wie diese Erhoben wurden und welche (wissenschaftliche) Frage ich mit den Daten beantworten möchte. Ein gutes Verständnis der Biologie bzw. Medizin und der dazugehörigen Daten sind also für uns genauso wichtig wie das Verständnis von Methoden des Machine Learning oder der Statistik.

Data Science Blog: Wie gehen Sie dieses Problem an? Arbeiten Sie hier mit dedizierten Data Engineers? Binden Sie Ihre Partner ein, die über Daten verfügen? Freuen Sie sich auf die Vorhaben der Digitalisierung wie der digitalen Patientenakte?

Roche hat vor ein paar Jahren die Firma Flatiron aus den USA übernommen. Diese Firma bereitet Patientendaten zum Beispiel aus der Onkologie für Krankenhäuser und andere Einrichtungen digital auf und stellt sie für unsere Forschung – natürlich in anonymisierter Form – zur Verfügung. Das ist möglich, weil in den USA die Daten nicht den Patienten gehören, sondern dem, der sie erhebt und verwaltet. Zudem schaut Roche auch in anderen Ländern, welche patientenbezogenen Daten verfügbar sind und sucht dort nach Partnerschaften. In Deutschland ist der Schritt zur elektronischen Patientenakte (ePA) sicherlich der richtige, wenn auch etwas spät im internationalen Vergleich. Dennoch sind die Bestrebungen richtig und ich erlebe auch in Deutschland immer mehr Offenheit für eine Wiederverwendung der Daten, um die Forschung voranzutreiben und die Patientenversorgung zu verbessern.

Data Science Blog: Sollten wir Deutsche uns beim Datenschutz lockern, um bessere medizinische Diagnosen und Behandlungen zu erhalten? Was wäre Ihr Kompromiss-Vorschlag?

Generell finde ich Datenschutz sehr wichtig und erachte unser Datenschutzgesetz in Deutschland als sehr sinnvoll. Ich versuche aber tatsächlich auf Veranstaltungen und bei anderen Gelegenheiten Vertreter der Politik und der Krankenkassen immer wieder darauf aufmerksam zu machen, wie wichtig und wertvoll für die Gesellschaft eine Nutzung der Versorgungsdaten in der Pharmaforschung wäre. Aber bei der Lösung der Problematik kommen wir in Deutschland nur sehr langsam voran. Ich sehe es kritisch, dass viel um dieses Thema diskutiert wird und nicht einfach mal Modelle ausprobiert werden. Wenn man die Patienten fragen würde, ob sie ihre Daten für die Forschung zur Verfügung stellen möchte, würden ganz viele zustimmen. Diese Bereitschaft vorher abzufragen, wäre technisch auch möglich. Ich würde mir wünschen, dass man in kleinen Pilotprojekten mal schaut, wie wir hier mit unserem Datenschutzgesetz zu einer ähnlichen Lösung wie beispielsweise Flatiron in den USA kommen können. Ich denke auch, dass wir mehr und mehr solcher Pilotprojekte sehen werden.

Data Science Blog: Gehört die Zukunft weiterhin den Data Scientists oder eher den selbstlernenden Tools, die Analysen automatisiert für die Produkt- oder Prozessverbesserung entwickeln und durchführen?

In Bezug auf Künstliche Intelligenz (KI) gibt es ein interessantes Sprichwort: Garbage in, Garbage out. Wenn ich also keine hochqualitativen Daten in ein Machine Learning Modell reinstecke, dann wird höchstwahrscheinlich auch nichts qualitativ Hochwertiges rauskommen. Das ist immer die Illusion, die beim Gedanken an KI entsteht: Ich lass einfach mal die KI über diesen Datenwust laufen und dann wird die gute Muster erkennen und wird mir sagen, was funktioniert. Das ist aber nicht so. Ich brauche schon gute Daten, ich muss die Daten gut organisieren und gut verstehen, damit meine KI wirklich etwas Sinnvolles berechnen kann. Es reichen eben nicht irgendwelche Daten, sondern die Daten müssen auch eine hohe Qualität haben, da sie sich sonst nicht integrieren und damit auch nicht interpretieren lassen. Dennoch arbeiten wir auch mit der Vision “Data Science” daran, immer mehr zu demokratisieren, d.h. es möglichst vielen Forschern zu ermöglichen, die Daten selbst auszuwerten, oder eben gewisse Prozessschritte in der Forschung durch KI zu ersetzen. Auch hierbei ist es wichtig, genau zu verstehen, was in welchem Bereich möglich ist. Und wieder denke ich, dass die richtige Erfassung/Qualität der Daten auch hier das A und O ist und dennoch oft unterschätzt wird.

Data Science Blog: Welches Wissen und welche Erfahrung setzen Sie für Ihre Data Scientists voraus? Und nach welchen Kriterien stellen Sie Data Science Teams für Ihre Projekte zusammen?

Generell sucht Roche als Healthcare-Unternehmen Bewerber mit einem Hintergrund in Informatik und Life Sciences zum Beispiel über ein Nebenfach oder einen Studiengang wie Biotechnologie oder Bioinformatik. Das ist deswegen wichtig, weil man bei Roche in allen Projekten mit Medizinern, Biologen oder Chemikern zusammenarbeitet, deren Sprache und Prozesse man verstehen sollte. Immer wichtiger werden zudem Experten für Big Data, Datenanalyse, Machine Learning, Robotics, Automatisierung und Digitalisierung.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder auch der Biologie, abgeschlossen haben, was würden sie diesen jungen Damen und Herren raten, wie sie einen guten Einstieg ins Data Science bewältigen können?

Generell empfehle ich jungen Absolventen herauszufinden für welchen Bereich ihr Herz schlägt: Interessiere ich mich dafür, tief in die Biologie einzusteigen und grundlegende Prozesse zu verstehen? Möchte ich nahe am Patienten sei? Ooder ist mir wichtiger, dass ich auf möglichst große Datenmengen zugreifen kann?  Je nachdem, kann ich als Einstieg durchaus Traineeprogramme empfehlen, die es ermöglichen, in mehrere Abteilungen einer Firma Einblicke zu bekommen, oder würde eher eine Promotion empfehlen. Ich denke, das lässt sich eben nicht pauschalisieren. Für die Arbeit bei Roche ist sicherlich entscheidend, dass ich mich neben der Informatik/Data Science auch für das Thema Medizin und Biologie interessiere. Nur dann kann ich in den interdisziplinären Teams einen wertvollen Beitrag leisten und gleichzeitig auch meiner Leidenschaft folgen. Ich denke, dass das auch in anderen Branchen ähnlich ist.


Frau Bauer-Mehren ist Speaker der Predictive Analytics World Healthcare zum Thema Unlocking the Potential of FAIR Data Using AI at Roche.

The Predictive Analytics World Healthcare is the premier machine learning conference for the Healthcare Industry. Due to the corona virus crisis, this conference will be a virtual edition from 11 to 12 MAY 2020.

Endspurt Bewerbungsphase: Zertifikatsstudium „Data Science and Big Data“ 2019

Anzeige

Bewerben Sie sich noch bis zum 12. November 2018 für das berufsbegleitende Zertifikatsstudium „Data Science and Big Data“. Die 3. Studiengruppe startet im Februar 2019 an der Technischen Universität Dortmund.

Renommierte Wissenschaftlerinnen und Wissenschaftler vermitteln den Teilnehmerinnen und Teilnehmern die neuesten datenwissenschaftlichen Erkenntnisse und zeigen, wie dieses Wissen praxisnah im eigenen Big-Data Projekt umgesetzt werden kann.

Von der Analyse über das Management bis zur zielgerichteten Darstellung der Ergebnisse lernen die Teilnehmenden dabei Methoden der Disziplinen Statistik, Informatik und Journalistik kennen.

Nähere Informationen finden Sie unter: http://www.zhb.tu-dortmund.de/datascience

Bei Fragen oder für weitere Informationen können Sie sich gerne an Frau Maier wenden: simona.maier@tu-dortmund.de

 

Interview – Künstliche Intelligenz im Unternehmen & der Mangel an IT-Fachkräften

Interview mit Sebastian van der Meer über den Einsatz von künstlicher Intelligenz im Unternehmen und dem Mangel an IT-Fachkräften

Sebastian van der Meer

Sebastian van der Meer ist Managing Partner der lexoro Gruppe, einem Technologie- und Beratungsunternehmen in den Zukunftsmärkten: Data-Science, Machine-Learning, Big-Data, Robotics und DevOps. Das Leistungsspektrum ist vielschichtig. Sie vermitteln Top-Experten an Unternehmen (Perm & IT-Contracting), arbeiten mit eigenen Teams für innovative Unternehmen an spannenden IT-Projekten und entwickeln zugleich eigene Produkte und Start-Ups in Zukunftsmärkten. Dabei immer im Mittelpunkt: Menschen und deren Verbindung mit exzellenter Technologiekompetenz.

Data Science Blog: Herr van der Meer, wenn man Google News mit den richtigen Stichwörtern abruft, scheinen die Themen Künstliche Intelligenz, Data Science und Machine Learning bei vielen Unternehmen bereits angekommen zu sein – Ist das so?

Das ist eine sehr gute Frage! Weltweit, vor allem in der USA und China, sind diese bereits „angekommen“, wenn man es so formulieren kann. Allerdings sind wir in Europa leider weit hinterher. Dazu gibt es ja bereits viele Studien und Umfragen, die dies beweisen. Vereinzelt gibt es große mittelständische- und Konzernunternehmen in Deutschland, die bereits eigene Einheiten und Teams in diesen Bereich und auch neue Geschäftsbereiche dadurch ermöglicht haben. Hier gibt es bereits tolle Beispiele, was mit K.I. erreichbar ist. Vor allem die Branchen Versicherungs- und Finanzdienstleistungen, Pharma/Life Science und Automotive sind den anderen in Deutschland etwas voraus.

Data Science Blog: Wird das Thema Data Science oder Machine Learning früher oder später für jedes Unternehmen relevant sein? Muss jedes Unternehmen sich mit K.I. befassen?

Data Science, Machine Learning, künstliche Intelligenz – das sind mehr als bloße Hype-Begriffe und entfernte Zukunftsmusik! Wir stecken mitten in massiven strukturellen Veränderungen. Die Digitalisierungswelle der vergangenen Jahre war nur der Anfang. Jede Branche ist betroffen. Schnell kann ein Gefühl von Bedrohung und Angst vor dem Unbekannten aufkommen. Tatsächlich liegen aber nie zuvor dagewesene Chancen und Potentiale vor unseren Füßen. Die Herausforderung ist es diese zu erkennen und dann die notwendigen Veränderungen umzusetzen. Daher sind wir der Meinung, dass jedes Unternehmen sich damit befassen muss und soll, wenn es in der Zukunft noch existieren will.

Wir unterstützen Unternehmen dabei ihre individuellen Herausforderungen, Hürden und Möglichkeiten zu identifizieren, die der große Hype „künstliche Intelligenz“ mit sich bringt. Hier geht es darum genau zu definieren, welche KI-Optionen überhaupt für das Unternehmen existieren. Mit Use-Cases zeigen wir, welchen Mehrwert sie dem Unternehmen bieten. Wenn die K.I. Strategie festgelegt ist, unterstützen wir bei der technischen Implementierung und definieren und rekrutieren bei Bedarf die relevanten Mitarbeiter.

Data Science Blog: Die Politik strebt stets nach Vollbeschäftigung. Die K.I. scheint diesem Leitziel entgegen gerichtet zu sein. Glauben Sie hier werden vor allem Ängste geschürt oder sind die Auswirkungen auf den Arbeitsmarkt durch das Vordringen von K.I. wirklich so gravierend?

Zu diesem Thema gibt es bereits viele Meinungen und Studien, die veröffentlicht worden sind. Eine interessante Studie hat vorhergesagt, dass in den nächsten 5 Jahren, weltweit 1.3 Millionen Stellen/Berufe durch K.I. wegfallen werden. Dafür aber in den gleichen Zeitnahmen 1.7 Millionen neue Stellen und Berufe entstehen werden. Hier gehen die Meinungen aber ganz klar auseinander. Die Einen sehen die Chancen, die Möglichkeiten und die Anderen sehen die Angst oder das Ungewisse. Eins steht fest, der Arbeitsmarkt wird sich in den nächsten 5 bis 10 Jahren komplett verändern und anpassen. Viele Berufe werden wegfallen, dafür werden aber viele neue Berufe hinzukommen. Vor einigen Jahren gab es noch keinen „Data Scientist“ Beruf und jetzt ist es einer der best bezahltesten IT Stellen in Unternehmen. Allein das zeigt doch auch, welche Chancen es in der Zukunft geben wird.

Data Science Blog: Wie sieht der Arbeitsmarkt in den Bereichen Data Science, Machine Learning und Künstliche Intelligenz aus?

Der Markt ist sehr intransparent. Jeder definiert einen Data Scientist anders. Zudem wird sich der Beruf und seine Anforderungen aufgrund des technischen Fortschritts stetig verändern. Der heutige Data Scientist wird sicher nicht der gleiche Data Scientist in 5 oder 10 Jahren sein. Die Anforderungen sind enorm hoch und die Konkurrenz, der sogenannte „War of Talents“ ist auch in Deutschland angekommen. Der Anspruch an Veränderungsbereitschaft und technisch stets up to date und versiert zu sein, ist extrem hoch. Das gleiche gilt auch für die anderen K.I. Berufe von heute, wie z.B. den Computer Vision Engineer, der Robotics Spezialist oder den DevOps Engineer.

Data Science Blog: Worauf sollten Unternehmen vor, während und nach der Einstellung von Data Scientists achten?

Das Allerwichtigste ist der Anfang. Es sollte ganz klar definiert sein, warum die Person gesucht wird, was die Aufgaben sind und welche Ergebnisse sich das Unternehmen mit der Einstellung erwartet bzw. erhofft. Oftmals hören wir von Unternehmen, dass sie Spezialisten in dem Bereich Data Science / Machine Learning suchen und große Anforderungen haben, aber diese gar nicht umgesetzt werden können, weil z.B. die Datengrundlage im Unternehmen fehlt. Nur 5% der Data Scientists in unserem Netzwerk sind der Ansicht, dass vorhandene Daten in ihrem Unternehmen bereits optimal verwertet werden. Der Data Scientist sollte schnell ins Unternehmen integriert werde um schnellstmöglich Ergebnisse erzielen zu können. Um die wirklich guten Leute für sich zu gewinnen, muss ein Unternehmen aber auch bereit sein finanziell tiefer in die Tasche zu greifen. Außerdem müssen die Unternehmen den top Experten ein technisch attraktives Umfeld bieten, daher sollte auch die Unternehmen stets up-to-date sein mit der heutigen Technologie.

Data Science Blog: Was macht einen guten Data Scientist eigentlich aus?

Ein guter Data Scientist sollte in folgenden Bereichen sehr gut aufgestellt sein: Präsentations- und Kommunikationsfähigkeiten, Machine Learning Kenntnisse, Programmiersprachen und ein allgemeines Business-Verständnis. Er sollte sich stets weiterentwickeln und von den Trends up to date sein. Auf relevanten Blogs, wie dieser Data Science Blog, aktiv sein und sich auf Messen/Meetups etc bekannt machen.

Außerdem sollte er sich mit uns in Verbindung setzen. Denn ein weiterer, wie wir finden, sehr wichtiger Punkt, ist es sich gut verkaufen zu können. Hierzu haben wir uns in dem letzten Jahr sehr viel Gedanken gemacht und auch Studien durchgeführt. Wir wollen es jedem K.I. -Experten ermöglichen einen eigenen Fingerabdruck zu haben. Bei uns ist dies als der SkillPrint bekannt. Hierfür haben wir eine holistische Darstellung entwickelt, die jeden Kandidaten einen individuellen Fingerabdruck seiner Kompetenzen abbildet. Hierfür durchlaufen die Kandidaten einen Online-Test, der von uns mit top K.I. Experten entwickelt wurde. Dieser bildet folgendes ab: Methoden Expertise, Applied Data Science Erfahrung, Branchen know-how, Technology & Tools und Business knowledge. Und die immer im Detail in 3 Ebenen.

Der darauf entstehende SkillPrint/Fingerprint ist ein Qualitätssigel für den Experten und damit auch für das Unternehmen, das den Experten einstellt.

Interesse an einem Austausch zu verschiedenen Karriereperspektiven im Bereich Data Science/ Machine Learning? Dann registrieren Sie sich direkt auf dem lexoro Talent Check-In und ein lexoro-Berater wird sich bei Ihnen melden.

Interview – Von der Utopie zur Realität der KI: Möglichkeiten und Grenzen

Interview mit Prof. Dr. Sven Buchholz über die Evolution von der Utopie zur Realität der KI – Möglichkeiten und Grenzen

Prof. Sven Buchholz hat eine Professur für die Fachgebiete Data Management und Data Mining am Fachbereich Informatik und Medien an der TH Brandenburg inne. Er ist wissenschaftlicher Leiter des an der Agentur für wissenschaftliche Weiterbildung und Wissenstransfer – AWW e. V. angesiedelten Projektes „Datenkompetenz 4.0 für eine digitale Arbeitswelt“ und Dozent des Vertiefungskurses „Machine Learning mit Python“, der seit 2018 von der AWW e. V. in Kooperation mit der TH Brandenburg angeboten wird.

Data Science Blog: Herr Prof. Buchholz, künstliche Intelligenz ist selbst für viele datenaffine Fachkräfte als Begriff noch zu abstrakt und wird mit Filmen wir A.I. von Steven Spielberg oder Terminator assoziiert. Gibt es möglicherweise unterscheidbare Stufen bzw. Reifegrade einer KI?

Für den Reifegrad einer KI könnte man, groß gedacht, ihre kognitiven Leistungen bewerten. Was Kognition angeht, dürfte Hollywood zurzeit aber noch meilenweit führen.  Man kann natürlich KIs im selben Einsatzgebiet vergleichen. Wenn von zwei Robotern einer lernt irgendwann problemlos durch die Tür zu fahren und der andere nicht, dann gibt es da schon einen Sieger. Wesentlich ist hier das Lernen, und da geht es dann auch weiter. Kommt er auch durch andere Türen, auch wenn ein Sensor
ausfällt?

Data Science Blog: Künstliche Intelligenz, Machine Learning und Deep Learning sind sicherlich die Trendbegriffe dieser Jahre. Wie stehen sie zueinander?

Deep Learning ist ein Teilgebiet von Machine Learning und das ist wiederum ein Teil von KI. Deep Learning meint eigentlich nur tiefe neuronale Netze (NN). Das sind Netze, die einfach viele Schichten von Neuronen haben und folglich als tief bezeichnet werden. Viele Architekturen, insbesondere auch die oft synonym mit Deep Learning assoziierten sogenannten Convolutional NNs gibt es seit Ewigkeiten. Solche Netze heute einsetzen zu können verdanken wir der Möglichkeit auf Grafikkarten rechnen zu können. Ohne Daten würde das uns aber auch nichts nützen. Netze lernen aus Daten (Beispielen) und es braucht für erfolgreiches Deep Learning sehr viele davon. Was wir oft gerade sehen ist also, was man mit genug vorhandenen Daten „erschlagen“ kann. Machine Learning sind alle Algorithmen, die ein Modell als Ouput liefern. Die Performanz von Modellen ist messbar, womit ich quasi auch noch eine Antwort zur ersten Frage nachreichen will.

Data Science Blog: Sie befassen sich beruflich seit Jahren mit künstlicher Intelligenz. Derzeitige Showcases handeln meistens über die Bild- oder Spracherkennung. Zweifelsohne wichtige Anwendungen, doch für Wirtschaftsunternehmen meistens zu abstrakt und zu weit weg vom Kerngeschäft. Was kann KI für Unternehmen noch leisten?

Scherzhaft oder vielleicht boshaft könnte man sagen, alles was Digitalisierung ihnen versprochen hat.
Wenn sie einen Chat-Bot einsetzen, sollte der durch KI besser werden. Offensichtlich ist das jetzt kein Anwendungsfall, der jedes Unternehmen betrifft. Mit anderen Worten, es hängt vom Kerngeschäft ab. Das klingt jetzt etwas ausweichend, meint aber auch ganz konkret die Ist-Situation.
Welche Prozesse sind jetzt schon datengetrieben, welche Infrastruktur ist vorhanden. Wo ist schon wie optimiert worden? Im Einkauf, im Kundenmanagement und so weiter.

Data Science Blog: Es scheint sich also zu lohnen, in das Thema fachlich einzusteigen. Was braucht man dazu? Welches Wissen sollte als Grundlage vorhanden sein? Und: Braucht man dazu einen Mindest-IQ?

Gewisse mathematische und informatorische Grundlagen braucht man sicher relativ schnell. Zum Beispiel: Wie kann man Daten statistisch beschreiben, was darf man daraus folgern? Wann ist etwas signifikant? Einfache Algorithmen für Standardprobleme sollte man formal hinschreiben können und implementieren können. Welche Komplexität hat der Algorithmus, wo genau versteckt sie sich? Im Prinzip geht es aber erst einmal darum, dass man mit keinem Aspekt von Data Science Bauchschmerzen hat. Einen Mindest-IQ braucht es also nur insofern, um diese Frage für sich selbst beantworten zu können.

Data Science Blog: Gibt es aus Ihrer Sicht eine spezielle Programmiersprache, die sich für das Programmieren einer KI besonders eignet?

Das dürfte für viele Informatiker fast eine Glaubensfrage sein, auch weil es natürlich davon abhängt,
was für eine KI das sein soll. Für Machine Learning und Deep Learning lautet meine Antwort aber ganz klar Python. Ein Blick auf die bestimmenden Frameworks und Programmierschnittstellen ist da
ziemlich eindeutig.

Data Science Blog: Welche Trends im Bereich Machine Learning bzw. Deep Learning werden Ihrer Meinung nach im kommenden Jahr 2019 von Bedeutung werden?

Bei den Deep Learning Anwendungen interessiert mich, wie es mit Sprache weitergeht. Im Bereich Machine Learning denke ich, dass Reinforcement Learning weiter an Bedeutung gewinnt. KI-Chips halte ich für einen der kommenden Trends.

Data Science Blog: Es heißt, dass Data Scientist gerade an ihrer eigenen Arbeitslosigkeit arbeiten, da zukünftige Verfahren des maschinellen Lernens Data Mining selbstständig durchführen können. Werden Tools Data Scientists bald ersetzen?

Die Prognosen für das jährliche Datenwachstum liegen ja momentan so bei 30%. Wichtiger als diese Zahl alleine ist aber, dass dieses Wachstum von Daten kommt, die von Unternehmen generiert werden. Dieser Anteil wird über die nächsten Jahre ständig und rasant weiter wachsen. Nach den einfachen Problemen kommen also erst einmal mehr einfache Probleme und/oder mehr anspruchsvollere Probleme statt Arbeitslosigkeit. Richtig ist aber natürlich, dass Data Scientists zukünftig methodisch mehr oder speziellere Kompetenzen abdecken müssen. Deswegen haben die AWW e. V. und die TH Brandenburg ihr Weiterbildungsangebot um das Modul ‚Machine Learning mit Python‘ ergänzt.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik, Ingenieurwesen oder Wirtschaftswissenschaften, abgeschlossen haben, was würden Sie diesen jungen Damen und Herren raten, wie sie gute Data Scientists mit gutem Verständnis für Machine Learning werden können?

Neugierig sein wäre ein Tipp von mir. Im Bereich Deep Learning gibt es ja ständig neue Ideen, neue Netze. Die Implementierungen sind meist verfügbar, also kann und sollte man die Sachen ausprobieren. Je mehr Netze sie selbst zum Laufen gebracht und angewendet haben, umso besser werden sie.  Und auch nur so  verlieren sie nicht den Anschluss.

Interview – Nutzen und Motivation der medizinischen Datenanalyse

Interview mit Prof. Thomas Schrader zur Motivation des Erlernens von Clinical Data Analytics

Prof. Dr. Thomas Schrader ist Fachbereichsleiter Informatik und Medien an der TH Brandenburg und hat seinen Projekt- und Lehrschwerpunkt in der Medizininformatik. Als Experte für Data Science verknüpft er das Wissen um Informatik und Statistik mit einem medizinischen Verständnis. Dieses Wissen wird genutzt, um eine beweisorientierte Diagnose stellen, aber auch, um betriebswirtschaftliche Prozesse zu verbessern. Prof. Thomas Schrader ist zudem Dozent und Mitgestalter des Zertifikatskurses Clinical Data Analytics.

Data Science Blog: Wie steht es um die medizinische Datenanalyse? Welche Motivation gibt es dafür, diese zu erlernen und anzuwenden?

Die Digitalisierung ist inzwischen auch in der Medizin angekommen. Befunde, Laborwerte und Berichte werden elektronisch ausgetauscht und stehen somit digital zur Verfügung. Ob im Krankenhaus, im Medizinischen Versorgungszentrum oder in der ambulanten Praxis, medizinische Daten dienen zur Befunderhebung, Diagnosestellung oder zur Therapiekontrolle.

Über mobile Anwendungen, Smart Phones und Smart Watches werden ebenfalls Daten erhoben und PatientInnen stellen diese zur Einsicht zur Verfügung.

Die Verwaltung der Daten und die richtige Nutzung der Daten wird zunehmend zu einer notwendigen Kompetenz im medizinischen Berufsalltag. Jetzt besteht die Chance, den Umgang mit Daten zu erlernen, deren Qualität richtig zu beurteilen und den Prozess der fortschreitenden Digitalisierung zu gestalten.

Daten haben Eigenschaften, Daten haben eine Lebenszeit, einen Lebenszyklus. Ähnlich einem Auto, sind verschiedene Personen in unterschiedlichen Rollen daran beteiligt und verantwortlich , Daten zu erheben, zu speichern oder Daten zur Verfügung zu stellen. Je nach Art der Daten, abhängig von der Datenqualität lassen sich diese Daten weiterverwenden und ggf. Schlussfolgerungen ziehen. Die Möglichkeit aus Daten Wissen zu generieren, ist für die medizinische Arbeit eine große Chance und Herausforderung.

Data Science Blog: Bedeutet MDA gleich BigData?

Big Data ist inzwischen ein Buzzwort: Alles soll mit BigData und der Anwendung von künstlicher Intelligenz gelöst werden. Es entsteht aber der Eindruck, dass nur die großen Firmen (Google, Facebook u.a.) von BigData profitieren. Sie verwenden ihre Daten, um Zielgruppen zu differenzieren, zu identifizieren und Werbung zu personalisieren.

Medizinische Datenanalyse ist nicht BigData! Medizinische Datenanalyse kann lokal mit den Daten eines Krankenhauses, eines MVZ oder ambulanten Praxis durchgeführt werden. Explorativ wird das Wissen aus diesen Daten erschlossen. Es können schon auf dieser Ebene Indikatoren der medizinischen Versorgung erhoben werden. Es lassen sich Kriterien berechnen, die als Indikatoren für die Detektion von kritischen Fällen dienen.

Mit einer eigenen Medizinischen Datenanalyse lassen sich eigene Daten analysieren, ohne jemals die Kontrolle über die Daten abzugeben. Es werden dabei Methoden verwendet, die teilweise auch bei Big Data Anwendung finden.

Data Science Blog: Für wen ist das Erlernen der medizinischen Datenanalyse interessant?

Die Medizinische Datenanalyse ist für alle interessant, die sich mit Daten und Zahlen in der Medizin auseinandersetzen. Die Frage ist eigentlich, wer hat nichts mit Daten zu tun?

Im ersten Augenblick fallen die ambulant und klinisch tätigen ÄrztInnen ein, für die MDA wichtig wäre: in einer Ambulanz kommt ein für diese Praxis typisches Spektrum an PatientInnen mit ihren Erkrankungsmustern. MDA kann diese spezifischen Eigenschaften charakterisieren, denn darin liegt ja Wissen: Wie häufig kommen meine PatientInnen mit der Erkrankung X zu mir in die Praxis? Dauert bei einigen PatientInnen die Behandlungszeit eigentlich zu lange? Bleiben PatientInnen weg, obwohl sie noch weiter behandelt werden müssten? Dahinter liegen also viele Fragen, die sich sowohl mit der Wirtschaftlichkeit als auch mit der Behandlungsqualität auseinandersetzen. Diese sehr spezifischen Fragen wird Big Data übrigens niemals beantworten können.

Aber auch die Pflegekräfte benötigen eigentlich dringend Werkzeuge für die Bereitstellung und Analyse der Pflegedaten. Aktuell wird sehr über die richtige Personalbesetzung von Stationen und Pflegeeinrichtungen diskutiert. Das eigentliche Problem dabei ist, dass für die Beantwortung dieser Frage Zahlen notwendig sind: über dokumentierte Pflegehandlungen, Arbeitszeiten und Auslastung. Inzwischen wird damit begonnen, dieses Daten zu erheben, aber es fehlen eine entsprechende Infrastruktur dieses Daten systematisch zu erfassen, auszuwerten und in einen internationalen, wissenschaftlichen Kontext zu bringen. Auch hier wird Big Data keine Erkenntnisse bringen: weil keine Daten vorhanden sind und weil keine ExpertIn aus diesem Bereich die Daten untersucht.

Die Physio-, ErgotherapeutInnen und LogopädInnen stehen aktuell unter dem hohen Druck, einen Nachweis ihrer therapeutischen Intervention zu bringen. Es geht auch hier schlicht darum, ob auch zukünftig alle Therapieformen bezahlt werden. Über die Wirksamkeit von Physio-, Ergo- und Logopädie können nur Statistiken Auskunft geben. Auch diese Berufsgruppen profitieren von der Medizinischen Datenanalyse.

In den Kliniken gibt es Qualitäts- und Risikomanager. Deren Arbeit basiert auf Zahlen und Statistiken. Die Medizinische Datenanalyse kann helfen, umfassender, besser über die Qualität und bestehende Risiken Auskunft zu geben.

Data Science Blog: Was kann genau kann die medizinische Datenanalyse leisten?

Die Technische Hochschule Brandenburg bietet einen Kurs Medizinische/ Klinische Datenanalyse an. In diesem Kurs wird basierend auf dem Lebenszyklus von Daten vermittelt, welche Aufgaben zu leisten sind, um gute Analysen durchführen zu können. Das fängt bei der Datenerhebung an, geht über die richtige und sichere Speicherung der Daten unter Beachtung des Datenschutzes und die Analyse der Daten. Da aber gerade im medizinischen Kontext die Ergebnisse eine hohe Komplexität aufweisen können, kommt auch der Visualisierung und Präsentation von Daten eine besondere Bedeutung zu. Eine zentrale Frage, die immer beantwortet werden muss, ist, ob die Daten für bestimmte Aussagen oder Entscheidungen tauglich sind. Es geht um die Datenqualität. Dabei ist nicht immer die Frage zu beantworten, ob das “gute” oder “schlechte” Daten sind, sondern eher um die Beschreibung der spezifischen Eigenschaften von Daten und die daraus resultierenden Verwendungsmöglichkeiten.

Data Science Blog: Sie bieten an der TH Brandenburg einen Zertifikatskurs zum Erlernen der Datenanalyse im Kontext der Medizin an. Was sind die Inhalte des Kurses?

Der Kurs gliedert sich in drei Module:

– Modul 1 – Daten aus Klinik und Pflege – Von den Daten zur Information: In diesem Modul wird auf die unterschiedlichen Datenquellen eingegangen und deren Qualität näher untersucht. Daten allein sagen zuweilen sehr wenig, sie müssen in einen Zusammenhang gebracht werden, damit daraus verwertbare Informationen. Im Mittelpunkt stehen die Teile des Datenlebenszyklus, die sich mit der Erhebung und Speicherung der Daten beschäftigen.

– Modul 2 – Anwenden der Werkzeuge: Analysieren, Verstehen und Entscheiden – Von Information zum Wissen. Der Schritt von Information zu Wissen wird dann begangen, wenn eine Strukturierung und Analyse der Informationen erfolgt: Beschreiben, Zusammenfassen und Zusammenhänge aufdecken.

– Modul 3 – Best practice – Fallbeispiele: Datenanalyse für die Medizin von morgen – von smart phone bis smart home, von Registern bis sozialen Netzen: In diesem Modul wird an Hand von verschiedenen Beispielen der gesamte Datenlebenszyklus dargestellt und mit Analysen sowie Visualisierung abgeschlossen.

Data Science Blog: Was unterscheidet dieser Kurs von anderen? Und wie wird dieser Kurs durchgeführt?

Praxis, Praxis, Praxis. Es ist ein anwendungsorientierter Kurs, der natürlich auch seine theoretische Fundierung erhält aber immer unter dem Gesichtspunkt, wie kann das theoretische Wissen direkt für die Lösung eines Problems angewandt werden. Es werden Problemlösungsstrategien vermittelt, die dabei helfen sollen verschiedenste Fragestellung in hoher Qualität aufarbeiten zu können.

In wöchentlichen Online-Meetings wird das Wissen durch Vorlesungen vermittelt und in zahlreichen Übungen trainiert. In den kurzen Präsenzzeiten am Anfang und am Ende eines Moduls wird der Einstieg in das Thema gegeben, offene Fragen diskutiert oder abschließend weitere Tipps und Tricks gezeigt. Jedes Modul wird mit einer Prüfung abgeschlossen und bei Bestehen vergibt die Hochschule ein Zertifikat. Für den gesamten Kurs gibt es dann das Hochschulzertifikat „Clinical Data Analyst“.

Der Zertifikatskurs „Clinical Data Analytics“ umfasst die Auswertung von klinischen Daten aus Informationssystemen im Krankenhaus und anderen medizinischen und pflegerischen Einrichtungen. Prof. Thomas Schrader ist einer der Mitgestalter des Kurses. Weitere Informationen sind stets aktuell auf www.th-brandenburg.de abrufbar.

R oder Python – Die Sprache der Wahl in einem Data Science Weiterbildungskurs

Die KDnuggets, ein einflussreicher Newletter zu Data Mining und inzwischen auch zu Data Science, überraschte kürzlich mit der Meldung „Python eats away at R: Top Software for Analytics, Data Science, Machine Learning in 2018. Trends and Analysis“.[1] Grundlage war eine Befragung, an der mehr als 2300 KDNuggets Leser teilnahmen. Nach Bereinigung um die sogenannten „Lone Voters“, gingen insgesamt 2052 Stimmen in die Auswertung ein.

Demnach stieg der Anteil der Python-Nutzer von 2017 bis 2018 um 11% auf 65%, während mit 48% weniger als die Hälfte der Befragungsteilnehmer noch R nannten. Gegenüber 2017 ging der Anteil von R um 14% zurück. Dies ist umso bemerkenswerter, als dass bei keinem der übrigen Top Tools eine Verminderung des Anteils gemessen wurde.

Wir verzichten an dieser Stelle darauf, die Befragungsergebnisse selbst in Frage zu stellen oder andere Daten herbeizuziehen. Stattdessen nehmen wir erst einmal die Zahlen wie sie sind und konzedieren einen gewissen Python Hype. Das Python Konjunktur hat, zeigt sich z.B. in der wachsenden Zahl von Buchtiteln zu Python und Data Science oder in einem Machine Learning Tutorial der Zeitschrift iX, das ebenfalls auf Python fußt. Damit stellt sich die Frage, ob ein Weiterbildungskurs zu Data Science noch guten Gewissens auf R als Erstsprache setzen kann.

Der Beantwortung dieser Frage seien zwei Bemerkungen vorangestellt:

  1. Ob die eine Sprache „besser“ als die andere ist, lässt sich nicht abschließend beantworten. Mit Blick auf die Teilarbeitsgebiete des Data Scientists, also Datenzugriff, Datenmanipulation und Transformation, statistische Analysen und visuelle Aufbereitung zeigt sich jedenfalls keine prinzipielle Überlegenheit der einen über die andere Sprache.
  2. Beide Sprachen sind quicklebendig und werden bei insgesamt steigenden Nutzerzahlen dynamisch weiterentwickelt.

Das Beispiel der kürzlich gegründeten Ursa Labs[2] zeigt überdies, dass es zukünftig weniger darum gehen wird „Werkzeuge für eine einzelne Sprache zu bauen…“ als darum „…portable Bibliotheken zu entwickeln, die in vielen Programmiersprachen verwendet werden können“[3].

Die zunehmende Anwendung von Python in den Bereichen Data Science und Machine Learning hängt auch damit zusammen, dass Python ursprünglich als Allzweck-Programmiersprache konzipiert wurde. Viele Entwickler und Ingenieure arbeiteten also bereits mit Python ohne dabei mit analytischen Anwendungen in Kontakt zu kommen. Wenn diese Gruppen gegenwärtig mehr und mehr in den Bereichen Datenanalyse, Statistik und Machine Learning aktiv werden, dann greifen sie naturgemäß zu einem bekannten Werkzeug, in diesem Fall zu einer bereits vorhandenen Python Implementation.

Auf der anderen Seite sind Marketingfachleute, Psychologen, Controller und andere Analytiker eher mit SPSS und Excel vertraut. In diesen Fällen kann die Wahl der Data Science Sprache freier erfolgen. Für R spricht dann zunächst einmal seine Kompaktheit. Obwohl inzwischen mehr als 10.000 Erweiterungspakete existieren, gibt es mit www.r-project.org immer noch eine zentrale Anlaufstelle, von der über einen einzigen Link der Download eines monolithischen Basispakets erreichbar ist.

Demgegenüber existieren für Python mit Python 2.7 und Python 3.x zwei nach wie vor aktive Entwicklungszweige. Fällt die Wahl z.B. auf Python 3.x, dann stehen mit Python3 und Ipython3 wiederum verschiedene Interpreter zur Auswahl. Schließlich gibt es noch Python Distributionen wie Anaconda. Anaconda selbst ist in zwei „Geschmacksrichtungen“ (flavors) verfügbar als Miniconda und eben als Anaconda.

R war von Anfang an als statistische Programmiersprache konzipiert. Nach allen subjektiven Erfahrungen eignet es sich allein schon deshalb besser zur Erläuterung statistischer Methoden. Noch vor wenigen Jahren galt R als „schwierig“ und Statistikern vorbehalten. In dem Maße, in dem wissenschaftlich fundierte Software Tools in den Geschäftsalltag vordringen wird klar, dass viele der zunächst als „schwierig“ empfundenen Konzepte letztlich auf Rationalität und Arbeitsersparnis abzielen. Fehler, Bugs und Widersprüche finden sich in R so selbstverständlich wie in allen anderen Programmiersprachen. Bei der raschen Beseitigung dieser Schwächen kann R aber auf eine große und wache Gemeinschaft zurückgreifen.

Die Popularisierung von R erhielt durch die Gründung des R Consortiums zu Beginn des Jahres 2015 einen deutlichen Schub. Zu den Initiatoren dieser Interessengruppe gehörte auch Microsoft. Tatsächlich unterstützt Microsoft R auf vielfältige Weise unter anderem durch eine eigene Distribution unter der Bezeichnung „Microsoft R Open“, die Möglichkeit R Code in SQL Anweisungen des SQL Servers absetzen zu können oder die (angekündigte) Weitergabe von in Power BI erzeugten R Visualisierungen an Excel.

Der Vergleich von R und Python in einem fiktiven Big Data Anwendungsszenario liefert kein Kriterium für die Auswahl der Unterrichtssprache in einem Weiterbildungskurs. Aussagen wie x ist „schneller“, „performanter“ oder „besser“ als y sind nahezu inhaltsleer. In der Praxis werden geschäftskritische Big Data Anwendungen in einem Umfeld mit vielen unterschiedlichen Softwaresystemen abgewickelt und daher von vielen Parametern beeinflusst. Wo es um Höchstleistungen geht, tragen R und Python häufig gemeinsam zum Ergebnis bei.

Der Zertifikatskurs „Data Science“ der AWW e. V. und der Technischen Hochschule Brandenburg war schon bisher nicht auf R beschränkt. Im ersten Modul geben wir z.B. auch eine Einführung in SQL und arbeiten mit ETL-Tools. Im gerade zu Ende gegangenen Kurs wurde Feature Engineering auf der Grundlage eines Python Lehrbuchs[4] behandelt und die Anweisungen in R übersetzt. In den kommenden Durchgängen werden wir dieses parallele Vorgehen verstärken und wann immer sinnvoll auch auf Lösungen in Python hinweisen.

Im Vertiefungsmodul „Machine Learning mit Python“ schließlich ist Python die Sprache der Wahl. Damit tragen wir der Tatsache Rechnung, dass es zwar Sinn macht in die grundlegenden Konzepte mit einer Sprache einzuführen, in der Praxis aber Mehrsprachigkeit anzutreffen ist.

[1] https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

[2] https://ursalabs.org/

[3] Statement auf der Ursa Labs Startseite, eigene Übersetzung.

[4] Sarkar, D et al. Practical Machine Learning with Python, S. 177ff.

Ständig wachsende Datenflut – Muss nun jeder zum Data Scientist werden?

Weltweit rund 163 Zettabyte – so lautet die Schätzung von IDC für die Datenmenge weltweit im Jahr 2025. Angesichts dieser kaum noch vorstellbaren Zahl ist es kein Wunder, wenn Anwender in Unternehmen sich überfordert fühlen. Denn auch hier muss vieles analysiert werden – eigene Daten aus vielen Bereichen laufen zusammen mit Daten Dritter, seien es Dienstleister, Partner oder gekaufter Content. Und all das wird noch ergänzt um Social Content – und soll dann zu sinnvollen Auswertungen zusammengeführt werden. Das ist schon für ausgesprochene Data Scientists keine leichte Aufgabe, von normalen Usern ganz zu schweigen. Doch es gibt eine gute Nachricht dabei: den Umgang mit Daten kann man lernen.

Echtes Datenverständnis – Was ist das?

Unternehmen versuchen heute, möglichst viel Kapital aus den vorhandenen Daten zu ziehen und erlauben ihren Mitarbeitern kontrollierten, aber recht weit gehenden Zugriff. Das hat denn auch etliche Vorteile, denn nur wer Zugang zu Daten hat, kann Prozesse beurteilen und effizienter gestalten. Er kann mehr Informationen zu Einsichten verwandeln, Entwicklungen an den realen Bedarf anpassen und sogar auf neue Ideen kommen. Natürlich muss der Zugriff auf Informationen gesteuert und kontrolliert sein, denn schließlich muss man nicht nur Regelwerken wie Datenschutzgrundverordnung gehorchen, man will auch nicht mit den eigenen Daten dem Wettbewerb weiterhelfen.

Aber davon abgesehen, liegt in der umfassenden Auswertung auch die Gefahr, von scheinbaren Erkenntnissen aufs Glatteis geführt zu werden. Was ist wahr, was ist Fake, was ein Trugschluss? Es braucht einige Routine um den Unsinn in den Daten erkennen zu können – und es braucht zuverlässige Datenquellen. Überlässt man dies den wenigen Spezialisten im Haus, so steigt das Risiko, dass nicht alles geprüft wird oder auf der anderen Seite Wichtiges in der Datenflut untergeht. Also brauchen auch solche Anwender ein gewisses Maß an Datenkompetenz, die nicht unbedingt Power User oder professionelle Analytiker sind. Aber in welchem Umfang? So weit, dass sie fähig sind, Nützliches von Falschem zu unterscheiden und eine zielführende Systematik auf Datenanalyse anzuwenden.

Leider aber weiß das noch nicht jeder, der mit Daten umgeht: Nur 17 Prozent von über 5.000 Berufstätigen in Europa fühlen sich der Aufgabe gewachsen – das sagt die Data-Equality-Studie von Qlik. Und für Deutschland sieht es sogar noch schlechter aus, hier sind es nur 14 Prozent, die glauben, souverän mit Daten umgehen zu können. Das ist auch nicht wirklich ein Wunder, denn gerade einmal 49 Prozent sind (in Europa) der Ansicht, ausreichenden Zugriff auf Daten zu haben – und das, obwohl 85 Prozent glauben, mit höherem Datenzugriff auch einen besseren Job machen zu können.

Mit Wissens-Hubs die ersten Schritte begleiten

Aber wie lernt man denn nun, mit Daten richtig oder wenigstens besser umzugehen? Den Datenwust mit allen Devices zu beherrschen? An der Uni offensichtlich nicht, denn in der Data-Equality-Studie sehen sich nur 10 Prozent der Absolventen kompetent im Umgang mit Daten. Bis der Gedanke der Datenkompetenz Eingang in die Lehrpläne gefunden hat, bleibt Unternehmen nur die Eigenregie  – ein „Learning by Doing“ mit Unterstützung. Wie viel dabei Eigeninitiative ist oder anders herum, wieviel Weiterbildung notwendig ist, scheint von Unternehmen zu Unternehmen unterschiedlich zu sein. Einige Ansätze haben sich jedoch schon bewährt:

  • Informationsveranstaltungen mit darauf aufbauenden internen und externen Schulungen
  • Die Etablierung von internen Wissens-Hubs: Data Scientists und Power-User, die ihr Know-how gezielt weitergeben: ein einzelne Ansprechpartner in Abteilungen, die wiederum ihren Kollegen helfen können. Dieses Schneeball-Prinzip spart viel Zeit.
  • Eine Dokumentation, die gerne auch informell wie ein Wiki oder ein Tutorial aufgebaut sein darf – mit der Möglichkeit zu kommentieren und zu verlinken. Nützlich ist auch ein Ratgeber, wie man Daten hinterfragt oder wie man Datenquellen hinter einer Grafik bewertet.
  • Management-Support und Daten-Incentives, die eine zusätzliche Motivation schaffen können. Dazu gehört auch, Freiräume zu schaffen, in denen sich Mitarbeiter mit Daten befassen können – Zeit, aber auch die Möglichkeit, mit (Test-)Daten zu spielen.

Darüber hinaus aber braucht es eine Grundhaltung, die sich im Unternehmen etablieren muss: Datenkompetenz muss zur Selbstverständlichkeit werden. Wird sie zudem noch spannend gemacht, so werden sich viele Mitarbeiter auch privat mit der Bewertung und Auswertung von Daten beschäftigen. Denn nützliches Know-how hat keine Nutzungsgrenzen – und Begeisterung steckt an.

Lexoro Data Science Survey

Wir von lexoro möchten die Community mit informativen Beiträgen fördern und erstellen dazu regelmäßige Mini-Studien. Die aktuelle Umfrage finden Sie in diesen Artikel eingebettet (siehe unten) oder mit einem Klick auf diesen Direktlink.

Data Science…more than Python, TensorFlow & Neural Networks

Künstliche Intelligenz, Data Science, Machine Learning – das sind die Schlagwörter der Stunde. Man kann sich den Berichten und Artikeln über die technologischen Entwicklungen, Trends und die Veränderungen, die uns bevorstehen kaum entziehen. Viele sind sich einig: Wir stehen vor einem Paradigmenwechsel vorangetrieben durch einen technologischen Fortschritt, dessen Geschwindigkeit – auch wenn es vielen zu schnell geht – exponentiell zunimmt. Und auch wenn wir noch am Anfang dieses neuen Zeitalters stehen, so sind die Veränderungen jetzt schon zu spüren – in den Unternehmen, in unserem Alltag, in unserer Kommunikation…

Der Arbeitsmarkt im Speziellen sieht sich auch einem starken Veränderungsprozess unterworfen. Berufe, die noch vor nicht allzu langer Zeit als nicht durch Maschinen ersetzbar galten, sind dabei zu verschwinden oder zumindest sich zu verändern. Gleichzeitig entstehen neue Jobs, neue Rollen, neue Verantwortungsbereiche. Kaum ein Unternehmen kommt daran vorbei sich den Herausforderungen dieses technologischen Wandels zu stellen. Neue Strukturen, Abteilungen, Arbeitsmodelle und Jobs entstehen.

Doch um auf die anfangs genannten Hype-Begriffe zurückzukommen – was verbirgt sich eigentlich hinter Data Science, Machine Learning und Artificial Intelligence?! Was macht einen guten Data Scientist eigentlich aus?

Die Antwort scheint aus Sicht vieler Manager einfach: im Studium Python lernen, regelmäßig Big Data Tools von Hadoop nutzen, sich in TensorFlow einarbeiten und etwas über Neural Networks lesen – und fertig ist der Data Scientist. Doch so einfach ist es leider nicht. Oder eher zum Glück?! Neue Job-Rollen erfordern auch neue Denkweisen im Recruiting! Wir entfernen uns von einem strikten Rollen-basiertem Recruiting und fokussieren uns immer mehr auf die individuellen Kompetenzen und Stärken der einzelnen Personen. Wir sind davon überzeugt, dass die treibenden Köpfe hinter der bereits laufenden Datenrevolution deutlich facettenreicher und vielschichtiger sind als sich das so mancher vielleicht wünschen mag.

Diesem Facettenreichtum und dieser Vielschichtigkeit wollen wir auf den Grund gehen und dieser Survey soll einen Beitrag dazu leisten. Welche Kompetenzen sollte ein guter Data Scientist aus Ihrer Sicht mitbringen? In welchen Bereichen würden Sie persönlich sich gerne weiterentwickeln? Haben Sie die Möglichkeiten dazu? Sind Sie auf dem richtigen Weg sich zu einem Data Scientist oder Machine Learning Expert zu entwickeln? Oder suchen Sie nach einem ganz anderen Karriereweg?
Mit einem Zeit-Investment von nur 5 Minuten leisten Sie einen wertvollen Beitrag zur Entwicklung unseres A.I.-Skillprints, der es ermöglichen wird, eine automatische, datengestützte Analyse Ihrer A.I.-bezogenen Fähigkeiten durchzuführen und Empfehlungen für eine optimale Karriereentwicklung zu erhalten.

Vielen Dank im Voraus für Ihre Teilnahme!

Das lexoro-Team


Data Science Survey by lexoro.ai

Ergebnisse unserer ersten Data Science Survey

Wie denken Data Scientists über ihre Skills, ihre Karriere und ihre Arbeitgeber? Data Science, Machine Learning, Künstliche Intelligenz – mehr als bloße Hype-Begriffe und entfernte Zukunftsmusik! Wir stecken mitten in massiven strukturellen Veränderungen. Die Digitalisierungswelle der vergangenen Jahre war nur der Anfang. Jede Branche ist betroffen. Schnell kann ein Gefühl von Bedrohung und Angst vor dem Unbekannten aufkommen. Tatsächlich liegen aber nie zuvor dagewesene Chancen und Potentiale vor unseren Füßen. Die Herausforderung ist es diese zu erkennen und dann die notwendigen Veränderungen umzusetzen.
Diese Survey möchte deshalb die Begriffe Data Science und Machine Learning einmal genauer beleuchten. Was steckt überhaupt hinter diesen Begriffen? Was muss ein Data Scientist können? Welche Gedanken macht sich ein Data Scientist über seine Karriere? Und sind Unternehmen hinsichtlich des Themas Machine Learning gut aufgestellt? Nun möchten wir die Ergebnisse dieser Umfrage vorstellen:



Link zu den Ergebnissen der ersten Data Science Survey by lexoro.ai

Interesse an einem Austausch zu verschiedenen Karriereperspektiven im Bereich Data Science/ Machine Learning? Dann registrieren Sie sich direkt auf dem lexoro Talent Check-In und ein lexoro-Berater wird sich bei Ihnen melden.