Statistik Challenge

Bring Deine Arbeit einen großen Schritt voran.
Mach mit bei der Statistik-Challenge!

https://statistik-und-beratung.de/statistik-challenge/

 Was?

Die Challenge ist komplett gratis. Es gibt keinen Haken!

Jeden Tag bekommst Du einen kurzen Statistik-Input von mir und ich beantworte Deine Statistikfragen. Anschließend arbeitet jeder für sich in Ruhe an seiner Arbeit. Nach dieser fokussierten Arbeitszeit klären wir in einer Abschlussrunde nochmal Deine neuen Fragen.

Durch diese Challenge wirst Du motiviert und kannst intensiv an Deinen Baustellen arbeiten. Deine Fragen werden schnell geklärt und Du kommst gut voran.

Wie?

In der Statistik-Challenge treffen wir uns jeden Vormittag (Montag, 11. bis Mittwoch, 12. Mai 2020, 8.30 Uhr bis 12.30 Uhr) im Online-Seminarraum. Du bekommst den Zugangslink jeweils am Morgen per Mail zugeschickt.

Du siehst und hörst mich und kannst Dich über den Chat in den Fragerunden mit mir und den anderen Teilnehmern austauschen.

In der fokussierten Arbeitszeit schalte ich mein Mikro aus, so dass jeder in Ruhe arbeiten kann.

Trage hier Deinen Namen und Deine E-Mail-Adresse in mein Formular hier ein und Du bist kostenlos dabei!

Interview: Künstliche Intelligenz in der Pharma-Forschung und -Entwicklung

Interview mit Anna Bauer-Mehren, Head of Data Science in der Pharma-Forschung und -Entwicklung bei Roche in Penzberg

Frau Dr. Bauer-Mehren ist Head of Data Science im Bereich Pharma-Forschung und -Entwicklung bei Roche in Penzberg. Sie studierte Bioinformatik an der LMU München und schloss ihre Promotion im Bereich Biomedizin an der Pompeu Fabra Universität im Jahr 2010 in Spanien ab. Heute befasst sie sich mit dem Einsatz von Data Science zur Verbesserung der medizinischen Produkte und Prozesse bei Roche. Ferner ist sie Speaker der Predictive Analytics World Healthcare (Virtual Conference, Mai 2020).

Data Science Blog: Frau Bauer-Mehren, welcher Weg hat Sie bis an die Analytics-Spitze bei Roche geführt?

Ehrlich gesagt bin ich eher zufällig zum Thema Data Science gekommen. In der Schule fand ich immer die naturwissenschaftlich-mathematischen Fächer besonders interessant. Deshalb wollte ich eigentlich Mathematik studieren. Aber dann wurde in München, wo ich aufgewachsen und zur Schule gegangen bin, ein neuer Studiengang eingeführt: Bioinformatik. Diese Kombination aus Biologie und Informatik hat mich so gereizt, dass ich die Idee des Mathe-Studiums verworfen habe. Im Bioinformatik-Studium ging es unter anderem um Sequenzanalysen, etwa von Gen- oder Protein-Sequenzen, und um Machine Learning. Nach dem Masterabschluss habe ich an der Universitat Pompeu Fabra in Barcelona in biomedizinischer Informatik promoviert. In meiner Doktorarbeit und auch danach als Postdoktorandin an der Stanford School of Medicine habe ich mich mit dem Thema elektronische Patientenakten beschäftigt. An beiden Auslandsstationen kam ich auch immer wieder in Berührung mit Themen aus dem Pharma-Bereich. Bei meiner Rückkehr nach Deutschland hatte ich die Pharmaforschung als Perspektive für meine berufliche Zukunft fest im Blick. Somit kam ich zu Roche und leite seit 2014 die Abteilung Data Science in der Pharma-Forschung und -Entwicklung.

Data Science Blog: Was sind die Kernfunktionen der Data Science in Ihrem Bereich der Pharma-Forschung und -Entwicklung?

Ich bin Abteilungsleiterin für Data Science von pREDi (Pharma Research and Early Development Informatics), also von Roches Pharma-Forschungsinformatik. Dieser Bereich betreut alle Schritte von der Erhebung der Daten bis zur Auswertung und unterstützt alle Forschungsgebiete von Roche, von den Neurowissenschaften und der Onkologie bis hin zu unseren Biologie- und Chemielaboren, die die Medikamente herstellen. Meine Abteilung ist für die Auswertung der Daten zuständig. Wir beschäftigen uns damit, Daten so aufzubereiten und auszuwerten, dass daraus neue Erkenntnisse für die Erforschung und Entwicklung sowie die Optimierung von pharmazeutischen Produkten und Therapien gewonnen werden könnten. Das heißt, wir wollen die Daten verstehen, interpretieren und zum Beispiel einen Biomarker finden, der erklärt, warum manche Patienten auf ein Medikament ansprechen und andere nicht.

Data Science Blog: Die Pharmaindustrie arbeitet schon seit Jahrzehnten mit Daten z. B. über Diagnosen, Medikationen und Komplikationen. Was verbessert sich hier gerade und welche Innovationen geschehen hier?

Für die medizinische Forschung ist die Qualität der Daten sehr wichtig. Wenn ein Medikament entwickelt wird, fallen sehr große Datenmengen an. Früher hat niemand dafür gesorgt, dass diese Daten so strukturiert und aufbereitet werden, dass sie später auch in der Forschung oder bei der Entwicklung anderer Medikamente genutzt werden können. Es gab noch kein Bewusstsein dafür, dass die Daten auch über den eigentlichen Zweck ihrer Erhebung hinaus wertvoll sein könnten. Das hat sich mittlerweile deutlich verbessert, auch dank des Bereichs Data Science. Heute ist es normal, die eigenen Daten „FAIR“ zu machen. Das Akronym FAIR steht für findable, accessible, interoperable und reusable. Das heißt, dass man die Daten so sauber managen muss, dass Forscher oder andere Entwickler sie leicht finden, und dass diese, wenn sie die Berechtigung dafür haben, auch wirklich auf die Daten zugreifen können. Außerdem müssen Daten aus unterschiedlichen Quellen zusammengebracht werden können. Und man muss die Daten auch wiederverwenden können.

Data Science Blog: Was sind die Top-Anwendungsfälle, die Sie gerade umsetzen oder für die Zukunft anstreben?

Ein Beispiel, an dem wir zurzeit viel forschen, ist der Versuch, so genannte Kontrollarme in klinischen Studien zu erstellen. In einer klinischen Studie arbeitet man ja immer mit zwei Patientengruppen: Eine Gruppe der Patienten bekommt das Medikament, das getestet werden soll, während die anderen Gruppe, die Kontrollgruppe, beispielsweise ein Placebo oder eine Standardtherapie erhält. Und dann wird natürlich verglichen, welche der zwei Gruppen besser auf die Therapie anspricht, welche Nebenwirkungen auftreten usw. Wenn wir jetzt in der Lage wären, diesen Vergleich anhand von schon vorhanden Patientendaten durchzuführen, quasi mit virtuellen Patienten, dann würden wir uns die Kontrollgruppe bzw. einen Teil der Kontrollgruppe sparen. Wir sprechen hierbei auch von virtuellen oder externen Kontrollarmen. Außerdem würden wir dadurch auch Zeit und Kosten sparen: Neue Medikamente könnten schneller entwickelt und zugelassen werden, und somit den ganzen anderen Patienten mit dieser speziellen Krankheit viel schneller helfen.

Data Science Blog: Mit welchen analytischen Methoden arbeiten Sie und welche Tools stehen dabei im Fokus?

Auch wir arbeiten mit den gängigen Programmiersprachen und Frameworks. Die meisten Data Scientists bevorzugen R und/oder Python, viele verwenden PyTorch oder auch TensorFlow neben anderen.  Generell nutzen wir durchaus viel open-source, lizenzieren aber natürlich auch Lösungen ein. Je nachdem um welche Fragestellungen es sich handelt, nutzen wir eher statistische Modelle- Wir haben aber auch einige Machine Learning und Deep Learning use cases und befassen uns jetzt auch stark mit der Operationalisierung von diesen Modellen. Auch Visualisierung ist sehr wichtig, da wir die Ergebnisse und Modelle ja mit Forschern teilen, um die richtigen Entscheidungen für die Forschung und Entwicklung zu treffen. Hier nutzen wir z.B. auch RShiny oder Spotfire.

Data Science Blog: Was sind Ihre größten Herausforderungen dabei?

In Deutschland ist die Nutzung von Patientendaten noch besonders schwierig, da die Daten hier, anders als beispielsweise in den USA, dem Patienten gehören. Hier müssen erst noch die notwendigen politischen und rechtlichen Rahmenbedingungen geschaffen werden. Das Konzept der individualisierten Medizin funktioniert aber nur auf Basis von großen Datenmengen. Aktuell müssen wir uns also noch um die Fragen kümmern, wo wir die Datenmengen, die wir benötigen, überhaupt herbekommen. Leider sind die Daten von Patienten, ihren Behandlungsverläufen etc. in Deutschland oft noch nicht einmal digitalisiert. Zudem sind die Daten meist fragmentiert und auch in den kommenden Jahren wird uns sicherlich noch die Frage beschäftigen, wie wir die Daten so sinnvoll erheben und sammeln können, dass wir sie auch integrieren können. Es gibt Patientendaten, die nur der Arzt erhebt. Dann gibt es vielleicht noch Daten von Fitnessarmbändern oder Smartphones, die auch nützlich wären. Das heißt, dass wir aktuell, auch intern, noch vor der Herausforderung stehen, dass wir die Daten, die wir in unseren klinischen Studien erheben, nicht ganz so einfach mit den restlichen Datenmengen zusammenbringen können – Stichwort FAIRification. Zudem reicht es nicht nur, Daten zu besitzen oder Zugriff auf Daten zu haben, auch die Datenqualität und -organisation sind entscheidend. Ich denke, es ist sehr wichtig, genau zu verstehen, um was für Daten es sich handelt, wie diese Erhoben wurden und welche (wissenschaftliche) Frage ich mit den Daten beantworten möchte. Ein gutes Verständnis der Biologie bzw. Medizin und der dazugehörigen Daten sind also für uns genauso wichtig wie das Verständnis von Methoden des Machine Learning oder der Statistik.

Data Science Blog: Wie gehen Sie dieses Problem an? Arbeiten Sie hier mit dedizierten Data Engineers? Binden Sie Ihre Partner ein, die über Daten verfügen? Freuen Sie sich auf die Vorhaben der Digitalisierung wie der digitalen Patientenakte?

Roche hat vor ein paar Jahren die Firma Flatiron aus den USA übernommen. Diese Firma bereitet Patientendaten zum Beispiel aus der Onkologie für Krankenhäuser und andere Einrichtungen digital auf und stellt sie für unsere Forschung – natürlich in anonymisierter Form – zur Verfügung. Das ist möglich, weil in den USA die Daten nicht den Patienten gehören, sondern dem, der sie erhebt und verwaltet. Zudem schaut Roche auch in anderen Ländern, welche patientenbezogenen Daten verfügbar sind und sucht dort nach Partnerschaften. In Deutschland ist der Schritt zur elektronischen Patientenakte (ePA) sicherlich der richtige, wenn auch etwas spät im internationalen Vergleich. Dennoch sind die Bestrebungen richtig und ich erlebe auch in Deutschland immer mehr Offenheit für eine Wiederverwendung der Daten, um die Forschung voranzutreiben und die Patientenversorgung zu verbessern.

Data Science Blog: Sollten wir Deutsche uns beim Datenschutz lockern, um bessere medizinische Diagnosen und Behandlungen zu erhalten? Was wäre Ihr Kompromiss-Vorschlag?

Generell finde ich Datenschutz sehr wichtig und erachte unser Datenschutzgesetz in Deutschland als sehr sinnvoll. Ich versuche aber tatsächlich auf Veranstaltungen und bei anderen Gelegenheiten Vertreter der Politik und der Krankenkassen immer wieder darauf aufmerksam zu machen, wie wichtig und wertvoll für die Gesellschaft eine Nutzung der Versorgungsdaten in der Pharmaforschung wäre. Aber bei der Lösung der Problematik kommen wir in Deutschland nur sehr langsam voran. Ich sehe es kritisch, dass viel um dieses Thema diskutiert wird und nicht einfach mal Modelle ausprobiert werden. Wenn man die Patienten fragen würde, ob sie ihre Daten für die Forschung zur Verfügung stellen möchte, würden ganz viele zustimmen. Diese Bereitschaft vorher abzufragen, wäre technisch auch möglich. Ich würde mir wünschen, dass man in kleinen Pilotprojekten mal schaut, wie wir hier mit unserem Datenschutzgesetz zu einer ähnlichen Lösung wie beispielsweise Flatiron in den USA kommen können. Ich denke auch, dass wir mehr und mehr solcher Pilotprojekte sehen werden.

Data Science Blog: Gehört die Zukunft weiterhin den Data Scientists oder eher den selbstlernenden Tools, die Analysen automatisiert für die Produkt- oder Prozessverbesserung entwickeln und durchführen?

In Bezug auf Künstliche Intelligenz (KI) gibt es ein interessantes Sprichwort: Garbage in, Garbage out. Wenn ich also keine hochqualitativen Daten in ein Machine Learning Modell reinstecke, dann wird höchstwahrscheinlich auch nichts qualitativ Hochwertiges rauskommen. Das ist immer die Illusion, die beim Gedanken an KI entsteht: Ich lass einfach mal die KI über diesen Datenwust laufen und dann wird die gute Muster erkennen und wird mir sagen, was funktioniert. Das ist aber nicht so. Ich brauche schon gute Daten, ich muss die Daten gut organisieren und gut verstehen, damit meine KI wirklich etwas Sinnvolles berechnen kann. Es reichen eben nicht irgendwelche Daten, sondern die Daten müssen auch eine hohe Qualität haben, da sie sich sonst nicht integrieren und damit auch nicht interpretieren lassen. Dennoch arbeiten wir auch mit der Vision “Data Science” daran, immer mehr zu demokratisieren, d.h. es möglichst vielen Forschern zu ermöglichen, die Daten selbst auszuwerten, oder eben gewisse Prozessschritte in der Forschung durch KI zu ersetzen. Auch hierbei ist es wichtig, genau zu verstehen, was in welchem Bereich möglich ist. Und wieder denke ich, dass die richtige Erfassung/Qualität der Daten auch hier das A und O ist und dennoch oft unterschätzt wird.

Data Science Blog: Welches Wissen und welche Erfahrung setzen Sie für Ihre Data Scientists voraus? Und nach welchen Kriterien stellen Sie Data Science Teams für Ihre Projekte zusammen?

Generell sucht Roche als Healthcare-Unternehmen Bewerber mit einem Hintergrund in Informatik und Life Sciences zum Beispiel über ein Nebenfach oder einen Studiengang wie Biotechnologie oder Bioinformatik. Das ist deswegen wichtig, weil man bei Roche in allen Projekten mit Medizinern, Biologen oder Chemikern zusammenarbeitet, deren Sprache und Prozesse man verstehen sollte. Immer wichtiger werden zudem Experten für Big Data, Datenanalyse, Machine Learning, Robotics, Automatisierung und Digitalisierung.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder auch der Biologie, abgeschlossen haben, was würden sie diesen jungen Damen und Herren raten, wie sie einen guten Einstieg ins Data Science bewältigen können?

Generell empfehle ich jungen Absolventen herauszufinden für welchen Bereich ihr Herz schlägt: Interessiere ich mich dafür, tief in die Biologie einzusteigen und grundlegende Prozesse zu verstehen? Möchte ich nahe am Patienten sei? Ooder ist mir wichtiger, dass ich auf möglichst große Datenmengen zugreifen kann?  Je nachdem, kann ich als Einstieg durchaus Traineeprogramme empfehlen, die es ermöglichen, in mehrere Abteilungen einer Firma Einblicke zu bekommen, oder würde eher eine Promotion empfehlen. Ich denke, das lässt sich eben nicht pauschalisieren. Für die Arbeit bei Roche ist sicherlich entscheidend, dass ich mich neben der Informatik/Data Science auch für das Thema Medizin und Biologie interessiere. Nur dann kann ich in den interdisziplinären Teams einen wertvollen Beitrag leisten und gleichzeitig auch meiner Leidenschaft folgen. Ich denke, dass das auch in anderen Branchen ähnlich ist.


Frau Bauer-Mehren ist Speaker der Predictive Analytics World Healthcare zum Thema Unlocking the Potential of FAIR Data Using AI at Roche.

The Predictive Analytics World Healthcare is the premier machine learning conference for the Healthcare Industry. Due to the corona virus crisis, this conference will be a virtual edition from 11 to 12 MAY 2020.

NetApp INSIGHT™ 2020

Erleben Sie mit uns gemeinsam die NetApp INSIGHT™ 2020 am 24. und 25. März 2020 in Berlin! Wir zeigen Ihnen, wie Sie mit Ihrer eigenen Data Fabric Ihre hybride Multi-Cloud-Umgebung aufbauen können. Und das Beste? Sie hören nicht nur unsere Experten über die Data Fabric sprechen – Sie lernen, wie Sie Ihre eigene Data Fabric aufbauen können.

Verändern Sie Ihre Welt mit Daten.

Erfahren Sie gemeinsam mit anderen NetApp Kunden und Partnern, wie Sie mit Hilfe von Daten Innovation vorantreiben und so den Einsatz von KI und Ihre Applikationsentwicklung beschleunigen können. Tauschen Sie sich mit Gleichgesinnten aus und entdecken Sie neue Möglichkeiten, wie alle Unternehmensbereiche von der Leistungsfähigkeit der Cloud profitieren können. Lernen Sie NetApp Technologie in der Praxis kennen. Gewinnen Sie in interaktiven Breakout-Sessions tiefgehende Einblicke. Und auch der Spaß kommt dabei nicht zu kurz. 

Jetzt kostenlos registrieren


Die Tickets für unsere regionalen INSIGHT Veranstaltungen in EMEA sind in diesem Jahr kostenfrei. Wir bitten Sie jedoch, Ihre Anreise und Unterkunft individuell zu organisieren. Weitere Informationen finden Sie unter insight.netapp.com.

Herzliche Grüße,

Ihr NetApp INSIGHT Berlin Team

DATANOMIQ MeetUp: Interactive Data Exploration and GUI’s in JupyterNotebooks

After our first successful collaboration Meetup with Mister Spex, we straightly continue with our next partner: VW Digital Labs!

Join us on Wednesday, October 9 for our DATANOMIQ Data Science Meetup at VW Digital Labs and get inspired.

When:
Wednesday, October 9, time TBA

Where:
VW Digital Labs
Stralauer Allee 7, 10245 Berlin

 

AGENDA
18:30 doors open
19:00 Interactive Data Exploration and GUI’s in JupyterNotebooks – Christopher Kipp.
– using ipywidgets to get basic UI components and connet them
– qgrid to make Dataframes interactive (sortable, filterable, …)
– building interactive visualisations with bqplot

19:20 Q&A

10 minute break

19:40 second presentation
20:00 Q&A

20:15 networking

 

FREE ENTRY, snacks and drinks sponsored by VW digital labs.

Make sure to get your ticket: https://www.eventbrite.de/e/datanomiq-meetup-interactive-data-exploration-and-guis-in-jupyternotebook-tickets-72931655545

Entrance only with registration.

 

Join our MeetUp group: https://www.meetup.com/de-DE/DATANOMIQ-Data-Science-Berlin/

SUMMER SALE TICKETS

Sichern Sie sich ein Ticket für die Data Leader Days am 13. & 14. November 2019 in Berlin.

Nur noch wenige Summer Sale Tickets

(Angebot gültig bis zum 30. September 2019).

Alle Informationen finden Sie unter: www.dataleaderdays.com.

Tickets HIER.

 

 

Haben Sie Fragen?

Kontaktieren Sie uns gerne per E-Mail: info@dataleaderday.com

Wir freuen uns auf Sie!

NetApp Technologie Forum Nord/Ost

Sehr geehrter Kunden und Technik-Enthusiasten,

mehr wissen ist immer gut und ein hervorragender Grund das NetApp Technologie Forum Nordost zu besuchen. Unter dem Motto „aus der Region für die Region“ und bei unserem Kunden und Gastgeber der Medizinische Hochschule Hannover erfahren Sie, wie NetApp mit der Data Fabric die Konstitution Ihrer Dateninfrastruktur in Zeiten der Digitalisierung stärken kann.

Entdecken Sie das Neueste rund um HCI und unsere Cloud-Dienste sowie Aktuelles rund um ONTAP. Erste Hilfe, Absicherung, Vorsorge und Überwachung sind ebenso im Angebot wie KI vom Feinsten mit Nvidia, Hadoop, NVMe, Objektspeicher und Container-Orchestrierung. Speziell für Ihre Transformations-Beschwerden haben wir in der Session „Kunden fragen Kunden“ eine Selbsthilfegruppe mit NetApp Moderation vorgesehen.

Ihren Tagesablauf bestimmen Sie anhand der Agenda selbst. Melden Sie sich bitte schnellstmöglich an. Wir freuen uns auf Sie!

Mit freundlichen Grüßen

Karsten Güntner
District Manager
Sven Heisig
Manager Solutions Engineering

Data Leader Days 2018

Daten bilden das Fundament der digitalen Transformation. Die richtige Nutzung von Daten entwickelt sich daher zu einer Kernkompetenz und macht im Wettbewerb den Unterschied. Dies gilt sowohl für ganz Unternehmen als auch für einzelne Mitarbeiter, die mit Datennutzung ihre Karriere vorantreiben können.

Erfahrungen von Pionieren und führenden Anwenderunternehmen sind dafür unverzichtbar. Mit den Data Leader Days am 14. und 15. November 2018 in der Digital-Hauptstadt Berlin haben Sie die Chance, direkt von Spitzenkräften aus der Wirtschaft zu lernen und wichtige Impulse für Ihre digitale Weiterentwicklung zu erhalten.

Die Data Leader Days sind das Entscheider-Event für die Datenwirtschaft, das den Schwerpunkt auf die tatsächlichen Nutzer und Anwender-Unternehmen legt. Die Fachkonferenz hat sich seit Gründung im Jahr 2016 als eines der exklusivsten Events rund um die Themen Big Data und künstliche Intelligenz etabliert. In diesem Jahr werden die Data Leader Days erstmalig auf zwei Tage mit unterschiedlichen Schwerpunkten erweitert:

14. November 2018: Commercial & Finance Data

15. November 2018: Industrial & Automotive Data

Agenda

Die Agenda ist stets aktuell direkt auf www.dataleaderdays.com zu finden.

Sponsoren

Speaker der Data Leader Days 2018

 

 

Anmeldung

Die Data Leader Days finden dieses Jahr zum dritten Mal statt und haben sich zur Pflichtveranstaltung für Geschäftsführer, Führungskräfte und Professionals aus den Bereichen IT, Business Intelligence und Data Analytics etabliert und empfehlen sich ebenfalls für Leiter der Funktionsbereiche Einkauf, Produktion, Marketing und Finance, die das hier brachliegende Potenzial ausschöpfen wollen.

Zum Event anmelden können sich Teilnehmer direkt auf www.dataleaderdays.com oder via Xing.com (Klick).

tarent solutions GmbH @ DMEXCO 2018

Anzeige

IoT- und KI-Technologien der Zukunft: Wie profitieren wir von der großen Datenmenge?

Die Technologieagentur tarent solutions GmbH präsentiert auf der DMEXCO 2018 neue Wege im Bereich Künstliche Intelligenz. Die Besucher lernen IoT-Projekte wie den interaktiven Funkstreifenwagen und die Mobile Self-Checkout-Lösung “snabble” kennen.

Am 12. und 13. September 2018 findet in Köln die DMEXCO statt, die Digital Marketing Exposition & Conference. Die Technologieagentur tarent solutions GmbH bietet an ihrem Stand (Halle 7, Stand A-031) einen Einblick in konkrete Verfahren und Technologien in den Bereichen “Internet of Things” (IoT) und “Künstliche Intelligenz” (KI).

Predictive Maintenance: Mehr Potenzial nutzen

Für Hersteller und Händler ergeben sich zahlreiche Vorteile, wenn sie die Möglichkeiten von KI und IoT richtig verstehen und effizient einsetzen. Es geht darum, Ausfälle zu minimieren, Störungen rechtzeitig vorherzusehen und sich nicht mehr um Nachbestellungen und Wartungssysteme kümmern zu müssen. Genauso relevant ist es, durch die Analyse des Produktlebenszyklusses nachhaltiger zu agieren und das Kundenverhalten besser zu verstehen und zu nutzen.

Um von diesen Vorteilen zu profitieren, müssen Unternehmen die Daten und Logfiles, die sie bereits haben oder aktuell sammeln, mit den richtigen Verfahren von KI und Machine Learning nutzbar machen – für ihr Produktmanagement, ihr Pricing und ihr Marketing. Wie das funktioniert erläutert die tarent auf der DMEXCO.

Sicher, schnell, erfolgreich: IoT in der Praxis

Ein Beispiel für moderne IoT-Projekte ist der sogenannte “Multi-PC”, der den “interaktiven Funkstreifenwagen” ermöglicht. Dabei handelt es sich um ein multifunktionales System für Sicherheit, Vernetzung und Kommunikation. Bei der Polizei in Brandenburg und Sachsen-Anhalt sind seit vielen Jahren mehrere hundert Geräte im Einsatz. Vorteile sind u. a. schnellere Abläufe durch Echtzeitübertragung, eine flächendeckendere Präsenz, eine höhere Eigen- und Fremdsicherung sowie eine optimierte Ressourcennutzung und Koordination. Neben dem Multi-PC stellt die tarent ihre Mobile Self-Checkout-Lösung “snabble” sowie ihreDigital Signage-Technologie “roomio” für Meeting- und Konferenzraumplanungen vor.

Über die tarent solutions GmbH

Als Technologieagentur mit Sitz in Bonn, Köln, Berlin und Bukarest entwickeln wir seit mehr als 20 Jahren innovative Softwarelösungen für Unternehmen und integrieren diese in komplexe ITLandschaften. Besondere Expertise bieten wir in den Bereichen Wettbewerbsanalyse, Preismanagement und Mobile Self-Checkout sowie in der Erstellung hochskalierbarer Microservice-Plattformen und komplexer Integrationsprojekte.

Mehr auf www.tarent.de.

Broschüren / weiterführende Informationen zu den Angeboten auf  der DMEXCO:

IoT- und KI-Technologien der Zukunft_tarent auf der DMEXCO_Presseinfo

Broschüren / weiterführende Informationen zum Workshop-Angebot von Tarent zu KI for Business:

DMEXCO 2018_tarent solutions GmbH

Ansprechpartner

Philip Braches
Teamleiter Vertrieb
tarent solutions GmbH
E-Mail: p.braches@tarent.de

Data Science mit dem iPad Pro (und der Cloud)

Seit einiger Zeit versuche ich mein iPad Pro stärker in meinen Arbeitsaltag zu integrieren. Ähnlich wie Joseph (iPad Pro 10.5 as my Main Computer – Part 1, Part 2 und Part 3) sprechen auch für mich seit der Einführung des iPad Pro 9,7″, das nochmal verbesserte Display, die größeren Speicheroptionen, das faltbaren Smart Keyboard (funktioniert über einen seitlichen Konnektor und nicht über eine störanfällige BlueTooth-Verbindung) und der Apple Pencil dafür, dieses Gerät statt eines Notebooks zu nutzen.

Abbildung 1: Mein Homescreen

Neben der besseren Mobilität ist hier vor allen Dingen iOS 11 und das kommende iOS 12 zu nennen, welches mit einem verbesserte Dateisystem (transparente Einbindung von iCloud, DropBox, Google Drive etc.) und die Möglichkeit zwei Apps nebeneinander im Splitscreen auszuführen.

 

Apropos Apps: Diese sind ein weiteres Argument für mich, dieses Setup zu testen ist die unverändert gute bis sehr gute Qualität der verfügbaren iOS-Apps zu nutzen. Vorbei sind zum Glück die Zeiten, in der man keine eigenen Schriftarten (nach-) installieren kann (ich nutze dafür AnyFont), keine Kommendozeilenwerkzeug existieren (ich nutze StaSh), kein SSH-Tunneling (hier nutze ich SSH Tunnel von Yuri Bushev) funktioniert und sich GitHub/GitLab nicht nutzen lässt (hier nutze ich WorkingCopy). Ganze Arbeitsabläufe lassen sich darüber hinaus mit Hilfe von Workflow (und in iOS 12 mit Siri Shortcuts) automatisieren. Zum schreiben nutze ich verschiede Anwendungen, je nach Anwendungsfall. Für einfache (Markdown-) Texte nutze ich iA Writer und Editorial. Ulysses nutze ich nicht, da ich in dem Bereich Abomodelle nicht umbedingt bevorzuge, wenn es sich nicht vermeiden lässt.

Software Entwicklung

Die Entwicklung von Software nativ auf dem iPad Pro funktioniert am besten mit Pythonista. Für alles andere benötigt man entsprechende Server auf denen sich der benötigte Tool-Stack befindet, welchen man benötigt. Hier nutze ich am liebsten Linux-Systeme (CentOS oder Ubuntu) da diese sehr nah an Systemen sind, welche ich für Produktivsysteme nutze.
Mit der Nutzung von Cloud-Infrastrukturen wie sie einem zum Beispiel Amazon Web Service bietet, lassen sich sehr schnell und vor allen Dingen on-demand, Systeme starten. Schnell merkt man, dass sich dieser Vorgang stark automatisieren lässt, möchte man nicht ständig mit Hilfe der AWS Console arbeiten. Mit Pythonista und der StaSh lässt sich zu diesem Zweck sehr einfach die boto2-Bibliothek installieren, welche eine direkte Anbindung des AWS SDKs über Python ermöglicht. Damit wiederum lassen sich alle AWS-Dienste als Infrastructure-as-Code nutzen.
Mit boto3 lassen sich nicht nur EC2-Instanzen starten oder der Inhalt von S3-Buckets bearbeiten. Es können auch die verschiedenen Amazon-Dienste zum Beispiel aus dem Bereich Maschine Learning genutzt werden. Damit lassen sich dann leicht Objekte in Bildern erkennen oder der Inhalt von Texten analysieren.

Mosh und Blink

Möchte man effizient auf EC2-Instanzen arbeiten so lohnt ein Blick auf die UDP-basierte Mosh. Im Gegensatz zu normalen SSH-Verbindungen über TCP/IP, puffert Mosh Verbindungsabbrüche. So lassen sich Verbindungen auch nach mehreren Tagen noch ohne Probleme weiter nutzen. Genau wie SSH benötigt Mosh auch eine entsprechende Server-Komponente auf dem Host und ein Terminal, welches Mosh kann. Die Installation ist jedoch auch nicht schwieriger als bei anderer Software. Auf der Seite des iPads nutzte ich sowohl für SSH als auch Mosh die Termial-App Blink.

Mehrere Terminals

Wenn ich früher meinen Mac genutzt habe, dann hatte ich in der Regel mehr als eine (SSH-) Verbindung zum Zielsystem offen. Grund hierfür war, dass ich gern mehrere Dienste auf einem Server-Systems gleichzeitig im Auge behalten wollte. Ein oder zwei Fenster für die Ansicht von Logdateien mit ‘tail’, ein Fenster für meinen Lieblingseditor ‘vim’ und ein Fenster für die Arbeit auf der Kommandozeile. Seit dem ich das auf dem iPad mache, habe ich den Terminalmultiplexer tmux schätzen gelernt. Dieser ermöglicht, wie der Name sagt, die Verwaltung getrennter Sitzungen innerhalb eines Terminals (mehr dazu unter https://robots.thoughtbot.com/a-tmux-crash-course).

Offline Dokumentation

Abbildung 2: Pythonista und Boto3 – Mit dem iPad die AWS kontrollieren

Seitdem es den Amazon Kindle in Deutschland gibt, nutze ich diesen Dienst. Ich hatte mir 2010 den Kindle2 noch aus den USA schicken lassen und dann irgendwann mein Konto auf den deutschen Kindle-Store migriert. Demnach nutze ich seit gut 9 Jahren die Kindle-Apps für meine Fachbücher. Auf dem iPad habe ich so bequem Zugriff auf über hundert IT- und andere Fachbücher. Papers und Cheat-Sheets speichere ich als PDFs in meinem DropBox- oder GoogleDrive-Account. Damit ich auch offline Zugriff auf die wichtigsten Manuelas habe (Python, git, ElasticSearch, Node.js etc.), nutze ich das freie Dash.

Data Science

Für die Entwicklung von MVPs für den Bereich Data Science ist  Spark, und hier vor allen Dingen PySpark in Kombination mit Jupyter Notebook, mein Werkzeug der Wahl. Auf den ersten Blick eine Unmöglichkeit auf dem iPad. Auf den zweiten aber lösbar. In der Regel arbeite ich eh mit Daten, welche zu groß sind um auf einem normalen Personalcomputer in endlicher Zeit effizient verarbeitet werden zu können. Hier arbeite ich mehr und mehr in der Cloud und hier aktuell verstärkt in der von Amazon.

Mein Workflow funktioniert demnach so:

  1. Erstellung des nötigen Python Skripts für die Ausführung einer bestimmten AWS-Umgebung (EMR, SageMaker etc.) mit boto3 in Pythonista auf dem iPad
  2. Ausführen der Umgebung inkl. Kostenkontrolle (Billing-API)
  3. Aufbau eines SSH-Tunnels mit Hilfe eines SSH Tunnel / alternativ mit Mosh
  4. Nutzung von Blink bzw. SSH Pro für die SSH-Verbindung
  5. Nutzung von Juno um eine entfernte Jupyter Notebook / Jupyter Hub Installation nutzen zu können

PySpark im Jupyter Notebook

Abbildung 3: Mit Juno Jupyter Notebook aus auf dem iPad nutzen

Amazons Elastic Map Reduce Dienst bringt bereits eine Jupyter Notebook Installation inkl. Spark/PySpark mit und ermöglicht einen sicheren Zugang über einen verschlüsselten Tunnel. Einziges Problem bei der Nutzung von EMR: Alle Daten müssen in irgend einem System persistiert werden. Dies gilt nicht nur für die eigentlichen Daten sondern auch für die Notebooks. Günstiger Storage lässt sich über S3 einkaufen und mit Hilfe von s3fs-fuse (https://github.com/s3fs-fuse/s3fs-fuse) in das lokale Dateisystem eines EMR Clusters einhängen. Wie man das innerhalb eines geeigneten Bootstrap-Scripts macht habe ich auf GitHub (https://github.com/rawar/emr-ds-tools) dokumentiert. So lassen sich die eigenen EMR-Experimente auch nach dem herunterfahren des Clusters aufbewahren und weiter entwicklen.

Fokussierung im Großraumbüro

Jeder der ab und zu mal in Großraumbüros, in der Bahn oder Flugzeug arbeitet muß, kennt das Problem: Ab und zu möchte man sein Umfeld so gut es geht ausblenden um sich auf die eigene Arbeit voll und ganz zu konzentrieren. Dabei helfen kleine und große Kopfhörer ob mit oder ohne Noice Cancelation. Mit sind die Kabellosen dabei am liebsten und ich nutze lieber In-Ears als Over-Ears wegen der Wärmeentwicklung. Ich mag einfach keine warme Ohren beim Denken. Nach dem das geklärt ist wäre die nächste Frage: Musik oder Geräusche. Ab und zu kann ich Musik beim Arbeiten ertragen wenn sie

1. ohne Gesang und
2. dezent rhythmisch ist.

Zum Arbeiten höre ich dann gern Tosca, Milch Bar, oder Thievery Corporation. Schreiben kann ich unter Geräuscheinwirkung aber besser. Hier nutze ich Noisly mit ein paar eignen Presets für Wald-, Wind- und Wassergeräusche.

Fazit

Das iPad Pro als Terminal des 21. Jahrhunderts bietet dank hervorragender Apps und der Möglichkeit zumindest Python nativ auszuführen, eine gute Ausgangsbasis für das mobile Arbeiten im Bereich Data Science. Hier muss man sich nur daran gewöhnen, dass man seinen Code nicht lokal ausführen kann, sondern dazu immer eine entsprechende Umgebung auf einem Server benötigt. Hier muß es nicht zwingend ein Server in der Cloud sein. Ein alter Rechner mit Linux und den nötigen Tools im Keller tut es auch. Für welches Modell man sich auch entscheidet, man sollte sehr früh Anfangen das Aufsetzten der entsprechenden Server-Umgebungen zu automatisieren (Infrastructure-as-Code). Auch hier bietet sich Pythonista (in Kombination mit Workflow) an. Was bei der täglichen Arbeit auf dem iPad manchmal stört ist, dass nicht alle Aktionen mit der Tastatur ausgeführt werden können und es hier immer noch zu einem haptischen Bruch kommt, wenn man einige Dingen nur über das Touch-Display macht und einige ausschließlich über die Tastatur. Manchmal würde ich mir auch ein größeres Display wünschen oder die Möglichkeit den Winkel des iPads auf der Tastatur ändern zu können. Diese Nachteile würde ich allerdings nicht gegen die Mobilität (Gewicht + Akkulaufzeit) eintauschen wollen.