Geschriebene Artikel über Big Data Analytics

Krisenerkennung und -bewältigung mit Daten und KI

Wie COVID-19 unser Verständnis für Daten und KI verändert

Personenbezogene Daten und darauf angewendete KI galten hierzulande als ein ganz großes Pfui. Die Virus-Krise ändert das – Zurecht und mit großem Potenzial auch für die Wirtschaft.

Aber vorab, wie hängen Daten und Künstliche Intelligenz (KI) eigentlich zusammen? Dies lässt sich einfach und bildlich erläutern, denn Daten sind sowas wie der Rohstoff für die KI als Motor. Und dieser Motor ist nicht nur als Metapher zu verstehen, denn KI bewegt tatsächlich etwas, z. B. automatisierte Prozesse in Marketing, Vertrieb, Fertigung, Logistik und Qualitätssicherung. KI schützt vor Betrugsszenarien im Finanzwesen oder Ausfallszenarien in der produzierenden Industrie.

KI schützt jeden Einzelnen aber auch vor fehlenden oder falschen Diagnosen in der Medizin und unsere Gesellschaft vor ganzen Pandemien. Das mag gerade im Falle des SARS-COV-2 in 2019 in der VR China und 2020 in der ganzen Welt noch nicht wirklich geklappt zu haben, aber es ist der Auslöser und die Probe für die nun vermehrten und vor allem den verstärkten Einsatz von KI als Spezial- und Allgemein-Mediziner.

KI stellt spezielle Diagnosen bereits besser als menschliche Gehirne es tun

Menschliche Gehirne sind wahre Allrounder, sie können nicht nur Mathematik verstehen und Sprachen entwickeln und anwenden, sondern auch Emotionen lesen und vielfältige kreative Leistungen vollbringen. Künstliche Gehirne bestehen aus programmierbaren Schaltkreisen, die wir über mehrere Abstraktionen mit Software steuern und unter Einsatz von mathematischen Methoden aus dem maschinellen Lernen gewissermaßen auf die Mustererkennung abrichten können. Diese gerichteten Intelligenzen können sehr viel komplexere Muster in sehr viel mehr und heterogenen Daten erkennen, die für den Menschen nicht zugänglich wären. Diesen Vorteil der gerichteten künstlichen Intelligenz werden wir Menschen nutzen – und tun es teilweise schon heute – um COVID-19 automatisiert und sehr viel genauer anhand von Röntgen-Bildern zu erkennen.

Dies funktioniert in speziellen Einsätzen auch für die Erkennung von verschiedenen anderen Lungen-Erkrankungen sowie von Knochenbrüchen und anderen Verletzungen sowie natürlich von Krebs und Geschwüren.

Die Voraussetzung dafür, dass dieser Motor der automatisierten und akkuraten Erkennung funktioniert, ist die Freigabe von vielen Daten, damit die KI das Muster zur Diagnose erlernen kann.

KI wird Pandemien vorhersagen

Die Politik in Europa steht viel in der Kritik, möglicherweise nicht richtig und rechtzeitig auf die Pandemie reagiert zu haben. Ein Grund dafür mögen politische Grundprinzipien sein, ein anderer ist sicherlich das verlässliche Vorhersage- und Empfehlungssystem für drohende Pandemien. Big Data ist der Treibstoff, der diese Vorhersage-Systeme mit Mustern versorgt, die durch Verfahren des Deep Learnings erkannt und systematisch zur Generalisierung erlernt werden können.

Um viele Menschenleben und darüber hinaus auch berufliche Existenzen zu retten, darf der Datenschutz schon mal Abstriche machen. So werden beispielsweise anonymisierte Standort-Daten von persönlichen Mobilgeräten an das Robert-Koch-Institut übermittelt, um die Corona-Pandemie besser eindämmen zu können. Hier haben wir es tatsächlich mit Big Data zutun und die KI-Systeme werden besser, kämen auch noch weitere Daten zur medizinischen Versorgung, Diagnosen oder Verkehrsdaten hinzu. Die Pandemie wäre transparenter als je zuvor und Virologen wie Alexander Kekulé von der Martin-Luther-Universität in Halle-Wittenberg haben die mathematische Vorhersagbarkeit schon häufig thematisiert. Es fehlten Daten und die Musterkennung durch die maschinellen Lernverfahren, die heute dank aktiver Forschung in Software und Hardware (Speicher- und Rechenkapazität) produktiv eingesetzt werden können.

Übrigens darf auch hier nicht zu kurz gedacht werden: Auch ganz andere Krisen werden früher oder später Realität werden, beispielsweise Energiekrisen. Was früher die Öl-Krise war, könnten zukünftig Zusammenbrüche der Stromnetze sein. Es braucht nicht viel Fantasie, dass KI auch hier helfen wird, Krisen frühzeitig zu erkennen, zu verhindern oder zumindest abzumildern.

KI macht unseren privaten und beruflichen Alltag komfortabler und sicherer

Auch an anderer Front kämpfen wir mit künstlicher Intelligenz gegen Pandemien sozusagen als Nebeneffekt: Die Automatisierung von Prozessen ist eine Kombination der Digitalisierung und der Nutzung der durch die digitalen Produkte genierten Daten. So werden autonome Drohnen oder autonome Fahrzeuge vor allem im Krisenfall wichtige Lieferungen übernehmen und auch Bezahlsysteme bedingen keinen nahen menschlichen Kontakt mehr. Und auch Unternehmen werden weniger Personal physisch vor Ort am Arbeitsplatz benötigen, nicht nur dank besserer Telekommunikationssysteme, sondern auch, weil Dokumente nur noch digital vorliegen und operative Prozesse datenbasiert entschieden und dadurch automatisiert ablaufen.

So blüht uns also eine schöne neue Welt ohne Menschen? Nein, denn diese werden ihre Zeit für andere Dinge und Berufe einsetzen. Menschen werden weniger zur roboter-haften Arbeitskraft am Fließband, an der Kasse oder vor dem Steuer eines Fahrzeuges, sondern sie werden menschlicher, denn sie werden sich entweder mehr mit Technologie befassen oder sich noch sozialere Tätigkeiten erlauben können. Im Krisenfall jedoch, werden wir die dann unangenehmeren Tätigkeiten vor allem der KI überlassen.

Einführung in die Welt der Autoencoder

An wen ist der Artikel gerichtet?

In diesem Artikel wollen wir uns näher mit dem neuronalen Netz namens Autoencoder beschäftigen und wollen einen Einblick in die Grundprinzipien bekommen, die wir dann mit einem vereinfachten Programmierbeispiel festigen. Kenntnisse in Python, Tensorflow und neuronalen Netzen sind dabei sehr hilfreich.

Funktionsweise des Autoencoders

Ein Autoencoder ist ein neuronales Netz, welches versucht die Eingangsinformationen zu komprimieren und mit den reduzierten Informationen im Ausgang wieder korrekt nachzubilden.

Die Komprimierung und die Rekonstruktion der Eingangsinformationen laufen im Autoencoder nacheinander ab, weshalb wir das neuronale Netz auch in zwei Abschnitten betrachten können.

 

 

 

Der Encoder

Der Encoder oder auch Kodierer hat die Aufgabe, die Dimensionen der Eingangsinformationen zu reduzieren, man spricht auch von Dimensionsreduktion. Durch diese Reduktion werden die Informationen komprimiert und es werden nur die wichtigsten bzw. der Durchschnitt der Informationen weitergeleitet. Diese Methode hat wie viele andere Arten der Komprimierung auch einen Verlust.

In einem neuronalen Netz wird dies durch versteckte Schichten realisiert. Durch die Reduzierung von Knotenpunkten in den kommenden versteckten Schichten werden die Kodierung bewerkstelligt.

Der Decoder

Nachdem das Eingangssignal kodiert ist, kommt der Decoder bzw. Dekodierer zum Einsatz. Er hat die Aufgabe mit den komprimierten Informationen die ursprünglichen Daten zu rekonstruieren. Durch Fehlerrückführung werden die Gewichte des Netzes angepasst.

Ein bisschen Mathematik

Das Hauptziel des Autoencoders ist, dass das Ausgangssignal dem Eingangssignal gleicht, was bedeutet, dass wir eine Loss Funktion haben, die L(x , y) entspricht.

L(x, \hat{x})

Unser Eingang soll mit x gekennzeichnet werden. Unsere versteckte Schicht soll h sein. Damit hat unser Encoder folgenden Zusammenhang h = f(x).

Die Rekonstruktion im Decoder kann mit r = g(h) beschrieben werden. Bei unserem einfachen Autoencoder handelt es sich um ein Feed-Forward Netz ohne rückkoppelten Anteil und wird durch Backpropagation oder zu deutsch Fehlerrückführung optimiert.

Formelzeichen Bedeutung
\mathbf{x}, \hat{\mathbf{x}} Eingangs-, Ausgangssignal
\mathbf{W}, \hat{\mathbf{W}} Gewichte für En- und Decoder
\mathbf{B}, \hat{\mathbf{B}} Bias für En- und Decoder
\sigma, \hat{\sigma} Aktivierungsfunktion für En- und Decoder
L Verlustfunktion

Unsere versteckte Schicht soll mit \latex h gekennzeichnet werden. Damit besteht der Zusammenhang:

(1)   \begin{align*} \mathbf{h} &= f(\mathbf{x}) = \sigma(\mathbf{W}\mathbf{x} + \mathbf{B}) \\ \hat{\mathbf{x}} &= g(\mathbf{h}) = \hat{\sigma}(\hat{\mathbf{W}} \mathbf{h} + \hat{\mathbf{B}}) \\ \hat{\mathbf{x}} &= \hat{\sigma} \{ \hat{\mathbf{W}} \left[\sigma ( \mathbf{W}\mathbf{x} + \mathbf{B} )\right]  + \hat{\mathbf{B}} \}\\ \end{align*}

Für eine Optimierung mit der mittleren quadratischen Abweichung (MSE) könnte die Verlustfunktion wie folgt aussehen:

(2)   \begin{align*} L(\mathbf{x}, \hat{\mathbf{x}}) &= \mathbf{MSE}(\mathbf{x}, \hat{\mathbf{x}}) = \|  \mathbf{x} - \hat{\mathbf{x}} \| ^2 &=  \| \mathbf{x} - \hat{\sigma} \{ \hat{\mathbf{W}} \left[\sigma ( \mathbf{W}\mathbf{x} + \mathbf{B} )\right]  + \hat{\mathbf{B}} \} \| ^2 \end{align*}

 

Wir haben die Theorie und Mathematik eines Autoencoder in seiner Ursprungsform kennengelernt und wollen jetzt diese in einem (sehr) einfachen Beispiel anwenden, um zu schauen, ob der Autoencoder so funktioniert wie die Theorie es besagt.

Dazu nehmen wir einen One Hot (1 aus n) kodierten Datensatz, welcher die Zahlen von 0 bis 3 entspricht.

    \begin{align*} [1, 0, 0, 0] \ \widehat{=}  \ 0 \\ [0, 1, 0, 0] \ \widehat{=}  \ 1 \\ [0, 0, 1, 0] \ \widehat{=}  \ 2 \\ [0, 0, 0, 1] \ \widehat{=} \  3\\ \end{align*}

Diesen Datensatz könnte wie folgt kodiert werden:

    \begin{align*} [1, 0, 0, 0] \ \widehat{=}  \ 0 \ \widehat{=}  \ [0, 0] \\ [0, 1, 0, 0] \ \widehat{=}  \ 1 \ \widehat{=}  \  [0, 1] \\ [0, 0, 1, 0] \ \widehat{=}  \ 2 \ \widehat{=}  \ [1, 0] \\ [0, 0, 0, 1] \ \widehat{=} \  3 \ \widehat{=}  \ [1, 1] \\ \end{align*}

Damit hätten wir eine Dimensionsreduktion von vier auf zwei Merkmalen vorgenommen und genau diesen Vorgang wollen wir bei unserem Beispiel erreichen.

Programmierung eines einfachen Autoencoders

 

Typische Einsatzgebiete des Autoencoders sind neben der Dimensionsreduktion auch Bildaufarbeitung (z.B. Komprimierung, Entrauschen), Anomalie-Erkennung, Sequenz-to-Sequenz Analysen, etc.

Ausblick

Wir haben mit einem einfachen Beispiel die Funktionsweise des Autoencoders festigen können. Im nächsten Schritt wollen wir anhand realer Datensätze tiefer in gehen. Auch soll in kommenden Artikeln Variationen vom Autoencoder in verschiedenen Einsatzgebieten gezeigt werden.

CAPTCHAs lösen via Maschine Learning

Wie weit ist das maschinelle Lernen auf dem Gebiet der CAPTCHA-Lösung fortgeschritten?

Maschinelles Lernen ist mehr als ein Buzzword, denn unter der Haube stecken viele Algorithemen, die eine ganze Reihe von Problemen lösen können. Die Lösung von CAPTCHA ist dabei nur eine von vielen Aufgaben, die Machine Learning bewältigen kann. Durch die Arbeit an ein paar Problemen im Zusammenhang mit dem konvolutionellen neuronalen Netz haben wir festgestellt, dass es in diesem Bereich noch viel Verbesserungspotenzial gibt. Die Genauigkeit der Erkennung ist oftmals noch nicht gut genug. Schauen wir uns im Einzelnen an, welche Dienste wir haben, um dieses Problem anzugehen, und welche sich dabei als die besten erweisen.

Was ist CAPTCHA?

CAPTCHA ist kein fremder Begriff mehr für Web-Benutzer. Es handelt sich um die ärgerliche menschliche Validierungsprüfung, die auf vielen Websites hinzugefügt wird. Es ist ein Akronym für Completely Automated Public Turing test for tell Computer and Humans Apart. CAPTCHA kann als ein Computerprogramm bezeichnet werden, das dazu entwickelt wurde, Mensch und Maschine zu unterscheiden, um jede Art von illegaler Aktivität auf Websites zu verhindern. Der Sinn von CAPTCHA ist, dass nur ein Mensch diesen Test bestehen können sollte und Bots bzw. irgend eine Form automatisierter Skripte daran versagen. So entsteht ein Wettlauf zwischen CAPTCHA-Anbietern und Hacker-Lösungen, die auf den Einsatz von selbstlernenden Systemen setzen.

Warum müssen wir CAPTCHA lösen?

Heutzutage verwenden die Benutzer automatisierte CAPTCHA-Lösungen für verschiedene Anwendungsfälle. Und hier ein entscheidender Hinweis: Ähnlich wie Penetrationstesting ist der Einsatz gegen Dritte ohne vorherige Genehmigung illegal. Gegen eigene Anwendungen oder gegen Genehmigung (z. B. im Rahmen eines IT-Security-Tests) ist die Anwendung erlaubt. Hacker und Spammer verwenden die CAPTCHA-Bewältigung, um die E-Mail-Adressen der Benutzer zu erhalten, damit sie so viele Spams wie möglich erzeugen können oder um Bruteforce-Attacken durchführen zu können. Die legitimen Beispiele sind Fälle, in denen ein neuer Kunde oder Geschäftspartner zu Ihnen gekommen ist und Zugang zu Ihrer Programmierschnittstelle (API) benötigt, die noch nicht fertig ist oder nicht mit Ihnen geteilt werden kann, wegen eines Sicherheitsproblems oder Missbrauchs, den es verursachen könnte.

Für diese Anwendungsfälle sollen automatisierte Skripte CAPTCHA lösen. Es gibt verschiedene Arten von CAPTCHA: Textbasierte und bildbasierte CAPTCHA, reCAPTCHA und mathematisches CAPTCHA.

Es gibt einen Wettlauf zwischen CAPTCHA-Anbieter und automatisierten Lösungsversuchen. Die in CAPTCHA und reCAPTCHA verwendete Technologie werden deswegen immer intelligenter wird und Aktualisierungen der Zugangsmethoden häufiger. Das Aufrüsten hat begonnen.

Populäre Methoden für die CAPTCHA-Lösung

Die folgenden CAPTCHA-Lösungsmethoden stehen den Benutzern zur Lösung von CAPTCHA und reCAPTCHA zur Verfügung:

  1. OCR (optische Zeichenerkennung) via aktivierte Bots – Dieser spezielle Ansatz löst CAPTCHAs automatisch mit Hilfe der OCR-Technik (Optical Character Recognition). Werkzeuge wie Ocrad, tesseract lösen CAPTCHAs, aber mit sehr geringer Genauigkeit.
  2. Maschinenlernen — Unter Verwendung von Computer Vision, konvolutionalem neuronalem Netzwerk und Python-Frameworks und Bibliotheken wie Keras mit Tensorflow. Wir können tiefe neuronale Konvolutionsnetzmodelle trainieren, um die Buchstaben und Ziffern im CAPTCHA-Bild zu finden.
  3. Online-CAPTCHA-Lösungsdienstleistungen — Diese Dienste verfügen teilweise über menschliche Mitarbeiter, die ständig online verfügbar sind, um CAPTCHAs zu lösen. Wenn Sie Ihre CAPTCHA-Lösungsanfrage senden, übermittelt der Dienst sie an die Lösungsanbieter, die sie lösen und die Lösungen zurückschicken.

Leistungsanalyse der OCR-basierten Lösung

OCR Die OCR ist zwar eine kostengünstige Lösung, wenn es darum geht, eine große Anzahl von trivialen CAPTCHAs zu lösen, aber dennoch liefert sie nicht die erforderliche Genauigkeit. OCR-basierte Lösungen sind nach der Veröffentlichung von ReCaptcha V3 durch Google selten geworden. OCR-fähige Bots sind daher nicht dazu geeignet, CAPTCHA zu umgehen, die von Titanen wie Google, Facebook oder Twitter eingesetzt werden. Hierfür müsste ein besser ausgestattetes CAPTCHA-Lösungssystem eingesetzt werden.

OCR-basierte Lösungen lösen 1 aus 3 trivialen CAPTCHAs korrekt.

Leistungsanalyse der ML-basierten Methode

Schauen wir uns an, wie Lösungen auf dem Prinzip des Maschinenlernens funktionieren:

Die ML-basierte Verfahren verwenden OpenCV, um Konturen in einem Bild zu finden, das die durchgehenden Gebiete feststellt. Die Bilder werden mit der Technik der Schwellenwertbildung vorverarbeitet. Alle Bilder werden in Schwarzweiß konvertiert. Wir teilen das CAPTCHA-Bild mit der OpenCV-Funktion findContour() in verschiedene Buchstaben auf. Die verarbeiteten Bilder sind jetzt nur noch einzelne Buchstaben und Ziffern. Diese werden dann dem CNN-Modell zugeführt, um es zu trainieren. Und das trainierte CNN-Modell ist bereit, die richtige Captchas zu lösen.

Die Präzision einer solchen Lösung ist für alle textbasierten CAPTCHAs weitaus besser als die OCR-Lösung. Es gibt auch viele Nachteile dieser Lösung, denn sie löst nur eine bestimmte Art von CAPTCHAs und Google aktualisiert ständig seinen reCAPTCHA-Generierungsalgorithmus. Die letzte Aktualisierung schien die beste ReCaptcha-Aktualisierung zu sein, die disen Dienst bisher beeinflusst hat: Die regelmäßigen Nutzer hatten dabei kaum eine Veränderung der Schwierigkeit gespürt, während automatisierte Lösungen entweder gar nicht oder nur sehr langsam bzw. inakkurat funktionierten.

Das Modell wurde mit 1⁰⁴ Iterationen mit korrekten und zufälligen Stichproben und 1⁰⁵ Testbildern trainiert, und so wurde eine mittlere Genauigkeit von ~60% erreicht.

Bild-Quelle: “CAPTCHA Recognition with Active Deep Learning” @ TU München https://www.researchgate.net/publication/301620459_CAPTCHA_Recognition_with_Active_Deep_Learning

Wenn Ihr Anwendungsfall also darin besteht, eine Art von CAPTCHA mit ziemlich einfacher Komplexität zu lösen, können Sie ein solches trainiertes ML-Modell hervorragend nutzen. Eine bessere Captcha-Lösungslösung als OCR, muss aber noch eine ganze Menge Bereiche umfassen, um die Genauigkeit der Lösung zu gewährleisten.

Online-Captcha-Lösungsdienst

Online-CAPTCHA-Lösungsdienste sind bisher die bestmögliche Lösung für dieses Problem. Sie verfolgen alle Aktualisierungen von reCAPTCHA durch Google und bieten eine tadellose Genauigkeit von 99%.

Warum sind Online-Anti-Captcha-Dienste leistungsfähiger als andere Methoden?

Die OCR-basierten und ML-Lösungen weisen nach den bisherigen Forschungsarbeiten und Weiterentwicklungen viele Nachteile auf. Sie können nur triviale CAPTCHAs ohne wesentliche Genauigkeit lösen. Hier sind einige Punkte, die in diesem Zusammenhang zu berücksichtigen sind:

– Ein höherer Prozentsatz an korrekten Lösungen (OCR gibt bei wirklich komplizierten CAPTCHAs ein extrem hohes Maß an falschen Antworten; ganz zu schweigen davon, dass einige Arten von CAPTCHA überhaupt nicht mit OCR gelöst werden können, zumindest vorerst).

– Kontinuierlich fehlerfreie Arbeit ohne Unterbrechungen mit schneller Anpassung an die neu hinzugekommene Komplexität.

– Kostengünstig mit begrenzten Ressourcen und geringen Wartungskosten, da es keine Software- oder Hardwareprobleme gibt; alles, was Sie benötigen, ist eine Internetverbindung, um einfache Aufträge über die API des Anti-Captcha-Dienstes zu senden.

Die großen Anbieter von Online-Lösungsdiensten

Jetzt, nachdem wir die bessere Technik zur Lösung Ihrer CAPTCHAs geklärt haben, wollen wir unter allen Anti-Captcha-Diensten den besten auswählen. Einige Dienste bieten eine hohe Genauigkeit der Lösungen, API-Unterstützung für die Automatisierung und schnelle Antworten auf unsere Anfragen. Dazu gehören Dienste wie 2captcha, Imagetyperz, CaptchaSniper, etc.

2CAPTCHA ist einer der Dienste, die auf die Kombination von Machine Learning und echten Menschen setzen, um CAPTCHA zuverlässig zu lösen. Dabei versprechen Dienste wie 2captcha:

  • Schnelle Lösung mit 17 Sekunden für grafische und textuelle Captchas und ~23 Sekunden für ReCaptcha
  • Unterstützt alle populären Programmiersprachen mit einer umfassenden Dokumentation der fertigen Bibliotheken.
  • Hohe Genauigkeit (bis zu 99% je nach dem CAPTCHA-Typ).
  • Das Geld wird bei falschen Antworten zurückerstattet.
  • Fähigkeit, eine große Anzahl von Captchas zu lösen (mehr als 10.000 pro Minute)

Schlussfolgerung

Convolutional Neural Networks (CNN) wissen, wie die einfachsten Arten von Captcha zu bewältigen sind und werden auch mit der weiteren Enwicklung schritthalten können. Wir haben es mit einem Wettlauf um verkomplizierte CAPTCHAs und immer fähigeren Lösungen der automatisierten Erkennung zutun. Zur Zeit werden Online-Anti-Captcha-Dienste, die auf einen Mix aus maschinellem Lernen und menschlicher Intelligenz setzen, diesen Lösungen vorerst voraus sein.

Wie Process Mining 2020 Ihre erfolgreiche Geschäftstransformation 2020 sicherstellt

Fehlende Informationen über bestehende Prozesse sorgen dafür, dass 70% aller großen Transformationsprojekte und rund 50% aller RPA-Projekte scheitern. Grund hierfür sind mangelndes Verständnis der bestehenden Prozesse und die fehlende Verbindung zwischen der Ermittlung, Visualisierung, Analyse und Ausführung vorhandener Daten. Durch den Einsatz von Process Mining-Technologie erhalten Sie die notwendigen Informationen, die Transparenz und die quantifizierbaren Zahlen, die zur Verbesserung der Ende-zu-Ende-Prozesse für eine nachhaltige Transformation erforderlich sind.


Read this article in English:

Six ways process mining in 2020 can save your business transformation

 


Process Mining im Jahr 2020

Ihr Datenabdruck

Betrachtet man die oben genannten Zahlen (von McKinsey bzw. Ernst & Young (EY)) wird eines deutlich: Die Digitalisierung von Produkten und Dienstleistungen zwingt Unternehmen aller Größen und Branchen dazu, ihre bestehenden Geschäftsmodelle und Prozesse drastisch zu überdenken. Umso wichtiger wird Process Mining. Die Technik nutzt eindeutige Daten – sozusagen den geschäftlichen Fingerabdruck Ihres Unternehmens – um automatisch alle bestehenden Geschäftsprozesse zusammenzufügen und digital darzustellen.

Dieser digitale Nachweis ermöglicht es uns, die Funktionsweise von Prozessen (sowohl in konventioneller als auch variabler Ausführung) bis hin zu einzelnen Prozessinstanzen genau zu visualisieren. Mit anderen Worten: Process Mining deckt verborgene oder inaktive Prozesse auf, legt versteckten Mehrwert offen und ermöglicht ein sofortiges Verständnis.

Mit den richtigen Prozessen zum Erfolg

Mithilfe standardisierter und konfigurierbarer Benachrichtigungen und KPIs können Sie die unmittelbaren Auswirkungen von Prozessänderungen besser nachvollziehen. Auf diese Weise werden Fehlerraten gesenkt und das Vertrauen in das Unternehmen gestärkt. Und das ist noch nicht alles: Jeder, vom neuen Mitarbeiter bis zur C-Suite, kann die Prozesse seiner Organisation besser visualisieren, verstehen und erklären. Dies stellt sicher, dass Prozesse langfristig erfolgreich verändert werden.

Das Potenzial von Prozessen voll ausschöpfen

Im Geschäftsleben ist nicht nur die Kommunikation von entscheidender Bedeutung, sondern auch die Reaktion auf Probleme mit passenden Lösungen. Die täglichen Unternehmensabläufe – gemeint sind die zugrunde liegenden Prozesse – bilden die Verbindung zur eingesetzten Geschäftstechnologie, vom Process Mining bis zur robotergestützten „Prozessautomatisierung“. Ohne ein Verständnis für die Prozesse und tatsächliche Funktionsweise eines Unternehmens ist die Technologie jedoch redundant. Prozesse sind sozusagen das Lebenselixier eines Unternehmens.

 

Process Mining: Ihr Differenzierungsmerkmal

Integration transformativer, digitaler Technologien

Process Mining bietet weit mehr als Erkennen, Visualisieren und Analysieren: Anhand Ihrer vorhandenen Daten können Sie die Ausführung von Prozessen automatisch in Echtzeit überwachen. Diese einfache Bewertung per Mausklick ermöglicht ein sofortiges Verständnis komplexer Prozesse. Innerhalb von Transformationsprojekten, die aufgrund ihrer Natur tief greifende Änderungen in geschäftlichen und organisatorischen Aktivitäten erfordern, liefert Process Mining die visuelle Übersicht und ermöglicht sofortige Maßnahmen.

Dieser selbsttragende Ansatz führt zu nachhaltigen Ergebnissen und schafft eine Prozesskultur innerhalb des gesamten Unternehmens. Experten für digitale Transformation und Excellence können mithilfe eines solch Ansatzes leichter Prozesse nutzen, ihre Projekte und Programme untermauern und Herausforderungen bei Verhaltensänderungen bewältigen. Hierzu zählen eine leichtere Integration transformativer, digitaler Technologien, bessere operative Agilität und Flexibilität, optimierte Unternehmensführung und -kultur sowie Mitarbeiterförderung.

Drei Wege zu einem erfolgreichen Transformationsprojekt mithilfe von Process Mining:

  • Sie benötigen 100% operative Transparenz: Um all Ihre Transaktionen darstellen zu können, ist vollständige Prozesstransparenz erforderlich. Sie ermöglicht den direkten Vergleich zwischen dem Ist-Zustand und dem geplanten Prozessverlauf. Diese Konformitätsprüfung kann automatisch die Probleme und Aufgaben mit der höchsten Priorität identifizieren und die Hauptursachen für Diskrepanzen zwischen Soll und Ist hervorheben, sodass sofort Maßnahmen ergriffen werden können.
  • Sie müssen Kosten senken und die Effizienz steigern: Untersuchungen von Signavio zeigen, dass fast 60% der Unternehmen aufgrund von Ineffizienzen bei den Prozessen unnötige zusätzliche Kosten tragen mussten. Process Mining kann Ihrem Unternehmen helfen, die Kosten zu senken, da es Schwachstellen und Abweichungen entdeckt und gleichzeitig aufzeigt, welche Prozesse ausbremsen – einschließlich der Engpässe und Ineffizienzen, die sich auf den Umsatz auswirken. Process Mining bietet die Möglichkeit zu Prozessverbesserungen und vorausschauenden Strategien und somit zu positiven geschäftlichen Veränderungen.
  • Sie müssen den Einkaufs- und Verkaufszyklus optimieren: Dauert der Versand zu lange? Welcher Lieferant unterstützt Sie unzureichend? Welcher Lieferant ist der Beste? Process Mining ist Ihr One Click Trick, um Antworten auf solche Fragen zu finden und zu ermitteln, welche Einheiten die beste Leistung erbringen und welche nur Zeit und Geld verschwenden.

Process Mining und Robotic Process Automation (RPA)

Die vorteilhafte Kombination beider Technologien

RPA (Robotic Process Automation) ermöglicht die Automatisierung manueller, sich wiederholender und fehleranfälliger Aufgaben. Dies setzt jedoch voraus, dass Prozessverantwortliche genau wissen, wie und mit welchem Ziel sie Software-Roboter einsetzen und ihre Leistung kontinuierlich messen. Daher bietet die Kombination aus RPA und Process Mining Unternehmen viele Vorteile: Über die gesamte RPA-Initiative hinweg können sie die Leistung und die Vorteile ihrer Software-Roboter messen und sie bestmöglich für ihr Szenario einsetzen.

Upgrade robotergestützter Automatisierung

Mit diesen Erkenntnissen eignet sich Process Mining hervorragend als Vorbereitung für die Prozessautomatisierung: Um die Vorteile der robotergesteuerten Automatisierung vollumfänglich auszuschöpfen, müssen Organisationen nicht nur ihre bestehenden Systeme verstehen, sondern auch Möglichkeiten zur Automatisierung ermitteln. Process Mining-Werkzeuge bieten während des gesamten RPA-Zyklus wertvolle Erkenntnisse über die Prozessdaten: von der Festlegung der Strategie bis hin zu kontinuierlichen Verbesserungen und Innovationen.

 Drei Wege zu einem erfolgreichen RPA Lifecycle-Projekt mithilfe von Process Mining:

  • Sie benötigen Prozessübersichten nach bestimmten Kriterien: Um einen vollständigen Überblick über die Ende-zu-Ende-Prozesse zu erhalten, müssen Prozesse mit hohem ROI identifiziert werden, die sich für die RPA-Implementierung eignen. Auf diese Weise können Sie den optimalen Prozessfluss/-pfad ermitteln und redundante Prozesse aufdecken, die Ihnen vor der Automatisierung möglicherweise gar nicht bewusst waren.
  • Sie sind unsicher, wie Sie die Mensch-Maschine-Zyklen am besten optimieren: Indem Sie den optimalen Prozessfluss/-pfad ermitteln, können Sie auch ineffiziente Mensch-Roboter-Übergaben besser erkennen und erhalten quantifizierbare Daten zu den finanziellen Auswirkungen jedes „digitalen Mitarbeiters“ oder Prozesses. Auf diese Weise können Sie die Arbeit von Mensch und Roboter in Bezug auf Genauigkeit, Effizienz, Kosten und Projektdauer vergleichen.
  • Sie müssen besser verstehen, wie RPA ältere Prozesse und Systeme unterstützt: Durch die Integration in Cloud- und Web-/App-basierte Services können Unternehmen dank RPA auch ihre Legacy-Systeme weiter nutzen. Auf diese Weise lassen sich Legacy-Funktionen mit modernen Tools, Anwendungen und sogar mobilen Apps verbinden. Effizienz und Effektivität werden in allen wichtigen Unternehmensabteilungen, einschließlich HR, Finanzwesen und Legal, verbessert.

Process Mining für ein besseres Kundenerlebnis und Mapping

Denken Sie Kundenzufriedenheit neu

Die Integration von Process Mining in andere Technologien ist auch für eine bessere Prozessqualität und das Wachstum am Markt von entscheidender Bedeutung. So steht beim Prozessmanagement bereits die Kundenbindung im Fokus. Ein erfolgreiches Prozessmanagement ermöglicht es Unternehmen, den Kunden im Rahmen von umfassenden Effektivitätszielen zu geringstmöglichen Kosten zu begeistern, anstatt einseitige Effizienzziele zu verfolgen.

Darüber hinaus bietet Process Mining im Rahmen des Customer Journey Mapping (CJM) – insbesondere in Verknüpfung mit den zugrunde liegenden Prozessen – die Möglichkeit, bessere geschäftliche Erkenntnisse zu erzielen und diese Prozesse mit einer Outside-In-Kundenperspektive zu betrachten. Durch die Kombination aus Process Mining mit einer kundenorientierten Sicht auf die geschäftlichen Tätigkeiten wird die Kundenzufriedenheit zu einem strategischen Faktor für den geschäftlichen Erfolg.

Das volle Potenzial von Prozessen nutzen

Setzen Sie bei Process Mining-Initiativen auf Signavio Process Intelligence und erfahren Sie in unserem kostenlosen Whitepaper Erfolgreiches Process Mining mit Signavio Process Intelligence, wie Ihr Unternehmen den versteckten Mehrwert von Prozessen für sich nutzen, neue Ideen generieren und Zeit und Geld sparen kann.

Artikelserie: BI Tools im Vergleich – Tableau

Dies ist ein Artikel der Artikel-Serie “BI Tools im Vergleich – Einführung und Motivation“. Solltet ihr gerade erst eingestiegen sein, dann schaut euch ruhig vorher einmal die einführenden Worte und die Ausführungen zur Datenbasis an. Power BI machte den Auftakt und ihr findet den Artikel hier.

Lizenzmodell

Tableau stellt seinen Kunden zu allererst vor die Wahl, wo und von wem die Infrastruktur betrieben werden soll. Einen preislichen Vorteil hat der Kunde bei der Wahl einer selbstverwaltenden Lösung unter Nutzung von Tableau Server. Die Alternative ist eine Cloud-Lösung, bereitgestellt und verwaltet von Tableau. Bei dieser Variante wird Tableau Server durch Tableau Online ersetzt, wobei jede dieser Optionen die gleichen Funktionalitäten mit sich bringen. Bereits das Lizenzmodell definiert unterschiedliche Rollen an Usern, welche in drei verschiedene Lizenztypen unterteilt und unterschiedlich bepreist sind (siehe Grafik). So kann der User die Rolle eines Creators, Explorers oder Viewers einnehmen.Der Creator ist befähigt, alle Funktionen von Tableau zu nutzen, sofern ein Unternehmen die angebotenen Add-ons hinzukauft. Die Lizenz Explorer ermöglicht es dem User, durch den Creator vordefinierte Datasets in Eigenregie zu analysieren und zu visualisieren. Demnach obliegt dem Creator, und somit einer kleinen Personengruppe, die Datenbereitstellung, womit eine Single Source of Truth garantiert werden soll. Der Viewer hat nur die Möglichkeit Berichte zu konsumieren, zu teilen und herunterzuladen. Wobei in Bezug auf Letzteres der Viewer limitiert ist, da dieser nicht die kompletten zugrundeliegenden Daten herunterladen kann. Lediglich eine Aggregation, auf welcher die Visualisierung beruht, kann heruntergeladen werden. Ein Vergleich zeigt die wesentlichen Berechtigungen je Lizenz.

Der Einstieg bei Tableau ist für Organisationen nicht unter 106 Lizenzen (100 Viewer, 5 Explorer, 1 Creator) möglich, und Kosten von mindestens $1445 im Monat müssen einkalkuliert werden.

Wie bereits erwähnt, existieren Leistungserweiterungen, sogennante Add-ons. Die selbstverwaltende Alternative unter Nutzung von Tableau Server (hosted by customer) kann um das Tableau Data Management Add‑on und das Server Management Add‑on erweitert werden. Hauptsächlich zur Serveradministration, Datenverwaltung und -bereitstellung konzipiert sind die Features in vielen Fällen entbehrlich. Für die zweite Alternative (hosted by Tableau) kann der Kunde ebenfalls das Tableau Data Management Add‑on sowie sogenannte Resource Blocks dazu kaufen. Letzteres lässt bereits im Namen einen kapazitätsabhängigen Kostenfaktor vermuten, welcher zur Skalierung dient. Die beiden Add‑ons wiederum erhöhen die Kosten einer jeden Lizenz, was erhebliche Kostensteigerungen mit sich bringen kann. Das Data Management Add‑on soll als Beispiel die Kostenrelevanz verdeutlichen. Es gelten $5,50 je Lizenz für beide Hosting Varianten. Ein Unternehmen bezieht 600 Lizenzen (50 Creator, 150 Explorer und 400 Viewer) und hosted Tableau Server auf einer selbstgewählten Infrastruktur. Beim Zukauf des Add‑ons erhöht sich die einzelne Viewer-Lizenz bei einem Basispreis von $12 um 46%. Eine nicht unrelevante Größe bei der Vergabe neuer Viewer-Lizenzen, womit sich ein jedes Unternehmen mit Wachstumsambitionen auseinandersetzen sollte. Die Gesamtkosten würden nach geschilderter Verteilung der Lizenzen um 24% steigen (Anmerkung: eventuelle Rabatte sind nicht mit einbezogen). Die Tatsache, dass die Zuschläge für alle Lizenzen gelten, kann zumindest kritisch hinterfragt werden.

Ein weiterer, anfangs oft unterschätzter Kostenfaktor ist die Anzahl der Explorer-Lizenzen. Das Verhältnis der Explorer-Lizenzen an der Gesamtanzahl wächst in vielen Fällen mittelfristig nach der Einführungsphase stark an. Häufig wird Tableau als eine neue State of the Art Reporting Lösung mit schönen bunten Bildern betrachtet und dessen eigentliche Stärke, die Generierung von neuen Erkenntnissen mittels Data Discovery, wird unterschätzt. Hier kommt die Explorer Lizenz ins Spiel, welche ca. das Dreifache einer Viewer Lizenz kostet und den User befähigt, tiefer in die Daten einzusteigen.

Nichtdestotrotz kann man behaupten, dass das Lizenzmodell sehr transparent ist. Tableau selbst wirbt damit, dass keine versteckten Kosten auf den Kunden zukommen. Das Lizenzmodell ist aber nicht nur auf die Endkunden ausgerichtet, sondern bietet mit Tableau Server auch ein besonders auf Partner ausgerichtetes Konzept an. Serviceanbieter können so Lizenzen erwerben und in das eigene Angebot zu selbst gewählten Konditionen aufnehmen. Eine Server Instanz reicht aus, da das Produkt auch aus technischer Sicht mit sogenannten Sites auf verschiedene Stakeholder ausgerichtet werden kann.

Community & Features von anderen Entwicklern

Die Bedeutung einer breiten Community soll hier noch einmal hervorgehoben werden. Für Nutzer ist der Austausch über Probleme und Herausforderungen sowie technischer und organisatorischer Art äußerst wichtig, und auch der Softwarehersteller profitiert davon erheblich. Nicht nur, dass der Support teilweise an die eigenen Nutzer abgegeben wird, auch kann der Anbieter bestehende Features zielgerichteter optimieren und neue Features der Nachfrage anpassen. Somit steht die Tableau Community der Power BI Community in nichts nach. Zu den meisten Themen wird man schnell fündig in diversen Foren wie auch auf der Tableau Webseite. Es existiert die klassische Community Plattform, aber auch eine Tableau Besonderheit: Tableau Public. Es handelt sich hierbei um eine kostenlose Möglichkeit eine abgespeckte Version von Tableau zu nutzen und Inhalte auf der gleichnamigen Cloud zu veröffentlichen. Ergänzend sind etliche Lernvideos auf den einschlägigen Seiten fast zu jedem Thema zu finden und komplettieren das Support-Angebot.

Zusätzlich bietet Tableau sogenannte Admin-Tools aus eigenem Hause an, welche als Plug ins eingebunden werden können. Tableau unterscheidet dabei zwischen Community Supported Tools (z.B. TabMon) und Tableau Supported Tools (z.B. Tabcmd).

Ebenfalls bietet Tableau seit der Version 2018.2 dritten Entwicklern eine sogenannte Extensions API an und ermöglicht diesen damit, auf Basis der Tableau-Produkte eigene Produkte zu entwickeln. Erst kürzlich wurde mit Sandboxed Extensions in der Version 2019.4 ein wesentlicher Schritt hin zu einer höheren Datensicherheit gemacht, so dass es zukünftig zwei Gruppen von Erweiterungen geben wird. Die erste und neue Gruppe Sandboxed Extensions beinhaltet alle Erweiterungen, bei denen die Daten das eigene Netzwerk bzw. die Cloud nicht verlassen. Alle übrigen Erweiterungen werden in der zweiten Gruppe Network-Enabled Extensions zusammengefasst. Diese kommunizieren wie gehabt mit der Außenwelt, um den jeweiligen Service bereitzustellen.

Grundsätzlich ist Tableau noch zurückhaltend, wenn es um Erweiterungen des eigenen Produktportfolios geht. Deshalb ist die Liste mit insgesamt 37 Erweiterungen von 19 Anbietern noch recht überschaubar.

Daten laden & transformieren

Bevor der Aufbau der Visualisierungen beginnen kann, müssen die Daten fehlerfrei in Logik und in Homogenität in das Tool geladen werden. Zur Umsetzung dieser Anforderungen bietet sich ein ETL Tool an, und mit der Einführung von Tableau Prep Builder im April 2018 gibt der Softwareentwickler dem Anwender ein entsprechendes Tool an die Hand. Die Umsetzung ist sehr gut gelungen und die Bedienung ist sogar Analysten ohne Kenntnisse von Programmiersprachen möglich. Natürlich verfügen die zur Visualisierung gedachten Tools im Produktsortiment (Tableau Desktop, Server und Online) ebenfalls über (gleiche) Werkzeuge zur Datenmanipulierung. Jedoch verfügt Tableau Prep Builder dank seiner erweiterten Visualisierungen zur Transformation und Zusammenführung von Daten über hervorragende Werkzeuge zur Überprüfung und Analyse der Datengrundlage sowie der eigenen Arbeit.

Als Positivbeispiel ist die Visualisierung zu den JOIN-Operationen hervorzuheben, welche dem Anwender auf einen Blick zeigt, wie viele Datensätze vom JOIN betroffen sind und letztendlich auch, wie viele Datensätze in die Output-Tabelle eingeschlossen werden (siehe Grafik).

Zur Datenzusammenführung dienen klassische JOIN- und UNION-Befehle und die Logik entspricht den SQL-Befehlen. Das Ziel dabei ist die Generierung einer Extract-Datei und somit einer zweidimensionalen Tabelle für den Bau von Visualisierungen.

Exkurs – Joins in Power BI:

Erst bei der Visualisierung führt Power BI (im Hintergrund) die Daten durch Joins verschiedener Tabellen zusammen, sofern man vorher ein Datenmodell fehlerfrei definiert hat und die Daten nicht bereits mittels Power Query zusammengeführt hat.

Alternativ können auch diverse Datenquellen in das Visualisierungstool geladen und entsprechend des Power BI-Ansatzes Daten zusammengeführt werden. Dieses sogenannte Data Blending rückt seit der Einführung von Tableau Prep Builder immer mehr in den Hintergrund und Tableau führt die User auch hin zu einer weiteren Komponente: Tableau Prep Conductor. Es ist Bestandteil des bereits erwähnten, kostenpflichtigen Tableau Data Management Add-ons und ergänzt die eingeschränkte Möglichkeit, in Tableau Prep Builder automatisierte Aktualisierungen zu planen.

Kalkulationen können, wie auch bei Power BI, teilweise über ein Userinterface (UI) getätigt werden. Jedoch bietet das UI weniger Möglichkeiten, die wirklich komplizierten Berechnungen vorzunehmen, und der User wird schneller mit der von Tableau entwickelten Sprache konfrontiert. Drei Kategorien von Berechnungen werden unterschieden:

  • Einfache Berechnungen
  • Detailgenauigkeits-Ausdrücke (Level of Detail, LOD)
  • Tabellenberechnungen

Es gibt zwei wesentliche Fragestellungen bei der Auswahl der Berechnungsmethode.

1. Was soll berechnet werden? => Detailgenauigkeit?

Diese Frage klingt auf den ersten Blick simpel, kann aber komplexe Ausmaße annehmen. Tableau gibt hierzu aber einen guten Leitfaden für den Start an die Hand.

2. Wann soll berechnet werden?

Die Wahl der Berechnungsmethode hängt auch davon ab, wann welche Berechnung von der Software durchgeführt wird. Die Reihenfolge der Operationen zeigt die folgende Grafik.

Man braucht einiges an Übung, bis man eine gewisse Selbstsicherheit erlangt hat. Deshalb ist ein strukturiertes Vorgehen für komplexe Vorhaben ratsam.

Daten laden & transformieren: AdventureWorks2017Dataset

Wie bereits im ersten Artikel beschrieben, ist es nicht sehr sinnvoll, ein komplettes Datenmodell in ein BI-Tool zu laden, insbesondere wenn man nur wenige Informationen aus diesem benötigt. Ein für diese Zwecke angepasster View in der Datenbasis wäre aus vielerlei Hinsicht näher an einem Best Practice-Vorgehen. Nicht immer hat man die Möglichkeit, Best Practice im Unternehmen zu leben => siehe Artikel 1 der Serie.

Erst durch die Nutzung von Tableau Prep wurde die komplexe Struktur der Daten deutlich. In Power BI fiel bei der Bereitstellung der Tabellen nicht auf, dass die Adressdaten zu den [Store Contact] nicht in der Tabelle [Adress] zu finden sind. Erst durch die Nutzung von Tableau Prep und einer Analyse zu den Joins, zeigte das Fehlen zuvor genannter Adressen für Stores auf. Weiterhin zeigte die Analyse des Joins von Handelswaren und dazugehöriger Lieferanten auch eine m:n Beziehung auf und somit eine Vervielfachung der Datensätze der output Tabelle.

Kurzum: Tableau Prep ist ein empfehlenswertes Tool, um die Datenbasis schnell zu durchdringen und aufwendige Datenbereitstellungen vorzunehmen.

Daten visualisieren

Erwartungsgemäß sind im Vergleich zwischen Tableau und Power BI einige Visualisierungen leichter und andere dagegen schwerer aufzubauen. Grundsätzlich bieten beide Tools einige vorprogrammierte Visualisierungsobjekte an, welche ohne großen Aufwand erstellt werden können. Interessant wird es beim Vergleich der Detailgenauigkeit der Visualisierungen, wobei es nebensächlich ist, ob es sich dabei um ein Balken- oder Liniendiagramm handelt.

Hands on! Dazu lädt Tableau ein, und das ist auch der beste Weg, um sich mit der Software vertraut zu machen. Für einen einfacheren Start sollte man sich mit zwei wesentlichen Konzepten vertraut machen:

Reihenfolge der Operationen

Yep! Wir hatten das Thema bereits. Ein Blick auf die Grafik beim Basteln einzelner Visualisierungen kann helfen! Jeder Creator und Explorer sollte sich vorher mit der Reihenfolge von Operationen vertraut machen. Das Konzept ist nicht selbsterklärend und Fehler fallen nicht sofort auf. Schaut einmal HIER rein! Tableau hat sich eine Stunde Zeit genommen, um das Konzept anhand von Beispielen zu erklären.

Starre Anordnung von Elementen

Visualisierungen werden erst in einem extra Arbeitsblatt entworfen und können mit anderen Arbeitsblättern in einem Dashboard verbaut werden. Die Anordnung der Elemente auf dem Dashboard kann frei erfolgen und/oder Elemente werden in einer Objekthierarchie abgelegt. Letzteres eignet sich gut für den Bau von Vorlagen und ist somit eine Stärke von Tableau. Das Vorgehen dabei ist nicht trivial, das heißt ein saloppes Reinschmeißen von Visualisierungen führt definitiv nicht zum Ziel.
Tim erklärt ziemlich gut, wie man vorgehen kann => HIER.

Tableau ist aus der Designperspektive limitiert, weshalb das Endergebnis, das Dashboard,  nicht selten sehr eckig und kantig aussieht. Einfache visuelle Anpassungen wie abgerundete Kanten von Arbeitsblättern/Containern sind nicht möglich. Designtechnisch hat Tableau daher noch Luft nach oben!

Fazit

Der Einstieg für kleine Unternehmen mit Tableau ist nur unter sehr hohem Kostenaufwand möglich, aufgrund von preisintensiven Lizenzen und einer Mindestabnahme an Lizenzen. Aber auch bei einem hohen Bedarf an Lizenzen befindet sich Tableau im höheren Preissegment. Jedoch beinhalten Tableaus Lizenzgebühren bereits Kosten, welche bei der Konkurrenz erst durch die Nutzung ersichtlich werden, da bei ihnen die Höhe der Kosten stärker von der beanspruchten Kapazität abhängig ist. Tableau bietet seinen Kunden damit eine hohe Transparenz über ein zwar preisintensives, aber sehr ausgereiftes Produktportfolio.

Tableau legt mit einer lokalen Option, welche die gleichen Funktionalitäten beinhaltet wie die cloudbasierte Alternative, ein Augenmerk auf Kunden mit strengen Data Governance-Richtlinien. Sandboxed Extensions sind ein weiteres Beispiel für das Bewusstsein für eine hohe Datensicherheit. Jedoch ist das Angebot an Extensions, also das Angebot dritter Entwickler, ausbaufähig. Eine breit aufgestellte Community bietet nicht nur dritten Entwicklern eine gute Geschäftsgrundlage, sondern auch Nutzern zu fast jedem Thema eine Hilfestellung.

Tableau Prep Builder => TOP!

Mit diesem Tool kann die Datengrundlage super einfach analysiert werden und Datenmanipulationen sind einfach durchzuführen. Die Syntax und die Verwendung von Berechnungen bedarf einiger Übung, aber wenn man die wesentlichen Konzepte verstanden hat, dann sind Berechnungen schnell erstellt.

Ein Dashboard kann zu 90 % in fast jedem Tool gleich aussehen. Der Weg dorthin ist oft ein anderer und je nach Anforderung bei einem Tool leichter als bei einem anderen. Tableau bietet ein komplexes Konzept, sodass auch die außergewöhnlichsten Anforderungen erfüllt werden können. Jedoch ist das zugrundliegende Design oft sehr kantig und nicht immer zeitgemäß.

Fortsetzung folgt… MicroStrategy

Wie der C++-Programmierer bei der Analyse großer Datenmengen helfen kann

Die Programmiersprache C wurde von Dennis Ritchie in den Bell Labs in einer Zeit (1969-1973) entwickelt, als jeder CPU-Zyklus und jeder Byte Speicher sehr teuer war. Aus diesem Grund wurde C (und später C++) so konzipiert, dass die maximale Leistung der Hardware mit der Sprachkomplexität erzielt werden konnte. Derzeit ist der C++ Programmierer besonders begehrt auf dem Arbeitsmarkt, für ganz bestimmte Abläufe, die wir später genauer beschreiben werden.

Warum sollten Sie einen C++ Entwickler mieten, wenn es um große Daten geht?

C++ ermöglicht, als Sprache auf einem niedrigen Level, eine Feinabstimmung der Leistung der Anwendung in einer Weise, die bei der Verwendung von Sprachen auf einem hohen Level nicht möglich ist. Warum sollten Sie einen C++ Entwickler mieten? C++ bietet den Entwicklern eine viel bessere Kontrolle über den Systemspeicher und die Ressourcen, als die der C Programmierer oder Anderer.

C++ ist die einzige Sprache, in der man Daten mit mehr als 1 GB pro Sekunde knacken, die prädiktive Analyse in Echtzeit neu trainieren und anwenden und vierstellige QPS einer REST-ful API in der Produktion bedienen kann, während die [eventuelle] Konsistenz des Aufzeichnungssystems ständig erhalten bleibt. Auf einem einzigen Server, natürlich aus Gründen der Zuverlässigkeit dupliziert, aber das, ohne in Repliken, Sharding und das Auffüllen und Wiederholen von persistenten Nachrichtenwarteschlangen investieren zu. Für ein groß angelegtes Werbesystem, dynamischen Lastausgleich oder eine hocheffiziente adaptive Caching-Schicht ist C++ die klügste Wahl.

Die allgemeine Vorstellung ist, dass R und Python schneller sind, aber das ist weit von der Wahrheit entfernt. Ein gut optimierter C++-Code könnte hundertmal schneller laufen, als das gleiche Stück Code, das in Python oder R geschrieben wurde. Die einzige Herausforderung bei C++ ist die Menge an Arbeit, die Sie bewältigen müssen, um die fertigen Funktionen zum Laufen zu bringen. Sie müssen wissen, wie man Zeiger verteilt und verwaltet – was ehrlich gesagt ein wenig kompliziert sein kann. Die C# Programmierer Ausbildung ist aus diesem Grunde z.Z. sehr begehrt.

R und Python

Akademiker und Statistiker haben R über zwei Jahrzehnte entwickelt. R verfügt nun über eines der reichsten Ökosysteme, um Datenanalysen durchzuführen. Es sind etwa 12000 Pakete in CRAN (Open-Source-Repository) verfügbar. Es ist möglich, eine Bibliothek zu finden, für was auch immer für eine Analyse Sie durchführen möchten. Die reiche Vielfalt der Bibliothek macht R zur ersten Wahl für statistische Analysen, insbesondere für spezialisierte analytische Arbeiten.

Python kann so ziemlich die gleichen Aufgaben wie R erledigen: Data Wrangling, Engineering, Feature Selection Web Scrapping, App und so weiter. Python ist ein Werkzeug, um maschinelles Lernen in großem Maßstab einzusetzen und zu implementieren. Python-Codes sind einfacher zu warten und robuster als R. Vor Jahren hatte Python nicht viele Bibliotheken für Datenanalyse und maschinelles Lernen. In letzter Zeit holt Python auf und bietet eine hochmoderne API für maschinelles Lernen oder künstliche Intelligenz. Der größte Teil der datenwissenschaftlichen Arbeit kann mit fünf Python-Bibliotheken erledigt werden: Numpy, Pandas, Scipy, Scikit-Learning und Seaborn.

Aber das Wissen, mit Zeigern zu arbeiten oder den Code in C++ zu verwalten, ist mit einem hohen Preis verbunden. Aus diesem Grunde werden C++ Programmierer gesucht, für die Bewältigung von großen Datenpaketen. Ein tiefer Einblick in das Innenleben der Anwendung ermöglicht es ihnen, die Anwendung im Falle von Fehlern besser zu debuggen und sogar Funktionen zu erstellen, die eine Kontrolle des Systems auf Mikroebene erfordern. Schauen Sie sich doch nach C# Entwickler in Berlin um, denn sie haben einen besonders guten Ruf unter den neuen Entwicklern.

Das Erlernen der Programmierung ist eine wesentliche Fähigkeit im Arsenal der Analysten von Big Data. Analysten müssen kodieren, um numerische und statistische Analysen mit großen Datensätzen durchzuführen. Einige der Sprachen, in deren Erlernen auch die C Entwickler Zeit und Geld investieren sollten, sind unter anderem Python, R, Java und C++. Je mehr sie wissen, desto besser – Programmierer sollten immer daran denken, dass sie nicht nur eine einzelne Sprache lernen sollten. C für Java Programmierer sollte ein MUSS sein.

Wo wird das C++ Programmieren eingesetzt?

Die Programmiersprache C++ ist eine etablierte Sprache mit einem großen Satz von Bibliotheken und Tools, die bereit ist, große Datenanwendungen und verteilte Systeme zu betreiben. In den meisten Fällen wird C++ zum Schreiben von Frameworks und Paketen für große Daten verwendet. Diese Programmiersprache bietet auch eine Reihe von Bibliotheken, die beim Schreiben von Algorithmen für das tiefe Lernen helfen. Mit ausreichenden C++-Kenntnissen ist es möglich, praktisch unbegrenzte Funktionen auszuführen. Dennoch ist C++ nicht die Sprache, die man leicht erlernen kann, da man die über 1000 Seiten Spezifikation und fast 100 Schlüsselwörter beherrschen muss.

Die Verwendung von C++ ermöglicht die prozedurale Programmierung für intensive Funktionen der CPU und die Kontrolle über die Hardware, und diese Sprache ist sehr schnell, weshalb sie bei der Entwicklung verschiedener Spiele oder in Spielmaschinen weit verbreitet ist.

C++ bietet viele Funktionen, die anderen Sprachen fehlen. Darüber hinaus bietet die Sprache auch Zugang zu umfangreichen Vorlagen, die es Ihnen ermöglichen, generische Codes zu schreiben. Als betroffenes Unternehmen sollten Sie sich deshalb tatsächlich überlegen, einen C++ Programmierer zu suchen oder in einen Kurs von C++ für Ihren C Programmierer zu investieren. Am Ende lohnen sich bestimmt diese Kosten.

Und vergessen Sie nicht: C++ ist die einzige Sprache, die in der Lage ist, 1 GB+ Daten in weniger als einer Sekunde zu verarbeiten. Darüber hinaus können Sie Ihr Modell neu trainieren und prädiktive Analysen in Echtzeit und sogar die Konsistenz der Systemaufzeichnung anwenden. Diese Gründe machen C++ zu einer bevorzugten Wahl für Sie, wenn Sie einen Datenwissenschaftler für Ihr Unternehmen suchen.

Beispiele für die Verwendung von C++

Die Verwendung von C++ zur Entwicklung von Anwendungen und vielen produktbasierten Programmen, die in dieser Sprache entwickelt wurden, hat mehrere Vorteile, die nur auf ihren Eigenschaften und ihrer Sicherheit beruhen. Unten finden Sie eine Liste der häufigsten Anwendungen von C++.

  • Google-Anwendungen – Einige der Google-Anwendungen sind auch in C++ geschrieben, darunter das Google-Dateisystem und der Google-Chromium-Browser sowie MapReduce für die Verarbeitung großer Clusterdaten. Die Open-Source-Gemeinschaft von Google hat über 2000 Projekte, von denen viele in den Programmiersprachen C oder C++ geschrieben und bei GitHub frei verfügbar sind.
  • Mozilla Firefox und Thunderbird – Der Mozilla-Internetbrowser Firefox und der E-Mail-Client Thunderbird sind beide in der Programmiersprache C++ geschrieben, und sie sind ebenfalls Open-Source-Projekte. Der C++-Quellcode dieser Anwendungen ist in den MDN-Webdokumenten zu finden.
  • Adobe-Systeme – Die meisten der wichtigsten Anwendungen von Adobe-Systemen werden in der Programmiersprache C++ entwickelt. Zu diesen Anwendungen gehören Adobe Photoshop und Image Ready, Illustrator und Adobe Premier. Sie haben in der Vergangenheit eine Menge Open-Source-Codes veröffentlicht, immer in C++, und ihre Entwickler waren in der C++-Community aktiv.
  • 12D-Lösungen – 12D Solutions Pty Ltd ist ein australischer Softwareentwickler, der sich auf Anwendungen im Bereich Bauwesen und Vermessung spezialisiert hat. Computer Aided Design-System für Vermessung, Bauwesen und mehr. Zu den Kunden von 12D Solutions gehören Umweltberater, Berater für Bau- und Wasserbau, lokale, staatliche und nationale Regierungsabteilungen und -behörden, Vermessungsingenieure, Forschungsinstitute, Bauunternehmen und Bergbau-Berater.
  • In C/C++ geschriebene Betriebssysteme

Apple – Betriebssystem OS XApple – Betriebssystem OS X

Einige Teile von Apple OS X sind in der Programmiersprache C++ geschrieben. Auch einige Anwendungen für den iPod sind in C++ geschrieben.

Microsoft-BetriebssystemeMicrosoft-Betriebssysteme

Der Großteil der Software wird buchstäblich mit verschiedenen Varianten von Visual C++ oder einfach C++ entwickelt. Die meisten der großen Anwendungen wie Windows 95, 98, Me, 200 und XP sind ebenfalls in C++ geschrieben. Auch Microsoft Office, Internet Explorer und Visual Studio sind in Visual C++ geschrieben.

  • Betriebssystem Symbian – Auch Symbian OS wird mit C++ entwickelt. Dies war eines der am weitesten verbreiteten Betriebssysteme für Mobiltelefone.

Die Einstellung eines C- oder C++-Entwicklers kann eine gute Investition in Ihr Projekt-Upgrade sein

Normalerweise benötigen C- und C++-Anwendungen weniger Strom, Speicher und Platz als die Sprachen der virtuellen Maschinen auf hoher Ebene. Dies trägt dazu bei, den Kapitalaufwand, die Betriebskosten und sogar die Kosten für die Serverfarm zu reduzieren. Hier zeigt sich, dass C++ die Gesamtentwicklungskosten erheblich reduziert.

Trotz der Tatsache, dass wir eine Reihe von Tools und Frameworks nur für die Verwaltung großer Daten und die Arbeit an der Datenwissenschaft haben, ist es wichtig zu beachten, dass auf all diesen modernen Frameworks eine Schicht einer niedrigen Programmiersprache – wie C++ – aufgesetzt ist. Die Niedrigsprachen sind für die tatsächliche Ausführung des dem Framework zugeführten Hochsprachencodes verantwortlich. Es ist also ratsam in ein C-Entwickler-Gehalt zu investieren.

Der Grund dafür, dass C++ ein so unverzichtbares Werkzeug ist, liegt darin, dass es nicht nur einfach, sondern auch extrem leistungsfähig ist und zu den schnellsten Sprachen auf dem Markt gehört. Darüber hinaus verfügt ein gut geschriebenes Programm in C++ über ein komplexes Wissen und Verständnis der Architektur der Maschine, sowie der Speicherzugriffsmuster und kann schneller laufen als andere Programme. Es wird Ihrem Unternehmen Zeit- und Stromkosten sparen.

Zum Abschluss eine Grafik, die Sie als Unternehmer interessieren wird und die das Verhältnis von der Performance and der Sicherheit diverser Sprachen darstellt:

Aus diesen und weiteren Gründen neigen viele Unternehmensentwickler und Datenwissenschaftler mit massiven Anforderungen an Skalierbarkeit und Leistung zu dem guten alten C++. Viele Organisationen, die Python oder andere Hochsprachen für die Datenanalyse und Erkundungsaufgaben verwenden, verlassen sich auf C++, um Programme zu entwickeln, die diese Daten an die Kunden weiterleiten – in Echtzeit.

Im Interview mit Henny Selig zu Process Mining: “Für den Kunden sind solche Aha-Momente toll“

Henny Selig ist Spezialistin für Process Mining und verfügt über umfassende Erfahrung bei der Umsetzung von Process-Mining-Lösungen und der Unterstützung von Kunden bei der Prozessanalyse. Als Solution Owner bei Signavio ist Henny auch mit der Implementierung von Signavio Process Intelligence bei Unternehmen jeglicher Größe bestens vertraut. In diesem Interview geht Henny auf die Herausforderungen und Chancen von Process Mining ein. 


Read this interview in English:

Looking for the ‘aha moment’: An expert’s insights on process mining

 


Henny, wie würdest du das Konzept „Process Mining“ erklären?

Process Mining ist eine Kombination aus Datenanalyse und Business Process Management. Nahezu jeder Geschäftsprozess stützt sich auf IT-Systeme und hinterlässt digitale Spuren. Aus diesen IT-Systemen extrahieren wir alle Daten, die einen bestimmten Prozess betreffen, visualisieren sie und werten diese dann mithilfe von Data Science-Technologien aus.

Kurz gesagt: Process Mining bildet eine wichtige Brücke zwischen Fachabteilungen, Prozessverantwortlichen und dem Management. Damit sind datengestützte und faktenbasierte Diskussionen zur Optimierung von Geschäftsprozessen möglich. So lassen sich vor allem Übergaben und abteilungsübergreifende Schritte transparent gestalten und Silo-Denken vermeiden.

Welche Fragen beschäftigen Unternehmen, die mit Process Mining beginnen? Gibt es bestimmte Erwartungen, die durch den Einsatz von Process Mining erfüllt werden sollen?

Jedes Unternehmen ist anders und hat unterschiedliche Fragen und Erwartungen. Ein Beispiel: Ein Beschaffungsmanager, mit dem ich vor Kurzem zusammengearbeitet habe, war von den analysierten Daten überrascht. Denn es stellte sich heraus, dass zu einem bestimmten Zeitpunkt im Prozess eine Genehmigung vorlag, die eigentlich in einem anderen Moment erfolgen sollte. Für den Kunden sind solche Aha-Momente toll. Sie treten ganz automatisch auf, wenn man eine objektive und transparente Sicht auf den jeweiligen Prozess hat. 

Es wurden auch Fragen von uns aufgeworfen, die das Unternehmen bisher nicht berücksichtigt hatte, z. B. wie sich der Prozessablauf bei einem Bestellbetrag unter 1.000 Euro gestaltet und wie oft dies vorkommt. Fragen, die einem Außenstehenden klar erscheinen, die sich Prozessverantwortliche aber oft nicht stellen.

Ahnen Unternehmen häufig nur, dass ein Prozess nicht wie gewünscht läuft? Oder wissen die Meisten um spezifische Probleme in einem Bereich? 

Es gibt Unternehmen, die wissen, dass ein Prozess prinzipiell gut läuft, ein bestimmtes Problem aber immer wieder auftritt. Die involvierten Mitarbeiter sagen in diesen Fällen häufig, dass sie kein bestimmtes Anliegen oder keine konkrete Frage haben. Das stimmt natürlich nicht: Bei genauerem Nachfragen äußern sie dann erste Vermutungen oder Ideen.

Wenn man Mitarbeiter eines Unternehmens direkt fragt, wie sie bestimmte Dinge erledigen, sorgt das oft völlig unbeabsichtigt für Stress. Viele halten zunächst Informationen zurück, weil sie das Gefühl haben, dass der von ihnen beschriebene Prozess oder Workflow nicht perfekt ist. So wollen sie Vorwürfe vermeiden. 

Das oben erwähnte Genehmigungsbeispiel ist mein Favorit, weil es so eindeutig ist. Im betreffenden Unternehmen gab es zum Beispiel ein Team, das immer wieder sagte: „Diese Art von Anträgen genehmigen wir nicht.“ Die Daten sagten jedoch etwas ganz anderes – dem Team war das überhaupt nicht bewusst. 

Wir sprachen dann mit dem Manager. Dieser hatte sich bisher über ganz andere Dinge Gedanken gemacht wie etwa Risiken, den Prozessfluss im Allgemeinen und vieles andere. Nur allein durch dieses Gespräch konnten wir schon die Unstimmigkeiten zwischen dem Management und dem Team beseitigen, noch bevor der eigentliche Prozess selbst optimiert wurde. 

Gibt es noch andere Aspekte, die Unternehmen beachten sollten, wenn sie mit ihrer Process Mining-Initiative beginnen?

Nicht jede Varianz jenseits des Soll-Modells eines Prozesses ist automatisch negativ. Die wenigsten Prozesse, die nicht rein automatisiert ablaufen, sind zu 100% prozesskonform – selbst wenn die Rahmenbedingungen ideal sind. Daher wird es immer Ausnahmen geben, die einen anderen Ansatz erfordern. Und genau das ist die Herausforderung im Projekt: Man muss herausfinden, welche Variationen gewünscht und wo notwendige Ausnahmen zu treffen sind.

Würdest du sagen, dass eine datenbasierte Prozessanalyse eine Teamleistung ist?

Absolut! In jeder Phase eines Process Mining-Projekts sind ganz unterschiedliche Projektmitglieder involviert. Die IT stellt die Daten bereit und hilft bei deren Interpretation. Analysten führen dann die Prozessanalyse durch und diskutieren die gefundenen Auffälligkeiten mit der IT, den Prozessverantwortlichen und den Experten aus den Fachabteilungen. Denn manchmal gibt es gute Gründe für ein bestimmtes Prozessverhalten, das ohne das Wissen der Experten nicht erklärbar ist. 

Bei der Diskussion hilft es natürlich ungemein, den Gedankengang des Teams mit technischen Mitteln wie Signavio Process Intelligence zu dokumentieren. Auf diese Weise ist es möglich, die Analyse auf einzelne Prozesse herunterzubrechen und die richtige Person an der richtigen Stelle in die Diskussion einzubeziehen. So verliert man auch nicht den roten Faden. Und der nächste Kollege, der sich mit dem Thema beschäftigt, kann die Analyse nachvollziehen und das Ergebnis richtig einordnen.

Weitere Informationen dazu, wie Sie mit Process Mining Ihre Geschäftsprozesse besser verstehen und optimieren können, finden Sie auf der Produktseite von Signavio Process Intelligence. Oder melden Sie sich noch heute für eine kostenlose  bei Signavio an und legen Sie direkt los.

Wie künstliche Intelligenz hilft, Krankheiten zu bekämpfen

Die Herausforderungen im Gesundheitswesen sind gewaltig. Die Kosten steigen, das Geld ist knapp und die Margen sinken. Gleichzeitig fehlt es an Pflegepersonal, die vorhandenen Fachkräfte sind überarbeitet. Kliniken müssen effizient wirtschaften, um Patienten die bestmögliche Versorgung zu gewährleisten – und gleichzeitig Datensicherheits- und Compliance-Anforderungen bei der Verarbeitung der anfallenden Daten sicherstellen.

Der Einsatz von künstlicher Intelligenz (KI) kann dabei helfen, dieses Dilemma zu lösen. Algorithmen werden immer besser in dem, was sie tun – und sie arbeiten exakt, schnell und günstig. KI unterstützt in der Medizin und Forschung dabei, Patienten besser zu versorgen, indem beispielsweise Krankheiten früher erkannt werden können. Mit ihrer Hilfe könnten unter anderem die Gesundheitsausgaben in Europa in den kommenden zehn Jahren um einen dreistelligen Milliardenbetrag gesenkt werden, so das Ergebnis der PwC-Studie „Sherlock in Health – How artificial intelligence may improve quality and efficiency, whilst reducing healthcare costs in Europe“. Des Weiteren haben die meisten Patienten keine Berührungsängste: 54 Prozent wären demnach schon heute bereit, sich auf KI und Robotik in der Medizin einzulassen.

KI, ML und DL als medizinische Unterstützung

Algorithmen können in der Medizin auf unterschiedliche Weisen genutzt werden. KI beschäftigt sich mit Methoden, bei denen Computertechnologien es ermöglichen, menschliches Verhalten zu imitieren. Im Rahmen der medizinischen Bildgebung kann KI beispielsweise schnell Anomalien identifizieren, die für das menschliche Auge zu winzig erscheinen – oder große Datenmengen durchforsten. Ein Computertomograph erzeugt bis zu 640 Schnittbilder bei einem einzigen Scan. Wenn ein Radiologe sie ansehen und bewerten müsste, wäre das mit einem sehr hohen Zeitaufwand verbunden. Eine spezielle KI-Applikation kann die Bilder dagegen schnell analysieren und diejenigen markieren, welche Anomalien aufweisen. Die Radiologen können sich damit auf ihre Hauptaufgaben konzentrieren – Diagnose und Heilung. 

Ein weiteres Anwendungsgebiet von künstlicher Intelligenz innerhalb der Medizin ist der Einsatz von Intelligent Agents (IA), zum Beispiel für die Überwachung von Vitalwerten von Patienten oder als Kontrollmechanismus für die Arbeit des Pflegepersonals, der Ärzte oder Apotheker. Die Anwendungen überprüfen dann automatisch, ob die verschriebenen Medikamente und Therapien zum Krankheitsbild und zu den Werten des Patienten passen. 

Anwendungen aus dem Teilbereich der KI „Maschinelles Lernen (ML)“ lernen eigenständig dazu, je mehr Daten erfasst werden. Chirurgen können ML beispielsweise als Unterstützung verwenden, um den richtigen orthopädischen Eingriff nach einer Sportverletzung vorzubereiten. Die Technologie analysiert Patientendaten und kann die Unterschiede bei Knieverletzungen unterschiedlicher Sportarten sichtbar machen. So stehen dem Arzt detaillierte Informationen zur Verfügung, auf deren Basis er die Behandlung fortsetzt.

Deep Learning (DL) wiederum gilt als Teilbereich von ML und geht noch einen Schritt weiter, indem die Algorithmen nicht nur in der Lage sind, selbständig dazuzulernen, sondern sich auch kontinuierlich zu verbessern. So werden große Datenmengen verarbeitet, aus denen Wissenschaftler mögliche neue Erkenntnisse für Behandlungserfolge gewinnen können. Mit Hilfe von DL lassen sich beispielsweise bisher unbekannte Verbindungen zwischen bestimmten demografischen oder genetischen Indikatoren und unterschiedlichen Krankheiten aufdecken. Ebenso gibt es DL-Algorithmen, die mithilfe großer Datenmengen so trainiert werden, dass sie kleinste Veränderungen in der Zellstruktur erkennen können, die beispielsweise zu Brustkrebs führen. Die Fehlerquote bei der Brustkrebserkennung kann damit um bis zu 85 Prozent sinken, so eine Untersuchung von NVIDIA.

Komplexe KI-Projekte benötigen eine passende IT-Infrastruktur

Damit KI, ML und DL im Gesundheitswesen effektiv eingesetzt werden können, gibt es einige Grundvoraussetzungen. Zunächst einmal sind große Datenbestände notwendig. Diese werden genutzt, um die Algorithmen zu trainieren, damit sie akkurat und autonom arbeiten sowie Muster erkennen und genaue Vorhersagen treffen können. Dabei gilt es so viele Daten wie möglich zu berücksichtigen, unabhängig ob sie über verschiedene Systeme verteilt sind, aus unterschiedlichen Quellen stammen oder von mehreren unterschiedlichen Sensoren gesammelt wurden. Jedoch sollten sie eine hohe Datenqualität aufweisen. Darüber hinaus kann es sich um verschiedene Typen von Daten handeln (strukturiert, semi-strukturiert, unstrukturiert), die sich dynamisch entwickeln und verändern. 

Damit Daten überall dort verfügbar sind, wo sie gebraucht werden, gilt es Datensilos aufzulösen und miteinander zu verknüpfen. KI-Projekte stellen somit hohe Anforderungen an die IT-Infrastruktur hinsichtlich Datenverfügbarkeit und Datenqualität, Skalierbarkeit, Informationssicherheit sowie Genauigkeit mit hohen Ansprüchen an die Performance. Eine solch komplexe KI-Umgebung selbst zu planen, zu implementieren und zu unterhalten stellt viele Unternehmen vor große Herausforderungen. Es gibt jedoch schon umfassende Lösungen am Markt. Beispielsweise bietet NetApp zusammen mit NVIDIA und Cisco eine Lösung für die genannten Herausforderungen: ONTAP AI. Diese Architektur vereinfacht das komplette Datenmanagement: Informationen werden über das System sicher erfasst, weitergeleitet und verarbeitet, zum Training verwendet und analysiert.

ONTAP AI basiert auf einer verifizierten Architektur, die NVIDIA DGX-1 GPU‘s mit NetApp All Flash FAS Storage und Cisco Netzwerken zusammenführt und die Effizienz Ihrer KI-/DL-Umgebungen steigert. Herzstück von ONTAP AI ist die NVIDIA DGX-1, ein vollständig integriertes und sofort einsatzbereites Hardware- und Softwaresystem, das speziell für DL entwickelt wurde. Die DGX Plattform nutzt den Deep-Learning-Software-Stack der NVIDIA GPU Cloud, der für maximale GPU-beschleunigte DL-Performance optimiert wurde. Mit dem schnellen All-Flash-Storage und den weltweit ersten End-to-End NVMe-Technologien sorgen NetApp All Flash FAS Systeme für einen kontinuierlichen Datenfluss. So wird sichergestellt, dass die DGX-GPUs optimal mit Daten zur Verarbeitung versorgt werden und somit ein Flaschenhals hinsichtlich Datenbereitstellung durch die Storage-Systeme vermieden wird. 

Schnelle Diagnose

ONTAP AI kommt beispielsweise bei „BacillAi“ zum Einsatz, einem System zur Behandlung von Tuberkulose der Technologieberatungsfirma Cambridge Consultants. Tuberkulose ist die zweithäufigste Todesursache in Entwicklungsländern, da die Krankheit mit einer aufwendigen Diagnose verbunden ist: Zellen einer Speichelprobe müssen unter dem Mikroskop gezählt werden. Doch dafür gibt es nur wenig ausgebildetes medizinisches Personal. BacillAi vereinfacht diesen Schritt – und liefert zudem genauere und schnellere Ergebnisse. Ein Smartphone nimmt die Bilder der Speichelprobe von einem Standardmikroskop auf. Der DL-Algorithmus identifiziert Tuberkulose-Zellen, zählt sie und bestimmt das Stadium der Krankheit. Die Diagnose erhält der medizinische Mitarbeiter über eine App – somit ist das Ergebnis der Untersuchung zudem digitalisiert.

Fazit 

Künstliche Intelligenz kann das Gesundheitswesen revolutionieren. Unternehmen müssen dafür große Datenmengen aus unterschiedlichen Quellen erfassen, vorbereiten, verschieben, auf sie zugreifen und sie schützen. Damit KI, ML und DL-Projekte erfolgreich sind, brauchen Unternehmen aber eine effiziente Daten-Pipeline und eine Architektur, die eine hohe Performance, Sicherheit und Skalierbarkeit ermöglicht.

Weiter Informationen zum Thema finden Sie HIER.

Wie funktioniert Natural Language Processing in der Praxis? Ein Überblick

Natural Language Processing (NLP,auf Deutsch auch als Computerlinguistik bezeichnet) gilt als ein Teilbereich des Machine Learning und der Sprachwissenschaften.

Beim NLP geht es vom Prinzip um das Extrahieren und Verarbeiten von Informationen, die in den natürlichen Sprachen enthalten sind. Im Rahmen von NLP wird die natürliche Sprache durch den Rechner in Zahlenabfolgen umgewandelt. Diese Zahlenabfolgen kann wiederum der Rechner benutzen, um Rückschlüsse auf unsere Welt zu ziehen. Kurz gesagt erlaubt NLP dem Computer unsere Sprache in ihren verschiedenen Formen zu verarbeiten. 

Eine ausführlichere Definition von NLP wurde auf dem Data Science Blog von Christopher Kipp vorgenommen. 

In diesem Beitrag werde ich dagegen einen Überblick über die spezifischen Schritte im NLP als Prozess darstellen, denn NLP erfolgt in mehreren Phasen, die aufeinander Folgen und zum Teil als Kreislauf verstanden werden können. In ihren Grundlagen ähneln sich diese Phasen bei jeder NLP-Anwendung, sei es Chatbot Erstellung oder Sentiment Analyse.

1. Datenreinigung / Normalisierung 

In dieser Phase werden die rohen Sprachdaten aus ihrem ursprünglichen Format entnommen, sodass am Ende nur reine Textdaten ohne Format erhalten bleiben. 

Beispielsweise können die Textdaten für unsere Analyse aus Webseiten stammen und nach ihrer Erhebung in HTML Code eingebettet sein.

Das Bild zeigt eine Beispielseite. Der Text hier ist noch in einen HTML Kontext eingebettet. Der erste Schritt muss daher sein, den Text von den diversen HTML-Tags zu bereinigen. 

 

2. Tokenisierung und Normalisierung (Tokenizing and Normalizing) 

Nach dem ersten Schritt steht als Ergebnis idealerweise reiner Text da, der aber auch Sprachelemente wie Punkte, Kommata sowie Groß- und Kleinschreibung beinhaltet. 

Hier kommt der nächste Schritt ins Spiel – die Entfernung der Interpunktion vom Text. Der Text wird auf diese Weise auf seine Wort-Bestandteile (sog. Tokens) reduziert. 

Zusätzlich zu diesem Schritt kann auch Groß- und Kleinschreibung entfernt werden (Normalisierung). Dies spart vor allem die Rechenkapazität. 

So wird aus folgendem Abschnitt:

Auf diese Weise können wir die Daten aggregieren und in Subsets analysieren. Wir müssen nicht immer das ganze Machine Learning in Hadoop und Spark auf dem gesamten Datensatz starten.

folgender Text 

auf diese weise können wir die daten aggregieren und in subsets analysieren wir müssen nicht immer das ganze machine learning in hadoop und spark auf dem gesamten datensatz starten

 

3. Füllwörterentfernung / Stop words removal 

Im nächsten Schritt entfernen wir die sogenannten Füllwörter wie „und“, „sowie“, „etc.“. In den entsprechenden Python Bibliotheken sind die gängigen Füllwörter bereits gespeichert und können leicht entfernt werden. Trotzdem ist hier Vorsicht geboten. Die Bedeutung der Füllwörter in einer Sprache verändert sich je nach Kontext. Aus diesem Grund ist dieser Schritt optional und die zu entfernenden Füllwörter müssen kontextabhängig ausgewählt werden. 

Nach diesem Schritt bleibt dann in unserem Beispiel folgender Text erhalten: 

können daten aggregieren subsets analysieren müssen nicht immer machine learning hadoop spark datensatz starten

 

4. Pats of speech (POS) 
Als weiterer Schritt können die Wörter mit ihrer korrekten Wortart markiert werden. Der Rechner markiert sie entsprechend als Verben, Nomen, Adjektive etc. Dieser Schritt könnte für manche Fälle der Grundformreduktion/Lemmatization notwendig sein (dazu sogleich unten).

 

5. Stemming und Lemmatization/Grundformreduktion

In weiteren Schritten kann weiter das sogenannte Stemming und Lemmatization folgen. Vom Prinzip werden hier die einzelnen Wörter in ihre Grundform bzw. Wörterbuchform gebracht. 

Im Fall von Stemming werden die Wörter am Ende einfach abgeschnitten und auf den Wortstamm reduziert. So wäre zum Beispiel das Verb „gehen“, „geht“ auf die Form „geh“ reduziert. 

Im Fall der Lemmatization bzw. Grundformreduktion werden die Wörter in ihre ursprüngliche Wörterbuchform gebracht: das Verb „geht“ wäre dann ins „gehen“ transformiert. 

Parts of Speech, Stemming als auch Lemmatising sind vorteilhaft für die Komplexitätsreduktion. Sie führen deswegen zu mehr Effizienz und schnellerer Anwendbarkeit. Dies geschieht allerdings auf Kosten der Präzision. Die auf diese Weise erstellten Listen können dann im Fall einer Suchmaschine weniger relevante Ergebnisse liefern.

Nachfolgende Schritte beim NLP transformieren den Text in mathematische Zahlenfolgen, die der Rechner verstehen kann. Wie wir in diesem Schritt vorgehen, hängt stark davon ab, was das eigentliche Ziel des Projektes sei. Es gibt ein breites Angebot an Python Paketen, die die Zahlenbildung je nach Projektziel unterschiedlich gestalten

 

6a. Bag of Words Methoden in Python (https://en.wikipedia.org/wiki/Bag-of-words_model)

Zu den Bag of Words Methoden in Python gehört das sogenannte TF-IDF Vectorizer. Die Transformationsmethode mit dem TF-IDF eignet sich beispielsweise zum Bau eines Spamdetektors, da der TF-IDF Vectorizer die Wörter im Kontext des Gesamtdokumentes betrachtet.

 

6b. Word Embeddings Methoden in Python: Word2Vec, GloVe (https://en.wikipedia.org/wiki/Word_embedding)

Wie der Name bereits sagt transformiert Word2Vec die einzelnen Wörter zu Vektoren (Zahlenfolgen). Dabei werden ähnliche Wörter zu ähnlichen Vektoren transformiert. Die Methoden aus der Word Embeddings Kiste eignen sich zum Beispiel besser, um einen Chatbot zu erstellen. 

Im letzten Schritt des NLP können wir die so prozessierte Sprache in die gängigen Machine Learning Modelle einspeisen. Das Beste an den oben erwähnten NLP Techniken ist die Transformation der Sprache in Zahlensequenzen, die durch jeden ML Algorithmus analysiert werden können. Die weitere Vorgehensweise hängt hier nur noch vom Ziel des Projektes ab. 

Dies ist ein Überblick über die notwendigen (und optionalen) Schritte in einem NLP Verfahren. Natürlich hängt die Anwendung vom jeweiligen Use Case ab. Die hier beschriebenen NLP Phasen nehmen viele Ungenauigkeiten in Kauf, wie zum Beispiel die Reduzierung der Wörter auf Wortstämmen bzw. den Verzicht auf Großschreibung. Bei der Umsetzung in der Praxis müssen immer Kosten und Nutzen abgewogen werden und das Verfahren dem besonderen Fall angepasst werden. 

Quellen:
  • Mandy Gu: „Spam or Ham: Introduction to Natural Language Processing Part 2“ https://towardsdatascience.com/spam-or-ham-introduction-to-natural-language-processing-part-2-a0093185aebd
  • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze: „Introduction to Information Retrieval”, Cambridge University Press, https://nlp.stanford.edu/IR-book/
  • Hobson Lane, Cole Howard, Hannes Max Hapke: „Natural Language Processing in Action. Understanding, analyzing, and generating text with Python.” Manning Shelter Island

Mit den richtigen Prozessen zum Erfolg: vier Schritte zum Business-IT Alignment

Digitalisierung, Agilität, Tech-basiert: Sowohl in der IT-Transformation als auch im Business-Alignment stecken diese drei strategischen Schlagworte. Häufig sorgen sie jedoch nur für oberflächliche Veränderungen. Tatsächlich ist die Abstimmung von Business und IT für viele Unternehmen nach wie vor eine Herausforderung. Die Transformation ist schließlich keine einmalige Umstellung von A auf B, sondern ein dauerhafter Zustand der ständigen Veränderungen.


Read this article in English:

Stop processing the same mistakes! Four mistakes to business & IT alignment


Für ein erfolgreiches Business-IT Alignment benötigen Unternehmen vor allem adaptive Technologien. Nur so können sie mit den Entwicklungen in der Branche und dem zunehmend geforderten Kundenerlebnis auf Technologiebasis Schritt halten. Alignment bedeutet also, die bis dato als getrennt wahrgenommenen Bereiche Business und Technologie miteinander zu verbinden.

Von der Informations- zur Business-Technologie

Ob es um die Organisation von Geschäftsprozessen, die Kommunikation mit Kunden oder die Erbringung von Dienstleistungen geht: Informationstechnologie sorgt in all diesen Bereichen für Veränderungen. Dabei ist die Abstimmung von Business und IT für den Markteinfluss und das Wachstum mehr denn je von entscheidender Bedeutung. Auch wenn es keine vorherrschende Reorganisationsstrategie gibt, tendieren die meisten Unternehmen dazu, ihre IT zu dezentralisieren. Dadurch wird sie näher an die Endnutzer gebracht, die Wissensbasis verschmilzt zudem häufig mit der Geschäftsstrategie. 

Bei dieser Taktik stehen die Geschäftsziele im Mittelpunkt: Die IT kann die Dynamik des Unternehmens schneller mit permanenten Lösungen unterstützen und aufrechterhalten. Technologischer Fortschritt und Verbesserungen werden wiederum in aktuelle und zukünftige Strategien und Initiativen integriert. Besonders erfolgreiche Unternehmen zeichnen sich dadurch aus, dass sie strenge Organisationsstrukturen hinter sich lassen – die traditionelle Frage „In welcher Abteilung arbeiten Sie?“ wird zu „Wie arbeiten Sie?“.

Aber wie beweist die IT ihren Wert und gewinnt das Vertrauen der C-Suite? Laut Gartner haben fast 20% der Unternehmen bereits in Tools investiert, mit denen geschäftsrelevante Kennzahlen überwacht werden können. Bis 2021 sollen es voraussichtlich 60% sein. Das Problem ist jedoch, dass viele I&O-Führungskräfte nicht wissen, wo sie ansetzen sollen, wenn sie eine IT-Überwachungsstrategie initiieren. 

Vier Herausforderungen des Business-IT Alignments

CIOs stehen unter dem zunehmenden Druck, die wachsenden und sich verändernden digitalen Anforderungen zu erfüllen. Zugleich sollen sie auch die Betriebsumgebung mit neuen Funktionen ausstatten und nachweisen, dass die IT einer bestimmten Geschäftsstrategie entspricht. Unabhängig von der Größe eines Unternehmens gilt: Zukunftsorientierten Organisationen kann die Technologie konkrete Vorteile (wie Geschwindigkeit und Leistung) bieten, um operative und Umsatzziele effizient zu erreichen und die Innovationserwartungen ihrer Kunden zu erfüllen. Eine gute technologische Infrastruktur bereichert die Kultur, Effizienz und Kundenbeziehungen eines Unternehmens.

Von 0 auf 100: Business- und IT Alignment

Wer eine kontinuierliche Strategie implementiert, wird mit einer besser funktionierenden Organisation, mehr Gewinn und einem besseren ROI belohnt. Schließlich erreicht man seine Ziele mit weniger Aufwand und agiert dadurch effizienter. Natürlich gibt es keine Standardmethode für eine erfolgreiche Abstimmung. Eine Organisation, in der sich die IT- und Geschäftsstrategie im Einklang befindet, kann ihre Flexibilität und betriebliche Effizienz mit einer maßgeschneiderten Strategie deutlich verbessern. Dieser Kampf zwischen Effizienz und Effektivität war noch nie so entscheidend für das Überleben von Unternehmen wie heute.

In der Tat sind es vor allem erfolgreiche Unternehmen, die sich umfassend mit den Zusammenhängen zwischen IT und Business befassen und die Bedeutung dieser Synergie verstehen. Hervorragende Beispiele hierfür sind Amazon und Apple. Bei beiden Konzernen sind Technologie und technologische Innovation integraler Bestandteil der Betriebsstruktur. In einigen Fällen haben sie ihre Technologie- und Geschäftsstrategien sogar selbst entwickelt.

Konvergenz und Integration

Viele erfolgreiche Unternehmen haben die Effizienz ihrer Technologieinvestitionen gesteigert und die finanziellen und operativen Risiken, die mit geschäftlichen und technologischen Veränderungen einhergehen, erheblich reduziert.

Wenn das Tempo von Veränderungen und geschäftlicher Agilität derart hoch ist, muss man jedoch auch die Konvergenz und Integration einbeziehen und nicht nur die Abstimmung von IT und Business. Mit anderen Worten: Unternehmen müssen ihre Denkweise verändern und auf eine neue Ebene bringen, sodass sich alle Mitarbeiter auf die gemeinsame Schaffung von „echtem Mehrwert“ konzentrieren und schnell auf Kunden und Nutzer reagieren können.

Granulare Strategien

Fehlt eine granulare Strategie, können abweichende Abteilungsziele, Kulturen und Anreize dazu führen, dass Unternehmen zu viel Geld für Technologie ausgeben, ohne dadurch ihre geschäftlichen Herausforderungen zu lösen. Einfacher ausgedrückt: Beim Business-IT Alignment sollte die Technologie in die Strategie, Mission und Ziele eines Unternehmens integriert werden, um folgende Ziele zu erreichen: 

  • Schnellere Markteinführungszeit
  • Höhere Rentabilität
  • Besseres Kundenerlebnis
  • Bessere Zusammenarbeit
  • Mehr Unternehmens- und IT-Agilität
  • Strategische, technologische Transformation

Hot Topic

Sehen Sie sich die Webinaraufzeichnung Empowering Collaboration Between Business and IT mit Fabio Gammerino, Signavio Pre-Sales Consultant, an.

Das Potenzial von Prozessen: vier Schritte zum optimalen Business-IT Alignment

Business-IT Alignment erscheint vielen Organisationen als intuitiver Prozess. Dennoch haben  viele Unternehmen Schwierigkeiten, dieses hochgesteckte Ziel auch tatsächlich zu erreichen. Das liegt nicht nur daran, dass die Abstimmung von IT und Fachbereichen ein aufwendiger und langwieriger Prozess ist. 

Darüber hinaus besteht der Gesamtprozess aus vielen kleineren Teilprozessen. Diese Teilprozesse haben keinen definitiven Start- und Endpunkt, sondern beinhalten einige Lern- und Umsetzungszyklen, die das Gesamtziel schrittweise vorantreiben. Sie sind also keine simplen Lösungen. Durch den Aufbau einer gemeinsamen Sprache und abteilungsübergreifender Beziehungen, die Gewährleistung von Transparenz und die Entwicklung präziser, unternehmensweiter Maßnahmepläne wird eine Brücke zwischen den beiden Bereichen geschaffen.

Vier Schritte zur optimalen Positionierung Ihrer Business-IT Alignment-Strategie:

  1. Planen: Wandeln Sie Geschäftsziele in messbare IT-Services um, sodass Ressourcen effektiv zur Verbesserung von Umsatz und ROI genutzt werde können – dieser Schritt erfordert eine kontinuierliche Kommunikation zwischen den Unternehmens- und IT-Verantwortlichen.
  2. Modellieren: Die IT-Abteilung entwirft eine Infrastruktur zur Optimierung und Verbesserung der geschäftlichen Prozesse. Die IT-Abteilung muss die geschäftlichen Anforderungen verstehen und sicherstellen, dass sie Systeme implementiert, die für das Unternehmen von entscheidender Bedeutung sind.
  3. Verwalten: Der Service erfolgt auf Basis der Unternehmensziele und -erwartungen. Die IT muss als zentraler Ansprechpartner für Serviceanfragen fungieren und auf diese Anfragen entsprechend der vordefinierten Prioritäten eingehen.
  4. Messen: Verbesserung der organisationsweiten Transparenz und der Service Level Commitments. Obgleich Kennzahlen von entscheidender Bedeutung sind, ist es weitaus wichtiger, dass die IT einen Geschäftskontext für die von ihnen gemessenen Daten und eine klare Beziehung zwischen den gemessenen Parametern und den Geschäftszielen sicherstellt.

Die Meinung von Signavio

Die vorübergehende Rotation von IT-Mitarbeitern innerhalb des Unternehmens ist eine der Hauptstrategien für die Ausrichtung von Business und IT, da hierdurch internes Wissen im Unternehmen geteilt wird. Diese Wissensweitergabe sorgt für eine bessere Beziehung zwischen der IT-Abteilung und anderen Unternehmensbereichen und erweitert die Kompetenzen, insbesondere bei neuen Mitarbeitern. Profunde Kenntnisse geben der Organisation mehr Flexibilität, gut ausgebildete Mitarbeiter bei Bedarf in anderen Rollen einzusetzen.

 

Kontaktieren Sie uns

Erfahren Sie, wie Signavio mit der Signavio Business Transformation Suite Ihr Unternehmen bei der IT-Transformation und operativen Exzellenz unterstützen kann.