Artikelserie: BI Tools im Vergleich – Tableau

Dies ist ein Artikel der Artikel-Serie “BI Tools im Vergleich – Einführung und Motivation“. Solltet ihr gerade erst eingestiegen sein, dann schaut euch ruhig vorher einmal die einführenden Worte und die Ausführungen zur Datenbasis an. Power BI machte den Auftakt und ihr findet den Artikel hier.

Lizenzmodell

Tableau stellt seinen Kunden zu allererst vor die Wahl, wo und von wem die Infrastruktur betrieben werden soll. Einen preislichen Vorteil hat der Kunde bei der Wahl einer selbstverwaltenden Lösung unter Nutzung von Tableau Server. Die Alternative ist eine Cloud-Lösung, bereitgestellt und verwaltet von Tableau. Bei dieser Variante wird Tableau Server durch Tableau Online ersetzt, wobei jede dieser Optionen die gleichen Funktionalitäten mit sich bringen. Bereits das Lizenzmodell definiert unterschiedliche Rollen an Usern, welche in drei verschiedene Lizenztypen unterteilt und unterschiedlich bepreist sind (siehe Grafik). So kann der User die Rolle eines Creators, Explorers oder Viewers einnehmen.Der Creator ist befähigt, alle Funktionen von Tableau zu nutzen, sofern ein Unternehmen die angebotenen Add-ons hinzukauft. Die Lizenz Explorer ermöglicht es dem User, durch den Creator vordefinierte Datasets in Eigenregie zu analysieren und zu visualisieren. Demnach obliegt dem Creator, und somit einer kleinen Personengruppe, die Datenbereitstellung, womit eine Single Source of Truth garantiert werden soll. Der Viewer hat nur die Möglichkeit Berichte zu konsumieren, zu teilen und herunterzuladen. Wobei in Bezug auf Letzteres der Viewer limitiert ist, da dieser nicht die kompletten zugrundeliegenden Daten herunterladen kann. Lediglich eine Aggregation, auf welcher die Visualisierung beruht, kann heruntergeladen werden. Ein Vergleich zeigt die wesentlichen Berechtigungen je Lizenz.

Der Einstieg bei Tableau ist für Organisationen nicht unter 106 Lizenzen (100 Viewer, 5 Explorer, 1 Creator) möglich, und Kosten von mindestens $1445 im Monat müssen einkalkuliert werden.

Wie bereits erwähnt, existieren Leistungserweiterungen, sogennante Add-ons. Die selbstverwaltende Alternative unter Nutzung von Tableau Server (hosted by customer) kann um das Tableau Data Management Add‑on und das Server Management Add‑on erweitert werden. Hauptsächlich zur Serveradministration, Datenverwaltung und -bereitstellung konzipiert sind die Features in vielen Fällen entbehrlich. Für die zweite Alternative (hosted by Tableau) kann der Kunde ebenfalls das Tableau Data Management Add‑on sowie sogenannte Resource Blocks dazu kaufen. Letzteres lässt bereits im Namen einen kapazitätsabhängigen Kostenfaktor vermuten, welcher zur Skalierung dient. Die beiden Add‑ons wiederum erhöhen die Kosten einer jeden Lizenz, was erhebliche Kostensteigerungen mit sich bringen kann. Das Data Management Add‑on soll als Beispiel die Kostenrelevanz verdeutlichen. Es gelten $5,50 je Lizenz für beide Hosting Varianten. Ein Unternehmen bezieht 600 Lizenzen (50 Creator, 150 Explorer und 400 Viewer) und hosted Tableau Server auf einer selbstgewählten Infrastruktur. Beim Zukauf des Add‑ons erhöht sich die einzelne Viewer-Lizenz bei einem Basispreis von $12 um 46%. Eine nicht unrelevante Größe bei der Vergabe neuer Viewer-Lizenzen, womit sich ein jedes Unternehmen mit Wachstumsambitionen auseinandersetzen sollte. Die Gesamtkosten würden nach geschilderter Verteilung der Lizenzen um 24% steigen (Anmerkung: eventuelle Rabatte sind nicht mit einbezogen). Die Tatsache, dass die Zuschläge für alle Lizenzen gelten, kann zumindest kritisch hinterfragt werden.

Ein weiterer, anfangs oft unterschätzter Kostenfaktor ist die Anzahl der Explorer-Lizenzen. Das Verhältnis der Explorer-Lizenzen an der Gesamtanzahl wächst in vielen Fällen mittelfristig nach der Einführungsphase stark an. Häufig wird Tableau als eine neue State of the Art Reporting Lösung mit schönen bunten Bildern betrachtet und dessen eigentliche Stärke, die Generierung von neuen Erkenntnissen mittels Data Discovery, wird unterschätzt. Hier kommt die Explorer Lizenz ins Spiel, welche ca. das Dreifache einer Viewer Lizenz kostet und den User befähigt, tiefer in die Daten einzusteigen.

Nichtdestotrotz kann man behaupten, dass das Lizenzmodell sehr transparent ist. Tableau selbst wirbt damit, dass keine versteckten Kosten auf den Kunden zukommen. Das Lizenzmodell ist aber nicht nur auf die Endkunden ausgerichtet, sondern bietet mit Tableau Server auch ein besonders auf Partner ausgerichtetes Konzept an. Serviceanbieter können so Lizenzen erwerben und in das eigene Angebot zu selbst gewählten Konditionen aufnehmen. Eine Server Instanz reicht aus, da das Produkt auch aus technischer Sicht mit sogenannten Sites auf verschiedene Stakeholder ausgerichtet werden kann.

Community & Features von anderen Entwicklern

Die Bedeutung einer breiten Community soll hier noch einmal hervorgehoben werden. Für Nutzer ist der Austausch über Probleme und Herausforderungen sowie technischer und organisatorischer Art äußerst wichtig, und auch der Softwarehersteller profitiert davon erheblich. Nicht nur, dass der Support teilweise an die eigenen Nutzer abgegeben wird, auch kann der Anbieter bestehende Features zielgerichteter optimieren und neue Features der Nachfrage anpassen. Somit steht die Tableau Community der Power BI Community in nichts nach. Zu den meisten Themen wird man schnell fündig in diversen Foren wie auch auf der Tableau Webseite. Es existiert die klassische Community Plattform, aber auch eine Tableau Besonderheit: Tableau Public. Es handelt sich hierbei um eine kostenlose Möglichkeit eine abgespeckte Version von Tableau zu nutzen und Inhalte auf der gleichnamigen Cloud zu veröffentlichen. Ergänzend sind etliche Lernvideos auf den einschlägigen Seiten fast zu jedem Thema zu finden und komplettieren das Support-Angebot.

Zusätzlich bietet Tableau sogenannte Admin-Tools aus eigenem Hause an, welche als Plug ins eingebunden werden können. Tableau unterscheidet dabei zwischen Community Supported Tools (z.B. TabMon) und Tableau Supported Tools (z.B. Tabcmd).

Ebenfalls bietet Tableau seit der Version 2018.2 dritten Entwicklern eine sogenannte Extensions API an und ermöglicht diesen damit, auf Basis der Tableau-Produkte eigene Produkte zu entwickeln. Erst kürzlich wurde mit Sandboxed Extensions in der Version 2019.4 ein wesentlicher Schritt hin zu einer höheren Datensicherheit gemacht, so dass es zukünftig zwei Gruppen von Erweiterungen geben wird. Die erste und neue Gruppe Sandboxed Extensions beinhaltet alle Erweiterungen, bei denen die Daten das eigene Netzwerk bzw. die Cloud nicht verlassen. Alle übrigen Erweiterungen werden in der zweiten Gruppe Network-Enabled Extensions zusammengefasst. Diese kommunizieren wie gehabt mit der Außenwelt, um den jeweiligen Service bereitzustellen.

Grundsätzlich ist Tableau noch zurückhaltend, wenn es um Erweiterungen des eigenen Produktportfolios geht. Deshalb ist die Liste mit insgesamt 37 Erweiterungen von 19 Anbietern noch recht überschaubar.

Daten laden & transformieren

Bevor der Aufbau der Visualisierungen beginnen kann, müssen die Daten fehlerfrei in Logik und in Homogenität in das Tool geladen werden. Zur Umsetzung dieser Anforderungen bietet sich ein ETL Tool an, und mit der Einführung von Tableau Prep Builder im April 2018 gibt der Softwareentwickler dem Anwender ein entsprechendes Tool an die Hand. Die Umsetzung ist sehr gut gelungen und die Bedienung ist sogar Analysten ohne Kenntnisse von Programmiersprachen möglich. Natürlich verfügen die zur Visualisierung gedachten Tools im Produktsortiment (Tableau Desktop, Server und Online) ebenfalls über (gleiche) Werkzeuge zur Datenmanipulierung. Jedoch verfügt Tableau Prep Builder dank seiner erweiterten Visualisierungen zur Transformation und Zusammenführung von Daten über hervorragende Werkzeuge zur Überprüfung und Analyse der Datengrundlage sowie der eigenen Arbeit.

Als Positivbeispiel ist die Visualisierung zu den JOIN-Operationen hervorzuheben, welche dem Anwender auf einen Blick zeigt, wie viele Datensätze vom JOIN betroffen sind und letztendlich auch, wie viele Datensätze in die Output-Tabelle eingeschlossen werden (siehe Grafik).

Zur Datenzusammenführung dienen klassische JOIN- und UNION-Befehle und die Logik entspricht den SQL-Befehlen. Das Ziel dabei ist die Generierung einer Extract-Datei und somit einer zweidimensionalen Tabelle für den Bau von Visualisierungen.

Exkurs – Joins in Power BI:

Erst bei der Visualisierung führt Power BI (im Hintergrund) die Daten durch Joins verschiedener Tabellen zusammen, sofern man vorher ein Datenmodell fehlerfrei definiert hat und die Daten nicht bereits mittels Power Query zusammengeführt hat.

Alternativ können auch diverse Datenquellen in das Visualisierungstool geladen und entsprechend des Power BI-Ansatzes Daten zusammengeführt werden. Dieses sogenannte Data Blending rückt seit der Einführung von Tableau Prep Builder immer mehr in den Hintergrund und Tableau führt die User auch hin zu einer weiteren Komponente: Tableau Prep Conductor. Es ist Bestandteil des bereits erwähnten, kostenpflichtigen Tableau Data Management Add-ons und ergänzt die eingeschränkte Möglichkeit, in Tableau Prep Builder automatisierte Aktualisierungen zu planen.

Kalkulationen können, wie auch bei Power BI, teilweise über ein Userinterface (UI) getätigt werden. Jedoch bietet das UI weniger Möglichkeiten, die wirklich komplizierten Berechnungen vorzunehmen, und der User wird schneller mit der von Tableau entwickelten Sprache konfrontiert. Drei Kategorien von Berechnungen werden unterschieden:

  • Einfache Berechnungen
  • Detailgenauigkeits-Ausdrücke (Level of Detail, LOD)
  • Tabellenberechnungen

Es gibt zwei wesentliche Fragestellungen bei der Auswahl der Berechnungsmethode.

1. Was soll berechnet werden? => Detailgenauigkeit?

Diese Frage klingt auf den ersten Blick simpel, kann aber komplexe Ausmaße annehmen. Tableau gibt hierzu aber einen guten Leitfaden für den Start an die Hand.

2. Wann soll berechnet werden?

Die Wahl der Berechnungsmethode hängt auch davon ab, wann welche Berechnung von der Software durchgeführt wird. Die Reihenfolge der Operationen zeigt die folgende Grafik.

Man braucht einiges an Übung, bis man eine gewisse Selbstsicherheit erlangt hat. Deshalb ist ein strukturiertes Vorgehen für komplexe Vorhaben ratsam.

Daten laden & transformieren: AdventureWorks2017Dataset

Wie bereits im ersten Artikel beschrieben, ist es nicht sehr sinnvoll, ein komplettes Datenmodell in ein BI-Tool zu laden, insbesondere wenn man nur wenige Informationen aus diesem benötigt. Ein für diese Zwecke angepasster View in der Datenbasis wäre aus vielerlei Hinsicht näher an einem Best Practice-Vorgehen. Nicht immer hat man die Möglichkeit, Best Practice im Unternehmen zu leben => siehe Artikel 1 der Serie.

Erst durch die Nutzung von Tableau Prep wurde die komplexe Struktur der Daten deutlich. In Power BI fiel bei der Bereitstellung der Tabellen nicht auf, dass die Adressdaten zu den [Store Contact] nicht in der Tabelle [Adress] zu finden sind. Erst durch die Nutzung von Tableau Prep und einer Analyse zu den Joins, zeigte das Fehlen zuvor genannter Adressen für Stores auf. Weiterhin zeigte die Analyse des Joins von Handelswaren und dazugehöriger Lieferanten auch eine m:n Beziehung auf und somit eine Vervielfachung der Datensätze der output Tabelle.

Kurzum: Tableau Prep ist ein empfehlenswertes Tool, um die Datenbasis schnell zu durchdringen und aufwendige Datenbereitstellungen vorzunehmen.

Daten visualisieren

Erwartungsgemäß sind im Vergleich zwischen Tableau und Power BI einige Visualisierungen leichter und andere dagegen schwerer aufzubauen. Grundsätzlich bieten beide Tools einige vorprogrammierte Visualisierungsobjekte an, welche ohne großen Aufwand erstellt werden können. Interessant wird es beim Vergleich der Detailgenauigkeit der Visualisierungen, wobei es nebensächlich ist, ob es sich dabei um ein Balken- oder Liniendiagramm handelt.

Hands on! Dazu lädt Tableau ein, und das ist auch der beste Weg, um sich mit der Software vertraut zu machen. Für einen einfacheren Start sollte man sich mit zwei wesentlichen Konzepten vertraut machen:

Reihenfolge der Operationen

Yep! Wir hatten das Thema bereits. Ein Blick auf die Grafik beim Basteln einzelner Visualisierungen kann helfen! Jeder Creator und Explorer sollte sich vorher mit der Reihenfolge von Operationen vertraut machen. Das Konzept ist nicht selbsterklärend und Fehler fallen nicht sofort auf. Schaut einmal HIER rein! Tableau hat sich eine Stunde Zeit genommen, um das Konzept anhand von Beispielen zu erklären.

Starre Anordnung von Elementen

Visualisierungen werden erst in einem extra Arbeitsblatt entworfen und können mit anderen Arbeitsblättern in einem Dashboard verbaut werden. Die Anordnung der Elemente auf dem Dashboard kann frei erfolgen und/oder Elemente werden in einer Objekthierarchie abgelegt. Letzteres eignet sich gut für den Bau von Vorlagen und ist somit eine Stärke von Tableau. Das Vorgehen dabei ist nicht trivial, das heißt ein saloppes Reinschmeißen von Visualisierungen führt definitiv nicht zum Ziel.
Tim erklärt ziemlich gut, wie man vorgehen kann => HIER.

Tableau ist aus der Designperspektive limitiert, weshalb das Endergebnis, das Dashboard,  nicht selten sehr eckig und kantig aussieht. Einfache visuelle Anpassungen wie abgerundete Kanten von Arbeitsblättern/Containern sind nicht möglich. Designtechnisch hat Tableau daher noch Luft nach oben!

Fazit

Der Einstieg für kleine Unternehmen mit Tableau ist nur unter sehr hohem Kostenaufwand möglich, aufgrund von preisintensiven Lizenzen und einer Mindestabnahme an Lizenzen. Aber auch bei einem hohen Bedarf an Lizenzen befindet sich Tableau im höheren Preissegment. Jedoch beinhalten Tableaus Lizenzgebühren bereits Kosten, welche bei der Konkurrenz erst durch die Nutzung ersichtlich werden, da bei ihnen die Höhe der Kosten stärker von der beanspruchten Kapazität abhängig ist. Tableau bietet seinen Kunden damit eine hohe Transparenz über ein zwar preisintensives, aber sehr ausgereiftes Produktportfolio.

Tableau legt mit einer lokalen Option, welche die gleichen Funktionalitäten beinhaltet wie die cloudbasierte Alternative, ein Augenmerk auf Kunden mit strengen Data Governance-Richtlinien. Sandboxed Extensions sind ein weiteres Beispiel für das Bewusstsein für eine hohe Datensicherheit. Jedoch ist das Angebot an Extensions, also das Angebot dritter Entwickler, ausbaufähig. Eine breit aufgestellte Community bietet nicht nur dritten Entwicklern eine gute Geschäftsgrundlage, sondern auch Nutzern zu fast jedem Thema eine Hilfestellung.

Tableau Prep Builder => TOP!

Mit diesem Tool kann die Datengrundlage super einfach analysiert werden und Datenmanipulationen sind einfach durchzuführen. Die Syntax und die Verwendung von Berechnungen bedarf einiger Übung, aber wenn man die wesentlichen Konzepte verstanden hat, dann sind Berechnungen schnell erstellt.

Ein Dashboard kann zu 90 % in fast jedem Tool gleich aussehen. Der Weg dorthin ist oft ein anderer und je nach Anforderung bei einem Tool leichter als bei einem anderen. Tableau bietet ein komplexes Konzept, sodass auch die außergewöhnlichsten Anforderungen erfüllt werden können. Jedoch ist das zugrundliegende Design oft sehr kantig und nicht immer zeitgemäß.

Fortsetzung folgt… MicroStrategy

Wie künstliche Intelligenz hilft, Krankheiten zu bekämpfen

Die Herausforderungen im Gesundheitswesen sind gewaltig. Die Kosten steigen, das Geld ist knapp und die Margen sinken. Gleichzeitig fehlt es an Pflegepersonal, die vorhandenen Fachkräfte sind überarbeitet. Kliniken müssen effizient wirtschaften, um Patienten die bestmögliche Versorgung zu gewährleisten – und gleichzeitig Datensicherheits- und Compliance-Anforderungen bei der Verarbeitung der anfallenden Daten sicherstellen.

Der Einsatz von künstlicher Intelligenz (KI) kann dabei helfen, dieses Dilemma zu lösen. Algorithmen werden immer besser in dem, was sie tun – und sie arbeiten exakt, schnell und günstig. KI unterstützt in der Medizin und Forschung dabei, Patienten besser zu versorgen, indem beispielsweise Krankheiten früher erkannt werden können. Mit ihrer Hilfe könnten unter anderem die Gesundheitsausgaben in Europa in den kommenden zehn Jahren um einen dreistelligen Milliardenbetrag gesenkt werden, so das Ergebnis der PwC-Studie „Sherlock in Health – How artificial intelligence may improve quality and efficiency, whilst reducing healthcare costs in Europe“. Des Weiteren haben die meisten Patienten keine Berührungsängste: 54 Prozent wären demnach schon heute bereit, sich auf KI und Robotik in der Medizin einzulassen.

KI, ML und DL als medizinische Unterstützung

Algorithmen können in der Medizin auf unterschiedliche Weisen genutzt werden. KI beschäftigt sich mit Methoden, bei denen Computertechnologien es ermöglichen, menschliches Verhalten zu imitieren. Im Rahmen der medizinischen Bildgebung kann KI beispielsweise schnell Anomalien identifizieren, die für das menschliche Auge zu winzig erscheinen – oder große Datenmengen durchforsten. Ein Computertomograph erzeugt bis zu 640 Schnittbilder bei einem einzigen Scan. Wenn ein Radiologe sie ansehen und bewerten müsste, wäre das mit einem sehr hohen Zeitaufwand verbunden. Eine spezielle KI-Applikation kann die Bilder dagegen schnell analysieren und diejenigen markieren, welche Anomalien aufweisen. Die Radiologen können sich damit auf ihre Hauptaufgaben konzentrieren – Diagnose und Heilung. 

Ein weiteres Anwendungsgebiet von künstlicher Intelligenz innerhalb der Medizin ist der Einsatz von Intelligent Agents (IA), zum Beispiel für die Überwachung von Vitalwerten von Patienten oder als Kontrollmechanismus für die Arbeit des Pflegepersonals, der Ärzte oder Apotheker. Die Anwendungen überprüfen dann automatisch, ob die verschriebenen Medikamente und Therapien zum Krankheitsbild und zu den Werten des Patienten passen. 

Anwendungen aus dem Teilbereich der KI „Maschinelles Lernen (ML)“ lernen eigenständig dazu, je mehr Daten erfasst werden. Chirurgen können ML beispielsweise als Unterstützung verwenden, um den richtigen orthopädischen Eingriff nach einer Sportverletzung vorzubereiten. Die Technologie analysiert Patientendaten und kann die Unterschiede bei Knieverletzungen unterschiedlicher Sportarten sichtbar machen. So stehen dem Arzt detaillierte Informationen zur Verfügung, auf deren Basis er die Behandlung fortsetzt.

Deep Learning (DL) wiederum gilt als Teilbereich von ML und geht noch einen Schritt weiter, indem die Algorithmen nicht nur in der Lage sind, selbständig dazuzulernen, sondern sich auch kontinuierlich zu verbessern. So werden große Datenmengen verarbeitet, aus denen Wissenschaftler mögliche neue Erkenntnisse für Behandlungserfolge gewinnen können. Mit Hilfe von DL lassen sich beispielsweise bisher unbekannte Verbindungen zwischen bestimmten demografischen oder genetischen Indikatoren und unterschiedlichen Krankheiten aufdecken. Ebenso gibt es DL-Algorithmen, die mithilfe großer Datenmengen so trainiert werden, dass sie kleinste Veränderungen in der Zellstruktur erkennen können, die beispielsweise zu Brustkrebs führen. Die Fehlerquote bei der Brustkrebserkennung kann damit um bis zu 85 Prozent sinken, so eine Untersuchung von NVIDIA.

Komplexe KI-Projekte benötigen eine passende IT-Infrastruktur

Damit KI, ML und DL im Gesundheitswesen effektiv eingesetzt werden können, gibt es einige Grundvoraussetzungen. Zunächst einmal sind große Datenbestände notwendig. Diese werden genutzt, um die Algorithmen zu trainieren, damit sie akkurat und autonom arbeiten sowie Muster erkennen und genaue Vorhersagen treffen können. Dabei gilt es so viele Daten wie möglich zu berücksichtigen, unabhängig ob sie über verschiedene Systeme verteilt sind, aus unterschiedlichen Quellen stammen oder von mehreren unterschiedlichen Sensoren gesammelt wurden. Jedoch sollten sie eine hohe Datenqualität aufweisen. Darüber hinaus kann es sich um verschiedene Typen von Daten handeln (strukturiert, semi-strukturiert, unstrukturiert), die sich dynamisch entwickeln und verändern. 

Damit Daten überall dort verfügbar sind, wo sie gebraucht werden, gilt es Datensilos aufzulösen und miteinander zu verknüpfen. KI-Projekte stellen somit hohe Anforderungen an die IT-Infrastruktur hinsichtlich Datenverfügbarkeit und Datenqualität, Skalierbarkeit, Informationssicherheit sowie Genauigkeit mit hohen Ansprüchen an die Performance. Eine solch komplexe KI-Umgebung selbst zu planen, zu implementieren und zu unterhalten stellt viele Unternehmen vor große Herausforderungen. Es gibt jedoch schon umfassende Lösungen am Markt. Beispielsweise bietet NetApp zusammen mit NVIDIA und Cisco eine Lösung für die genannten Herausforderungen: ONTAP AI. Diese Architektur vereinfacht das komplette Datenmanagement: Informationen werden über das System sicher erfasst, weitergeleitet und verarbeitet, zum Training verwendet und analysiert.

ONTAP AI basiert auf einer verifizierten Architektur, die NVIDIA DGX-1 GPU‘s mit NetApp All Flash FAS Storage und Cisco Netzwerken zusammenführt und die Effizienz Ihrer KI-/DL-Umgebungen steigert. Herzstück von ONTAP AI ist die NVIDIA DGX-1, ein vollständig integriertes und sofort einsatzbereites Hardware- und Softwaresystem, das speziell für DL entwickelt wurde. Die DGX Plattform nutzt den Deep-Learning-Software-Stack der NVIDIA GPU Cloud, der für maximale GPU-beschleunigte DL-Performance optimiert wurde. Mit dem schnellen All-Flash-Storage und den weltweit ersten End-to-End NVMe-Technologien sorgen NetApp All Flash FAS Systeme für einen kontinuierlichen Datenfluss. So wird sichergestellt, dass die DGX-GPUs optimal mit Daten zur Verarbeitung versorgt werden und somit ein Flaschenhals hinsichtlich Datenbereitstellung durch die Storage-Systeme vermieden wird. 

Schnelle Diagnose

ONTAP AI kommt beispielsweise bei „BacillAi“ zum Einsatz, einem System zur Behandlung von Tuberkulose der Technologieberatungsfirma Cambridge Consultants. Tuberkulose ist die zweithäufigste Todesursache in Entwicklungsländern, da die Krankheit mit einer aufwendigen Diagnose verbunden ist: Zellen einer Speichelprobe müssen unter dem Mikroskop gezählt werden. Doch dafür gibt es nur wenig ausgebildetes medizinisches Personal. BacillAi vereinfacht diesen Schritt – und liefert zudem genauere und schnellere Ergebnisse. Ein Smartphone nimmt die Bilder der Speichelprobe von einem Standardmikroskop auf. Der DL-Algorithmus identifiziert Tuberkulose-Zellen, zählt sie und bestimmt das Stadium der Krankheit. Die Diagnose erhält der medizinische Mitarbeiter über eine App – somit ist das Ergebnis der Untersuchung zudem digitalisiert.

Fazit 

Künstliche Intelligenz kann das Gesundheitswesen revolutionieren. Unternehmen müssen dafür große Datenmengen aus unterschiedlichen Quellen erfassen, vorbereiten, verschieben, auf sie zugreifen und sie schützen. Damit KI, ML und DL-Projekte erfolgreich sind, brauchen Unternehmen aber eine effiziente Daten-Pipeline und eine Architektur, die eine hohe Performance, Sicherheit und Skalierbarkeit ermöglicht.

Weiter Informationen zum Thema finden Sie HIER.

NetApp INSIGHT™ 2020

Erleben Sie mit uns gemeinsam die NetApp INSIGHT™ 2020 am 24. und 25. März 2020 in Berlin! Wir zeigen Ihnen, wie Sie mit Ihrer eigenen Data Fabric Ihre hybride Multi-Cloud-Umgebung aufbauen können. Und das Beste? Sie hören nicht nur unsere Experten über die Data Fabric sprechen – Sie lernen, wie Sie Ihre eigene Data Fabric aufbauen können.

Verändern Sie Ihre Welt mit Daten.

Erfahren Sie gemeinsam mit anderen NetApp Kunden und Partnern, wie Sie mit Hilfe von Daten Innovation vorantreiben und so den Einsatz von KI und Ihre Applikationsentwicklung beschleunigen können. Tauschen Sie sich mit Gleichgesinnten aus und entdecken Sie neue Möglichkeiten, wie alle Unternehmensbereiche von der Leistungsfähigkeit der Cloud profitieren können. Lernen Sie NetApp Technologie in der Praxis kennen. Gewinnen Sie in interaktiven Breakout-Sessions tiefgehende Einblicke. Und auch der Spaß kommt dabei nicht zu kurz. 

Jetzt kostenlos registrieren


Die Tickets für unsere regionalen INSIGHT Veranstaltungen in EMEA sind in diesem Jahr kostenfrei. Wir bitten Sie jedoch, Ihre Anreise und Unterkunft individuell zu organisieren. Weitere Informationen finden Sie unter insight.netapp.com.

Herzliche Grüße,

Ihr NetApp INSIGHT Berlin Team

Machen Sie mehr aus Ihrem Prozessmanagement

Jedes neue Unternehmen steht vor den Fragen: Haben wir das richtige Produkt/den richtigen Marktansatz?  Funktioniert das Geschäftsmodell? Haben wir genug Liquidität? In der Regel konzentrieren sich neu gegründete Unternehmen auf das Überleben und verschieben alles, was für dieses Ziel zunächst nicht unmittelbar relevant ist, auf einen späteren Zeitpunkt.  


Read this article in English:

Scaling up your Process Management 


Die meisten Unternehmen stellen jedoch schnell fest, dass ihr Überleben vor allem davon abhängt, ob sie ihren Kunden innovative Produkte und effiziente Dienstleistungen anbieten können. Infolgedessen rückt die Arbeitsweise des Unternehmens in den Fokus, denn Manager und Mitarbeiter möchten auf effiziente Weise gute Ergebnisse erzielen. Der schnellste Weg zum Ziel: Effiziente Prozesse. 

Das Festlegen von Rollen und Verantwortlichkeiten führt dazu, dass Arbeitsabläufe im Unternehmen optimiert werden und Mitarbeiter ihre Aufgaben reibungsloser und schneller erledigen können.

Unternehmenswachstum mit Prozessmanagement

Jedes Unternehmen will sich schnell am Markt etablieren, das eigene Wachstum vorantreiben und neue Kunden gewinnen. Auch mit diesem Ziel vor Augen ist es nicht immer leicht, effiziente Prozesse zu gestalten. Nehmen Sie zum Beispiel die Rekrutierung und das Onboarding neuer Mitarbeiter. 

Einstellungsprozesse auf Ad-hoc-Basis können für ein Start-up funktionieren, nicht aber unbedingt für ein wachstumsorientiertes, mittelständisches Unternehmen. Hier müssen immer mehr Mitarbeiter in kürzerer Zeit eingearbeitet werden. Abteilungsleiter müssen sicherstellen, dass sie über die richtigen Informationen für ihre Arbeit verfügen. Die Lösung ist ein dokumentierter, skalierbarer und wiederholbarer Prozess, der unabhängig vom Standort oder der zu besetzenden Funktion beliebig oft ausgeführt werden kann. 

Wenn neue Mitarbeiter eingestellt werden, müssen sie wissen, wie sie ihre Aufgaben künftig erledigen müssen. Auch hier führt ein klar definierter Prozess dazu, dass die notwendigen Abläufe, Rollen und Dokumente bekannt und zugänglich sind – und das alles über Standortgrenzen hinweg. Unternehmenswachstum bedeutet auch, dass sich immer mehr Personen mit ihren Fähigkeiten und Ideen einbringen.

 

Kollaboratives Prozessmanagement

Führungskräfte sollten auf das kollektive Know-how ihrer Mitarbeiter setzen und ihnen die Möglichkeit zu geben, zur Verbesserung der Arbeitsweise des Unternehmens beizutragen. In einem Unternehmen mit einem effektiven Rahmen zur Prozessmodellierung bedeutet dies, dass alle Mitarbeiter Prozesse selbst entwerfen und modellieren können. 

Dass die Modellierung von Geschäftsprozessen in den Aufgabenbereich des Managements oder bestimmter Experten gehört, –ist eine überholte Sichtweise. Niemand möchte auf das wertvolle Wissen des Einzelnen verzichten: Denn je mehr Erkenntnisse über einen Prozess vorliegen, desto effizienter lassen sich die Prozesse modellieren und optimieren. Unternehmen, die auf die Nutzung einer gemeinsamen Informationsquelle für ihre Prozesse setzen, können eine kollaborative und transparente Arbeitsumgebung aufbauen. Dies führt nicht nur zu zufriedenen Mitarbeitern, sondern auch zu effizienteren Arbeitsabläufen und besseren Unternehmensergebnissen. 

Das kollaborative Prozessmanagement hilft wachsenden Unternehmen dabei, ineffiziente Abläufe, wie zeitaufwändigen E-Mail-Verkehr oder das Suchen nach der neuesten Dokumentenversion und andere Wachstumsbremsen zu vermeiden. 

Stattdessen können Prozessinhalte jederzeit von allen Mitarbeitern erstellt und freigegeben werden. Auf diese Weise werden die digitalen und cloudbasierten Strategien eines Unternehmens vorangetrieben, Analysen verbessert, Prozesse optimiert und Business-Transformation-Initiativen unterstützt. Kurz gesagt: Eine derartige Prozesstransparenz kann als Basis für die nächste Wachstumsphase eines Unternehmens genutzt werden. 

Sie möchten gern weitere Informationen über eine erfolgreiche Unternehmenstransformation erhalten? Gern stellen wir Ihnen unser Whitepaper In 7 Schritten zur Unternehmenstransformation kostenlos zur Verfügung.

Industrial IoT erreicht die Fertigungshalle

Lumada Manufacturing Insights nutzt KI, Machine Learning und DataOps, um digitale  Innovationen für Manufacturing 4.0 bereitzustellen

Dreieich/ Santa Clara (Kalifornien), 17. September 2019 Mit Lumada Manufacturing Insights kündigt Hitachi Vantara eine Suite von IIoT-Lösungen (Industrial IoT) an, mit der Fertigungsunternehmen auf ihren Daten basierende Transformationsvorhaben umsetzen können. Die Lösung lässt sich in bestehende Anwendungen integrieren und liefert aussagekräftige Erkenntnisse aus Daten, ohne dass Fertigungsanlagen oder -anwendungen durch einen „Rip-and-Replace”-Wechsel kostspielig ersetzt werden müssen. Lumada Manufacturing Insights optimiert Maschinen, Produktion und Qualität und schafft dadurch die Basis für digitale Innovationen, ohne die Manufacturing 4.0 unmöglich wäre. Die Plattform unterstützt eine Vielzahl von Bereitstellungsoptionen und kann On-Premise oder in der Cloud ausgeführt werden.

„Daten und Analytics können Produktionsprozesse modernisieren und transformieren. Aber für zu viele Hersteller verlangsamen bestehende Legacy-Infrastrukturen und voneinander getrennte Software und Prozesse die Innovation”, kommentiert Brad Surak, Chief Product und Strategy Officer bei Hitachi Vantara. „Mit Lumada Manufacturing Insights können Unternehmen die Basis für digitale Innovationen schaffen und dabei mit den Systemen und der Software arbeiten, die sie bereits im Einsatz haben.” 

Lumada Manufacturing Insights wird weltweit ab dem 30. September verfügbar sein. Weitere Informationen:

Bei der deutschen Version handelt es sich um eine gekürzte Version der internationalen Presseinformation von Hitachi Vantara.

Hitachi Vantara
Hitachi Vantara, eine hundertprozentige Tochtergesellschaft der Hitachi Ltd., hilft datenorientierten Marktführern, den Wert ihrer Daten herauszufinden und zu nutzen, um intelligente Innovationen hervorzubringen und Ergebnisse zu erzielen, die für Wirtschaft und Gesellschaft von Bedeutung sind. Nur Hitachi Vantara vereint über 100 Jahre Erfahrung in Operational Technology (OT) und mehr als 60 Jahre in Information Technology (IT), um das Potential Ihrer Daten, Ihrer Mitarbeitern und Ihren Maschinen zu nutzen. Wir kombinieren Technologie, geistiges Eigentum und Branchenwissen, um Lösungen zum Datenmanagement zu liefern, mit denen Unternehmen das Kundenerlebnis verbessern, sich neue Erlösquellen erschließen und die Betriebskosten senken können. Über 80% der Fortune 100 vertrauen Hitachi Vantara bei Lösungen rund um Daten. Besuchen Sie uns unter www.HitachiVantara.com.

Hitachi Ltd. Corporation
Hitachi, Ltd. (TSE: 6501) mit Hauptsitz in Tokio, Japan, fokussiert sich auf Social Innovation und kombiniert dazu Information Technology, Operational Technology und Produkte. Im Geschäftsjahr 2018 (das am 31. März 2019 endete) betrug der konsolidierte Umsatz des Unternehmens insgesamt 9.480,6 Milliarden Yen (85,4 Milliarden US-Dollar), wobei das Unternehmen weltweit rund 296.000 Mitarbeiter beschäftigt. Hitachi liefert digitale Lösungen mit Lumada in den Bereichen Mobility, Smart Life, Industry, Energy und IT. Weitere Informationen über Hitachi finden Sie unter http://www.hitachi.com.

 

Pressekontakte

Hitachi Vantara
Bastiaan van Amstel 
bastiaan.vanamstel@hitachivantara.com 

 

Public Footprint 
Thomas Schumacher
+49 / (0) 214 8309 7790
schumacher@public-footprint.de

 

 

Process Mining als Radar: So spüren Sie Optimierungspotenziale auf!

Unklare Prozesse können den Erfolg einer digitalen Transformation schnell behindern. Process Mining kann an dieser Stelle der Initiative zum Erfolg verhelfen. 

Process Mining, funktioniert wie ein Radar. Mithilfe dieser Methode lassen sich Prozesse überwachen und Schwachstellen identifizieren. Dabei werden Prozessoptimierung und Data Mining kombiniert. Unternehmen sind so in der Lage, bessere und faktenbasierte Entscheidungen zu treffen.

Dadurch erhalten Sie einen beispiellosen „Zugriff“ auf den versteckten Mehrwert in Ihren Prozessen. Es ist, als ob Sie auf Schatzsuche sind und genau wissen, wo Sie suchen müssen – mit einem „Bodenradar“ als Vorteil. Die Technologie bietet wertvolle, detaillierte Erkenntnisse für Ihre Entscheidungsfindung und zeigt zugleich verborgene Schätze und Möglichkeiten zur Umsatzsteigerung bei bisher unentdeckten Transformationsinitiativen auf.

 

Prozesse für geschäftliche Erkenntnisse in Echtzeit

Die Ermittlung von Prozessen basierend auf Ihren Daten kann über die Standards Ihrer Mitbewerber hinausgehen, sodass Sie diesen einen Schritt voraus sind. Mithilfe von Process Mining können Sie in digitalen Transformationsprojekten genau nachvollziehen, was in Ihrem Unternehmen vor sich geht. Die umfangreichen digitalen Daten zu tatsächlichen Ereignissen, Entscheidungen und Prozesspfaden zeigen Ihnen auf, was initiiert oder bereits realisiert wurde. Aus den Analysen lassen sich anschließend konkrete Ansätze ableiten, wie etwa Maßnahmen zur Kosteneinsparung oder einem genau definierten ROI.

Dies kann sogar auf ein ganzheitliches digitales Managementsystem für die dynamische und kontinuierliche Nutzung von Erkenntnissen aus einem Unternehmen ausgeweitet werden. Process Mining ist die Grundlage der digitalen Transformation und der erforderlichen neuen Strategien, um zu verstehen, wie ein Unternehmen funktioniert.

 

Ticktack: Zeit, den Ist-Zustand des Prozesses zu ermitteln

Mit einem expansiven Process-Mining-Ansatz wird die Optimierung zu einem Kernelement der DNA Ihres Unternehmens. Durch das Aufspüren spezifischer Abläufe, die mit herkömmlichen Methoden in der Regel unentdeckt bleiben, erleichtert Process Mining das Steuern der Prozesspfade. Dies bedeutet, dass die Funktionsweise eines Unternehmens besser analysiert und gesteuert werden kann, sodass die Prozessentwicklung und -optimierung zum Wegweiser von Unternehmen wird.

Der erste Schritt zur kontinuierlichen Verbesserung besteht darin, die besten Prozesse zu ermitteln, die gemeinsam in einem Unternehmen genutzt werden können, oder die Engpässe und Ineffizienzen zu ermitteln, die sich negativ auf Ihr Unternehmensergebnis auswirken.

Neue (Prozess-) Landschaften entdecken

Im Wesentlichen ist Process Mining der nächste Baustein für den Aufbau eines effizienten Prozessmanagements sowie für Prozessoptimierungsprojekte, die Mehrwert schaffen. Es kombiniert auf innovative Weise bewährte Methoden aus Prozessmodellierung und Business Intelligence. Process Mining verbessert die Effizienz und reduziert Risiken, sodass Sie von einem signifikant höheren Mehrwert profitieren können.

Was Process Mining für Initiativen zur digitalen Transformation jedoch noch spannender macht, ist die Möglichkeit, durch unentdeckte Bereiche der Prozesslandschaft zu navigieren. Auf diese Weise können Sie den Prozesswildwuchs reduzieren und genau die Prozesse und Zusammenhänge untersuchen, die bisher auf der Strecke geblieben sind. Hierzu zählen beispielsweise unterschiedliche Abläufe, Extremfälle, Ineffizienzen, Schwachstellen und ähnliches. In der Tat müssen im Rahmen von Initiativen zur Prozessoptimierung und -transformation genau diese Prozessarten am häufigsten ermittelt und analysiert werden. Denn am Ende ist ein Unternehmen nur so stark wie sein schwächster Prozess.

Nur, wenn wir Prozesse über ihre Grenzen hinweg genau analysieren, können wir Engpässe und Schwachstellen aufdecken und die Gründe hierfür verstehen. Ist das Problem beispielsweise ein Mitarbeiter, der Standort oder der Prozess selbst? Oder sind Prozesse immer durch den geschäftlichen Kontext gerechtfertigt  – sollten Fertigungsmaschinen ununterbrochen auch ohne Auftrag anlaufen oder sollten Mitarbeiter die Arbeitsabläufe diktieren?

Versteckter Mehrwert: Verbessern Sie Ihr Kundenerlebnis

Denken Sie daran, dass nicht nur das Datenvolumen wichtig ist, sondern auch, wie Unternehmen diese Daten nutzen. Unternehmen müssen die gewonnenen Informationen zur Verbesserung des Kundenerlebnisses einsetzen, z. B. mithilfe von Customer Journey Mapping (CJM), um die tägliche Entscheidungsfindung zu optimieren und um kontinuierlich Innovationen zu entwickeln. Damit Unternehmen in der Digital Economy von heute wettbewerbsfähig bleiben und gleichzeitig den zukünftigen Erfolg sicherstellen können, müssen sie Prozesse effektiv nutzen und steuern. Jetzt! Zum Beispiel:

  • Sie sorgen für mehr Transparenz und Sichtbarkeit Ihrer operativen Abläufe, überwinden Abteilungssilos und fördern die Kommunikation und Zusammenarbeit.
  • Sie standardisieren bestimmte Aktivitäten in Ihrer Organisation, sodass alle Mitarbeiter/innen sich an verbindliche Abläufe halten und Verantwortlichkeiten wirklich geklärt sind.
  • Sie bringen das ganze Team an einen Tisch und bieten Ihrem Team die Möglichkeit, Teilaufgaben zu automatisieren.

Unternehmen, die der technologischen Entwicklung immer einen Schritt voraus sind, können agile Abläufe aufbauen, um unterschiedliche und anspruchsvollere Kundenerwartungen zu erfüllen. Zugleich können sie die Effizienz der operativen Lieferkette durch bessere Strategien für die Zusammenarbeit und Einbeziehung der Lieferanten gewährleisten.

 

Prozesse für das neue digitale Transformationszeitalter (DTx)

Ob Ihr Unternehmen bereit ist oder nicht, das digitale Transformationszeitalter ist da und die Konvergenz von Mobilität und Cloud-Speicher hat zu einer wahren Explosion an digitalen Daten geführt. Benutzer haben jederzeit, überall und auf unzähligen Geräten Online-Zugriff und generieren jede Minute Unmengen an Informationen. Einer der führenden IT-Marktanalysten, International Data Corporation (IDC), prognostiziert, dass die Welt bis 2025 rund 160 Billionen Gigabyte an Daten erzeugen wird!

Um mit der verbesserten digitalen Kohärenz Schritt zu halten, können Experten für Digitale Transformation und Excellence mithilfe von Process-Mining-Daten faktenbasierte Entscheidungen treffen und schnell auf Veränderungen reagieren. Hierzu zählen eine leichtere Integration transformativer digitaler Technologien, bessere operative Agilität und Flexibilität, optimierte Unternehmensführung und -kultur sowie die Mitarbeiterförderung. Solch ein selbsttragender Ansatz führt zu nachhaltigen Ergebnissen und schafft eine Prozesskultur innerhalb des gesamten Unternehmens.

Aufbau einer Prozesskultur in Ihrem Unternehmen

Process Mining bietet weit mehr als Erkennen, Visualisieren, Analysieren: Anhand Ihrer vorhandenen Daten können Sie die Ausführung von Prozessen automatisch in Echtzeit überwachen. Diese einfache Bewertung per Mausklick ermöglicht ein sofortiges Verständnis komplexer Prozesse. Innerhalb von Transformationsprojekten, die aufgrund ihrer Natur tiefgreifende Änderungen in geschäftlichen und organisatorischen Aktivitäten, Prozessen, Kompetenzen und Modellen erfordern, liefert Process Mining die visuelle Übersicht und ermöglicht sofortige Maßnahmen.

Mit diesen Einsichten gewinnen Sie wertvolle Gesichtspunkte zu Fragen wie:

  • Wie können Sie digitale Datenspuren nutzen, um fundiertere Entscheidungen auf Ihrem Weg der Prozessverbesserung zu treffen?
  • Wie kann die Prozessleistung überwacht und der Soll- mit dem Ist-Zustand verglichen werden?
  • Wie können überflüssige Prozesse beseitigt werden, während die Prozesse erhalten bleiben, die einen echten Mehrwert bieten?

Die Zukunft des Prozesses verstehen

Je weiter die Globalisierung voranschreitet, desto mehr ist von Führungskräften die Bereitschaft gefordert, Prozesse ganzheitlich zu verstehen und sich neuen Denkweisen zu öffnen. Eine Investition in Systeme, Verfahren, Menschen und Technologien wird nur dann erfolgreich sein, wenn es eine progressive Führung und die Offenheit für Veränderungen gibt. 

Process Mining zeichnet sich nicht nur durch umfassende Vorteile aus, sondern auch durch komplexe Möglichkeiten. Der Zugriff auf Prozesse kann jedoch einfach sein. Das Verständnis und die Anpassung an sich schnell ändernde Umstände muss über einmalige, kopflastige Prozesskorrekturen hinausgehen. Stattdessen müssen kontinuierlich Verbesserung stattfinden. Dies bedeutet jedoch auch, dass sich die DNA eines Unternehmens ständig verändert, um für neue Herausforderungen gewappnet zu sein. Ein Entwicklungsprozess, so revolutionär, dynamisch und kontinuierlich wie die konstante Veränderung des Geschäfts … und des Lebens selbst.

Starten Sie Ihre eigene Schatzsuche!

Schöpfen Sie mit Signavio Process Intelligence das Potenzial von Process Mining voll aus und erfahren Sie, wie Ihr Unternehmen den versteckten Mehrwert von Prozessen für sich nutzen, neue Ideen generieren und Zeit und Geld sparen kann. 

Erstellen und benutzen einer Geodatenbank

In diesem Artikel soll es im Gegensatz zum vorherigen Artikel Alles über Geodaten weniger darum gehen, was man denn alles mit Geodaten machen kann, dafür aber mehr darum wie man dies anstellt. Es wird gezeigt, wie man aus dem öffentlich verfügbaren Datensatz des OpenStreetMap-Projekts eine Geodatenbank erstellt und einige Beispiele dafür gegeben, wie man diese abfragen und benutzen kann.

Wahl der Datenbank

Prinzipiell gibt es zwei große “geo-kompatible” OpenSource-Datenbanken bzw. “Datenbank-AddOn’s”: Spatialite, welches auf SQLite aufbaut, und PostGIS, das PostgreSQL verwendet.

PostGIS bietet zum Teil eine einfachere Syntax, welche manchmal weniger Tipparbeit verursacht. So kann man zum Beispiel um die Entfernung zwischen zwei Orten zu ermitteln einfach schreiben:

während dies in Spatialite “nur” mit einer normalen Funktion möglich ist:

Trotztdem wird in diesem Artikel Spatialite (also SQLite) verwendet, da dessen Einrichtung deutlich einfacher ist (schließlich sollen interessierte sich alle Ergebnisse des Artikels problemlos nachbauen können, ohne hierfür einen eigenen Datenbankserver aufsetzen zu müssen).

Der Hauptunterschied zwischen PostgreSQL und SQLite (eigentlich der Unterschied zwischen SQLite und den meissten anderen Datenbanken) ist, dass für PostgreSQL im Hintergrund ein Server laufen muss, an welchen die entsprechenden Queries gesendet werden, während SQLite ein “normales” Programm (also kein Client-Server-System) ist welches die Queries selber auswertet.

Hierdurch fällt beim Aufsetzen der Datenbank eine ganze Menge an Konfigurationsarbeit weg: Welche Benutzer gibt es bzw. akzeptiert der Server? Welcher Benutzer bekommt welche Rechte? Über welche Verbindung wird auf den Server zugegriffen? Wie wird die Sicherheit dieser Verbindung sichergestellt? …

Während all dies bei SQLite (und damit auch Spatialite) wegfällt und die Einrichtung der Datenbank eigentlich nur “installieren und fertig” ist, muss auf der anderen Seite aber auch gesagt werden dass SQLite nicht gut für Szenarien geeignet ist, in welchen viele Benutzer gleichzeitig (insbesondere schreibenden) Zugriff auf die Datenbank benötigen.

Benötigte Software und ein Beispieldatensatz

Was wird für diesen Artikel an Software benötigt?

SQLite3 als Datenbank

libspatialite als “Geoplugin” für SQLite

spatialite-tools zum erstellen der Datenbank aus dem OpenStreetMaps (*.osm.pbf) Format

python3, die beiden GeoModule spatialite, folium und cartopy, sowie die Module pandas und matplotlib (letztere gehören im Bereich der Datenauswertung mit Python sowieso zum Standart). Für pandas gibt es noch die Erweiterung geopandas sowie eine praktisch unüberschaubare Anzahl weiterer geographischer Module aber bereits mit den genannten lassen sich eine Menge interessanter Dinge herausfinden.

– und natürlich einen Geodatensatz: Zum Beispiel sind aus dem OpenStreetMap-Projekt extrahierte Datensätze hier zu finden.

Es ist ratsam, sich hier erst einmal einen kleinen Datensatz herunterzuladen (wie zum Beispiel einen der Stadtstaaten Bremen, Hamburg oder Berlin). Zum einen dauert die Konvertierung des .osm.pbf-Formats in eine Spatialite-Datenbank bei größeren Datensätzen unter Umständen sehr lange, zum anderen ist die fertige Datenbank um ein vielfaches größer als die stark gepackte Originaldatei (für “nur” Deutschland ist die fertige Datenbank bereits ca. 30 GB groß und man lässt die Konvertierung (zumindest am eigenen Laptop) am besten über Nacht laufen – willkommen im Bereich “BigData”).

Erstellen eine Geodatenbank aus OpenStreetMap-Daten

Nach dem Herunterladen eines Datensatzes der Wahl im *.osm.pbf-Format kann hieraus recht einfach mit folgendem Befehl aus dem Paket spatialite-tools die Datenbank erstellt werden:

Erkunden der erstellten Geodatenbank

Nach Ausführen des obigen Befehls sollte nun eine Datei mit dem gewählten Namen (im Beispiel bremen-latest.sqlite) im aktuellen Ordner vorhanden sein – dies ist bereits die fertige Datenbank. Zunächst sollte man mit dieser Datenbank erst einmal dasselbe machen, wie mit jeder anderen Datenbank auch: Sich erst einmal eine Weile hinsetzen und schauen was alles an Daten in der Datenbank vorhanden und vor allem wo diese Daten in der erstellten Tabellenstruktur zu finden sind. Auch wenn dieses Umschauen prinzipiell auch vollständig über die Shell oder in Python möglich ist, sind hier Programme mit graphischer Benutzeroberfläche (z. B. spatialite-gui oder QGIS) sehr hilfreich und sparen nicht nur eine Menge Zeit sondern vor allem auch Tipparbeit. Wer dies tut, wird feststellen, dass sich in der generierten Datenbank einige dutzend Tabellen mit Namen wie pt_addresses, ln_highway und pg_boundary befinden.

Die Benennung der Tabellen folgt dem Prinzip, dass pt_*-Tabellen Punkte im Geokoordinatensystem wie z. B. Adressen, Shops, Bäckereien und ähnliches enthalten. ln_*-Tabellen enthalten hingegen geographische Entitäten, welche sich als Linien darstellen lassen, wie beispielsweise Straßen, Hochspannungsleitungen, Schienen, ect. Zuletzt gibt es die pg_*-Tabellen welche Polygone – also Flächen einer bestimmten Form enthalten. Dazu zählen Landesgrenzen, Bundesländer, Inseln, Postleitzahlengebiete, Landnutzung, aber auch Gebäude, da auch diese jeweils eine Grundfläche besitzen. In dem genannten Datensatz sind die Grundflächen von Gebäuden – zumindest in Europa – nahezu vollständig. Aber auch der Rest der Welt ist für ein “Wikipedia der Kartographie” insbesondere in halbwegs besiedelten Gebieten bemerkenswert gut erfasst, auch wenn nicht unbedingt davon ausgegangen werden kann, dass abgelegenere Gegenden (z. B. irgendwo auf dem Land in Südamerika) jedes Gebäude eingezeichnet ist.

Verwenden der Erstellten Datenbank

Auf diese Datenbank kann nun entweder direkt aus der Shell über den Befehl

zugegriffen werden oder man nutzt das gleichnamige Python-Paket:

Nach Eingabe der obigen Befehle in eine Python-Konsole, ein Jupyter-Notebook oder ein anderes Programm, welches die Anbindung an den Python-Interpreter ermöglicht, können die von der Datenbank ausgegebenen Ergebnisse nun direkt in ein Pandas Data Frame hineingeladen und verwendet/ausgewertet/analysiert werden.

Im Grunde wird hierfür “normales SQL” verwendet, wie in anderen Datenbanken auch. Der folgende Beispiel gibt einfach die fünf ersten von der Datenbank gefundenen Adressen aus der Tabelle pt_addresses aus:

Link zur Ausgabe

Es wird dem Leser sicherlich aufgefallen sein, dass die Spalte “Geometry” (zumindest für das menschliche Auge) nicht besonders ansprechend sowie auch nicht informativ aussieht: Der Grund hierfür ist, dass diese Spalte die entsprechende Position im geographischen Koordinatensystem aus Gründen wie dem deutlich kleineren Speicherplatzbedarf sowie der damit einhergehenden Optimierung der Geschwindigkeit der Datenbank selber, in binärer Form gespeichert und ohne weitere Verarbeitung auch als solche ausgegeben wird.

Glücklicherweise stellt spatialite eine ganze Reihe von Funktionen zur Verarbeitung dieser geographischen Informationen bereit, von denen im folgenden einige beispielsweise vorgestellt werden:

Für einzelne Punkte im Koordinatensystem gibt es beispielsweise die Funktionen X(geometry) und Y(geometry), welche aus diesem “binären Wirrwarr” den Längen- bzw. Breitengrad des jeweiligen Punktes als lesbare Zahlen ausgibt.

Ändert man also das obige Query nun entsprechend ab, erhält man als Ausgabe folgendes Ergebnis in welchem die Geometry-Spalte der ausgegebenen Adressen in den zwei neuen Spalten Longitude und Latitude in lesbarer Form zu finden ist:

Link zur Tabelle

Eine weitere häufig verwendete Funktion von Spatialite ist die Distance-Funktion, welche die Distanz zwischen zwei Orten berechnet.

Das folgende Beispiel sucht in der Datenbank die 10 nächstgelegenen Bäckereien zu einer frei wählbaren Position aus der Datenbank und listet diese nach zunehmender Entfernung auf (Achtung – die frei wählbare Position im Beispiel liegt in München, wer die selbe Position z. B. mit dem Bremen-Datensatz verwendet, wird vermutlich etwas weiter laufen müssen…):

Link zur Ausgabe

Ein Anwendungsfall für eine solche Liste können zum Beispiel Programme/Apps wie maps.me oder Google-Maps sein, in denen User nach Bäckereien, Geldautomaten, Supermärkten oder Apotheken “in der Nähe” suchen können sollen.

Diese Liste enthält nun alle Informationen die grundsätzlich gebraucht werden, ist soweit auch informativ und wird in den meißten Fällen der Datenauswertung auch genau so gebraucht, jedoch ist diese für das Auge nicht besonders ansprechend.

Viel besser wäre es doch, die gefundenen Positionen auf einer interaktiven Karte einzuzeichnen:

Was kann man sonst interessantes mit der erstellten Datenbank und etwas Python machen? Wer in Deutschland ein wenig herumgekommen ist, dem ist eventuell aufgefallen, dass sich die Endungen von Ortsnamen stark unterscheiden: Um München gibt es Stadteile und Dörfer namens Garching, Freising, Aubing, ect., rund um Stuttgart enden alle möglichen Namen auf “ingen” (Plieningen, Vaihningen, Echterdingen …) und in Berlin gibt es Orte wie Pankow, Virchow sowie eine bunte Auswahl weiterer *ow’s.

Das folgende Query spuckt gibt alle “village’s”, “town’s” und “city’s” aus der Tabelle pt_place, also Dörfer und Städte, aus:

Link zur Ausgabe

Graphisch mit matplotlib und cartopy in ein Koordinatensystem eingetragen sieht diese Verteilung folgendermassen aus:

Die Grafik zeigt, dass stark unterschiedliche Vorkommen der verschiedenen Ortsendungen in Deutschland (Clustering). Über das genaue Zustandekommen dieser Verteilung kann ich hier nur spekulieren, jedoch wird diese vermutlich ähnlichen Prozessen unterliegen wie beispielsweise die Entwicklung von Dialekten.

Wer sich die Karte etwas genauer anschaut wird merken, dass die eingezeichneten Landesgrenzen und Küstenlinien nicht besonders genau sind. Hieran wird ein interessanter Effekt von häufig verwendeten geographischen Entitäten, nämlich Linien und Polygonen deutlich. Im Beispiel werden durch die beiden Zeilen

die bereits im Modul cartopy hinterlegten Daten verwendet. Genaue Verläufe von Küstenlinien und Landesgrenzen benötigen mit wachsender Genauigkeit hingegen sehr viel Speicherplatz, da mehr und mehr zu speichernde Punkte benötigt werden (genaueres siehe hier).

Schlussfolgerung

Man kann also bereits mit einigen Grundmodulen und öffentlich verfügbaren Datensätzen eine ganze Menge im Bereich der Geodaten erkunden und entdecken. Gleichzeitig steht, insbesondere für spezielle Probleme, eine große Bandbreite weiterer Software zur Verfügung, für welche dieser Artikel zwar einen Grundsätzlichen Einstieg geben kann, die jedoch den Rahmen dieses Artikels sprengen würden.

Data Leader Days 2018 – Review

Das Who’s Who der Datenwirtschaft auf den Data Leader Days 2018

Berlin, Dezember 2018: Die Data Leader Days am 14./15. November 2018 im Berliner Spreespeicher haben erneut die Entscheider aus der Business- und Digitalwelt versammelt und wichtige Impulse ausgesendet. Die in diesem Jahr zum dritten Mal stattfindende Veranstaltung verzeichnete mit knapp 300 Teilnehmern einen enormen Besucherzuwachs. Organisiert wurde die Konferenz von DATANOMIQ und dem Connected Industry.

Der Auftakttag stand ganz unter dem Zeichen von Commercial und Finance Data: Besondere Highlights waren hier die Vorträge von Dr. Joachim Schmalzl, Vorstandsmitglied des Dt. Sparkassen- und Giroverbands, der auf die Fortschritte der Sparkassen bei der Umsetzung von digitalen Innovationen einging sowie Marcus Hartmann, Chief Data Officer der ProSieben Sat. 1 Media mit seiner Keynote. Im Fokus des zweiten Tages standen Industrial und Automotive Data. Hier konnten Digitalmanager von BASF, Heidelberger Druckmaschinen, E.ON, Wittenstein, Vodafone, Schaeffler und Airbus anhand von Live Demos und Use Cases die Themen Data Science & Machine Learning, Data Engineering sowie Data Visualization vorstellen.

Die Data Leader Days freuen sich auch im nächsten Jahr wieder auf eine große Resonanz. Das Event findet wieder in Berlin am 13./14. November 2019 statt.

Data Leader Days Sponsors and Audience