5 Things You Should Know About Data Mining

The majority of people spend about twenty-four hours online every week. In that time they give out enough information for big data to know a lot about them. Having people collecting and compiling your data might seem scary but it might have been helpful for you in the past.


If you have ever been surprised to find an ad targeted toward something you were talking about earlier or an invention made based on something you were googling, then you already know that data mining can be helpful. Advanced education in data mining can be an awesome resource, so it may pay to have a personal tutor skilled in the area to help you understand. 


It is understandable to be unsure of a system that collects all of the information online so that they can learn more about you. Luckily, so much data is put out every day it is unlikely data mining is focusing on any of your important information. Here are a few statistics you should know about mining.


1. Data Mining Is Used In Crime Scenes

Using a variation of earthquake prediction software and data, the Los Angeles police department and researchers were able to predict crime within five hundred feet. As they learn how to compile and understand more data patterns, crime detecting will become more accurate.


Using their data the Los Angeles police department was able to stop thief activity by thirty-three percent. They were also able to predict violent crime by about twenty-one percent. Those are not perfect numbers, but they are better than before and will get even more impressive as time goes on. 


The fact that data mining is able to pick up on crime statistics and compile all of that data to give an accurate picture of where crime is likely to occur is amazing. It gives a place to look and is able to help stop crime as it starts.


2. Data Mining Helps With Sales

A great story about data mining in sales is the example of Walmart putting beer near the diapers. The story claims that through measuring statistics and mining data it was found that when men purchase diapers they are also likely to buy a pack of beer. Walmart collected that data and put it to good use by putting the beer next to the diapers.


The amount of truth in that story/example is debatable, but it has made data mining popular in most retail stores. Finding which products are often bought together can give insight into where to put products in a store. This practice has increased sales in both items immensely just because people tend to purchase items near one another more than they would if they had to walk to get the second item. 


Putting a lot of stock in the data-gathering teams that big stores build does not always work. There have been plenty of times when data teams failed and sales plummeted. Often, the benefits outweigh the potential failure, however, and many stores now use data mining to make a lot of big decisions about their sales.


3. It’s Helping With Predicting Disease 


In 2009 Google began work to be able to predict the winter flu. Google went through the fifty million most searched words and then compared them with what the CDC was finding during the 2003-2008 flu seasons. With that information google was able to help predict the next winter flu outbreak even down to the states it hit the hardest. 


Since 2009, data mining has gotten much better at predicting disease. Since the internet is a newer invention it is still growing and data mining is still getting better. Hopefully, in the future, we will be able to predict disease breakouts quickly and accurately. 


With new data mining techniques and research in the medical field, there is hope that doctors will be able to narrow down problems in the heart. As the information grows and more data is entered the medical field gets closer to solving problems through data. It is something that is going to help cure diseases more quickly and find the root of a problem.


4. Some Data Mining Gets Ignored

Interestingly, very little of the data that companies collect from you is actually used. “Big data Companies” do not use about eighty-eight percent of the data they have. It is incredibly difficult to use all of the millions of bits of data that go through big data companies every day.


The more people that are used for data mining and the more data companies are actually able to filter through, the better the online experience will be. It might be a bit frightening to think of someone going through what you are doing online, but no one is touching any of the information that you keep private. Big data is using the information you put out into the world and using that data to come to conclusions and make the world a better place.


There is so much information being put onto the internet at all times. Twenty-four hours a week is the average amount of time a single person spends on the internet, but there are plenty of people who spend more time than that. All of that information takes a lot of people to sift through and there are not enough people in the data mining industry to currently actually go through the majority of the data being put online.


5. Too Many Data Mining Jobs

Interestingly, the data industry is booming. In general, there are an amazing amount of careers opening on the internet every day. The industry is growing so quickly that there are not enough people to fill the jobs that are being created.


The lack of talent in the industry means there is plenty of room for new people who want to go into the data mining industry. It was predicted that by 2018 there would be a shortage of 140,000 with deep analytical skills. With the lack of jobs that are being discussed, it is amazing that there is such a shortage in the data industry. 


If big data is only able to wade through less than half of the data being collected then we are wasting a resource. The more people who go into an analytics or computer career the more information we will be able to collect and utilize. There are currently more jobs than there are people in the data mining field and that needs to be corrected.


To Conclude

The data mining industry is making great strides. Big data is trying to use the information they collect to sell more things to you but also to improve the world. Also, there is something very convenient about your computer knowing the type of things you want to buy and showing you them immediately. 


Data mining has been able to help predict crime in Los Angeles and lower crime rates. It has also helped companies know what items are commonly purchased together so that stores can be organized more efficiently. Data mining has even been able to predict the outbreak of disease down to the state.


Even with so much data being ignored and so many jobs left empty, data mining is doing incredible things. The entire internet is constantly growing and the data mining is growing right along with it. As the data mining industry climbs and more people find their careers mining data the more we will learn and the more facts we will find.


Artikelserie: BI Tools im Vergleich – Tableau

Dies ist ein Artikel der Artikel-Serie “BI Tools im Vergleich – Einführung und Motivation“. Solltet ihr gerade erst eingestiegen sein, dann schaut euch ruhig vorher einmal die einführenden Worte und die Ausführungen zur Datenbasis an. Power BI machte den Auftakt und ihr findet den Artikel hier.


Tableau stellt seinen Kunden zu allererst vor die Wahl, wo und von wem die Infrastruktur betrieben werden soll. Einen preislichen Vorteil hat der Kunde bei der Wahl einer selbstverwaltenden Lösung unter Nutzung von Tableau Server. Die Alternative ist eine Cloud-Lösung, bereitgestellt und verwaltet von Tableau. Bei dieser Variante wird Tableau Server durch Tableau Online ersetzt, wobei jede dieser Optionen die gleichen Funktionalitäten mit sich bringen. Bereits das Lizenzmodell definiert unterschiedliche Rollen an Usern, welche in drei verschiedene Lizenztypen unterteilt und unterschiedlich bepreist sind (siehe Grafik). So kann der User die Rolle eines Creators, Explorers oder Viewers einnehmen.Der Creator ist befähigt, alle Funktionen von Tableau zu nutzen, sofern ein Unternehmen die angebotenen Add-ons hinzukauft. Die Lizenz Explorer ermöglicht es dem User, durch den Creator vordefinierte Datasets in Eigenregie zu analysieren und zu visualisieren. Demnach obliegt dem Creator, und somit einer kleinen Personengruppe, die Datenbereitstellung, womit eine Single Source of Truth garantiert werden soll. Der Viewer hat nur die Möglichkeit Berichte zu konsumieren, zu teilen und herunterzuladen. Wobei in Bezug auf Letzteres der Viewer limitiert ist, da dieser nicht die kompletten zugrundeliegenden Daten herunterladen kann. Lediglich eine Aggregation, auf welcher die Visualisierung beruht, kann heruntergeladen werden. Ein Vergleich zeigt die wesentlichen Berechtigungen je Lizenz.

Der Einstieg bei Tableau ist für Organisationen nicht unter 106 Lizenzen (100 Viewer, 5 Explorer, 1 Creator) möglich, und Kosten von mindestens $1445 im Monat müssen einkalkuliert werden.

Wie bereits erwähnt, existieren Leistungserweiterungen, sogennante Add-ons. Die selbstverwaltende Alternative unter Nutzung von Tableau Server (hosted by customer) kann um das Tableau Data Management Add‑on und das Server Management Add‑on erweitert werden. Hauptsächlich zur Serveradministration, Datenverwaltung und -bereitstellung konzipiert sind die Features in vielen Fällen entbehrlich. Für die zweite Alternative (hosted by Tableau) kann der Kunde ebenfalls das Tableau Data Management Add‑on sowie sogenannte Resource Blocks dazu kaufen. Letzteres lässt bereits im Namen einen kapazitätsabhängigen Kostenfaktor vermuten, welcher zur Skalierung dient. Die beiden Add‑ons wiederum erhöhen die Kosten einer jeden Lizenz, was erhebliche Kostensteigerungen mit sich bringen kann. Das Data Management Add‑on soll als Beispiel die Kostenrelevanz verdeutlichen. Es gelten $5,50 je Lizenz für beide Hosting Varianten. Ein Unternehmen bezieht 600 Lizenzen (50 Creator, 150 Explorer und 400 Viewer) und hosted Tableau Server auf einer selbstgewählten Infrastruktur. Beim Zukauf des Add‑ons erhöht sich die einzelne Viewer-Lizenz bei einem Basispreis von $12 um 46%. Eine nicht unrelevante Größe bei der Vergabe neuer Viewer-Lizenzen, womit sich ein jedes Unternehmen mit Wachstumsambitionen auseinandersetzen sollte. Die Gesamtkosten würden nach geschilderter Verteilung der Lizenzen um 24% steigen (Anmerkung: eventuelle Rabatte sind nicht mit einbezogen). Die Tatsache, dass die Zuschläge für alle Lizenzen gelten, kann zumindest kritisch hinterfragt werden.

Ein weiterer, anfangs oft unterschätzter Kostenfaktor ist die Anzahl der Explorer-Lizenzen. Das Verhältnis der Explorer-Lizenzen an der Gesamtanzahl wächst in vielen Fällen mittelfristig nach der Einführungsphase stark an. Häufig wird Tableau als eine neue State of the Art Reporting Lösung mit schönen bunten Bildern betrachtet und dessen eigentliche Stärke, die Generierung von neuen Erkenntnissen mittels Data Discovery, wird unterschätzt. Hier kommt die Explorer Lizenz ins Spiel, welche ca. das Dreifache einer Viewer Lizenz kostet und den User befähigt, tiefer in die Daten einzusteigen.

Nichtdestotrotz kann man behaupten, dass das Lizenzmodell sehr transparent ist. Tableau selbst wirbt damit, dass keine versteckten Kosten auf den Kunden zukommen. Das Lizenzmodell ist aber nicht nur auf die Endkunden ausgerichtet, sondern bietet mit Tableau Server auch ein besonders auf Partner ausgerichtetes Konzept an. Serviceanbieter können so Lizenzen erwerben und in das eigene Angebot zu selbst gewählten Konditionen aufnehmen. Eine Server Instanz reicht aus, da das Produkt auch aus technischer Sicht mit sogenannten Sites auf verschiedene Stakeholder ausgerichtet werden kann.

Community & Features von anderen Entwicklern

Die Bedeutung einer breiten Community soll hier noch einmal hervorgehoben werden. Für Nutzer ist der Austausch über Probleme und Herausforderungen sowie technischer und organisatorischer Art äußerst wichtig, und auch der Softwarehersteller profitiert davon erheblich. Nicht nur, dass der Support teilweise an die eigenen Nutzer abgegeben wird, auch kann der Anbieter bestehende Features zielgerichteter optimieren und neue Features der Nachfrage anpassen. Somit steht die Tableau Community der Power BI Community in nichts nach. Zu den meisten Themen wird man schnell fündig in diversen Foren wie auch auf der Tableau Webseite. Es existiert die klassische Community Plattform, aber auch eine Tableau Besonderheit: Tableau Public. Es handelt sich hierbei um eine kostenlose Möglichkeit eine abgespeckte Version von Tableau zu nutzen und Inhalte auf der gleichnamigen Cloud zu veröffentlichen. Ergänzend sind etliche Lernvideos auf den einschlägigen Seiten fast zu jedem Thema zu finden und komplettieren das Support-Angebot.

Zusätzlich bietet Tableau sogenannte Admin-Tools aus eigenem Hause an, welche als Plug ins eingebunden werden können. Tableau unterscheidet dabei zwischen Community Supported Tools (z.B. TabMon) und Tableau Supported Tools (z.B. Tabcmd).

Ebenfalls bietet Tableau seit der Version 2018.2 dritten Entwicklern eine sogenannte Extensions API an und ermöglicht diesen damit, auf Basis der Tableau-Produkte eigene Produkte zu entwickeln. Erst kürzlich wurde mit Sandboxed Extensions in der Version 2019.4 ein wesentlicher Schritt hin zu einer höheren Datensicherheit gemacht, so dass es zukünftig zwei Gruppen von Erweiterungen geben wird. Die erste und neue Gruppe Sandboxed Extensions beinhaltet alle Erweiterungen, bei denen die Daten das eigene Netzwerk bzw. die Cloud nicht verlassen. Alle übrigen Erweiterungen werden in der zweiten Gruppe Network-Enabled Extensions zusammengefasst. Diese kommunizieren wie gehabt mit der Außenwelt, um den jeweiligen Service bereitzustellen.

Grundsätzlich ist Tableau noch zurückhaltend, wenn es um Erweiterungen des eigenen Produktportfolios geht. Deshalb ist die Liste mit insgesamt 37 Erweiterungen von 19 Anbietern noch recht überschaubar.

Daten laden & transformieren

Bevor der Aufbau der Visualisierungen beginnen kann, müssen die Daten fehlerfrei in Logik und in Homogenität in das Tool geladen werden. Zur Umsetzung dieser Anforderungen bietet sich ein ETL Tool an, und mit der Einführung von Tableau Prep Builder im April 2018 gibt der Softwareentwickler dem Anwender ein entsprechendes Tool an die Hand. Die Umsetzung ist sehr gut gelungen und die Bedienung ist sogar Analysten ohne Kenntnisse von Programmiersprachen möglich. Natürlich verfügen die zur Visualisierung gedachten Tools im Produktsortiment (Tableau Desktop, Server und Online) ebenfalls über (gleiche) Werkzeuge zur Datenmanipulierung. Jedoch verfügt Tableau Prep Builder dank seiner erweiterten Visualisierungen zur Transformation und Zusammenführung von Daten über hervorragende Werkzeuge zur Überprüfung und Analyse der Datengrundlage sowie der eigenen Arbeit.

Als Positivbeispiel ist die Visualisierung zu den JOIN-Operationen hervorzuheben, welche dem Anwender auf einen Blick zeigt, wie viele Datensätze vom JOIN betroffen sind und letztendlich auch, wie viele Datensätze in die Output-Tabelle eingeschlossen werden (siehe Grafik).

Zur Datenzusammenführung dienen klassische JOIN- und UNION-Befehle und die Logik entspricht den SQL-Befehlen. Das Ziel dabei ist die Generierung einer Extract-Datei und somit einer zweidimensionalen Tabelle für den Bau von Visualisierungen.

Exkurs – Joins in Power BI:

Erst bei der Visualisierung führt Power BI (im Hintergrund) die Daten durch Joins verschiedener Tabellen zusammen, sofern man vorher ein Datenmodell fehlerfrei definiert hat und die Daten nicht bereits mittels Power Query zusammengeführt hat.

Alternativ können auch diverse Datenquellen in das Visualisierungstool geladen und entsprechend des Power BI-Ansatzes Daten zusammengeführt werden. Dieses sogenannte Data Blending rückt seit der Einführung von Tableau Prep Builder immer mehr in den Hintergrund und Tableau führt die User auch hin zu einer weiteren Komponente: Tableau Prep Conductor. Es ist Bestandteil des bereits erwähnten, kostenpflichtigen Tableau Data Management Add-ons und ergänzt die eingeschränkte Möglichkeit, in Tableau Prep Builder automatisierte Aktualisierungen zu planen.

Kalkulationen können, wie auch bei Power BI, teilweise über ein Userinterface (UI) getätigt werden. Jedoch bietet das UI weniger Möglichkeiten, die wirklich komplizierten Berechnungen vorzunehmen, und der User wird schneller mit der von Tableau entwickelten Sprache konfrontiert. Drei Kategorien von Berechnungen werden unterschieden:

  • Einfache Berechnungen
  • Detailgenauigkeits-Ausdrücke (Level of Detail, LOD)
  • Tabellenberechnungen

Es gibt zwei wesentliche Fragestellungen bei der Auswahl der Berechnungsmethode.

1. Was soll berechnet werden? => Detailgenauigkeit?

Diese Frage klingt auf den ersten Blick simpel, kann aber komplexe Ausmaße annehmen. Tableau gibt hierzu aber einen guten Leitfaden für den Start an die Hand.

2. Wann soll berechnet werden?

Die Wahl der Berechnungsmethode hängt auch davon ab, wann welche Berechnung von der Software durchgeführt wird. Die Reihenfolge der Operationen zeigt die folgende Grafik.

Man braucht einiges an Übung, bis man eine gewisse Selbstsicherheit erlangt hat. Deshalb ist ein strukturiertes Vorgehen für komplexe Vorhaben ratsam.

Daten laden & transformieren: AdventureWorks2017Dataset

Wie bereits im ersten Artikel beschrieben, ist es nicht sehr sinnvoll, ein komplettes Datenmodell in ein BI-Tool zu laden, insbesondere wenn man nur wenige Informationen aus diesem benötigt. Ein für diese Zwecke angepasster View in der Datenbasis wäre aus vielerlei Hinsicht näher an einem Best Practice-Vorgehen. Nicht immer hat man die Möglichkeit, Best Practice im Unternehmen zu leben => siehe Artikel 1 der Serie.

Erst durch die Nutzung von Tableau Prep wurde die komplexe Struktur der Daten deutlich. In Power BI fiel bei der Bereitstellung der Tabellen nicht auf, dass die Adressdaten zu den [Store Contact] nicht in der Tabelle [Adress] zu finden sind. Erst durch die Nutzung von Tableau Prep und einer Analyse zu den Joins, zeigte das Fehlen zuvor genannter Adressen für Stores auf. Weiterhin zeigte die Analyse des Joins von Handelswaren und dazugehöriger Lieferanten auch eine m:n Beziehung auf und somit eine Vervielfachung der Datensätze der output Tabelle.

Kurzum: Tableau Prep ist ein empfehlenswertes Tool, um die Datenbasis schnell zu durchdringen und aufwendige Datenbereitstellungen vorzunehmen.

Daten visualisieren

Erwartungsgemäß sind im Vergleich zwischen Tableau und Power BI einige Visualisierungen leichter und andere dagegen schwerer aufzubauen. Grundsätzlich bieten beide Tools einige vorprogrammierte Visualisierungsobjekte an, welche ohne großen Aufwand erstellt werden können. Interessant wird es beim Vergleich der Detailgenauigkeit der Visualisierungen, wobei es nebensächlich ist, ob es sich dabei um ein Balken- oder Liniendiagramm handelt.

Hands on! Dazu lädt Tableau ein, und das ist auch der beste Weg, um sich mit der Software vertraut zu machen. Für einen einfacheren Start sollte man sich mit zwei wesentlichen Konzepten vertraut machen:

Reihenfolge der Operationen

Yep! Wir hatten das Thema bereits. Ein Blick auf die Grafik beim Basteln einzelner Visualisierungen kann helfen! Jeder Creator und Explorer sollte sich vorher mit der Reihenfolge von Operationen vertraut machen. Das Konzept ist nicht selbsterklärend und Fehler fallen nicht sofort auf. Schaut einmal HIER rein! Tableau hat sich eine Stunde Zeit genommen, um das Konzept anhand von Beispielen zu erklären.

Starre Anordnung von Elementen

Visualisierungen werden erst in einem extra Arbeitsblatt entworfen und können mit anderen Arbeitsblättern in einem Dashboard verbaut werden. Die Anordnung der Elemente auf dem Dashboard kann frei erfolgen und/oder Elemente werden in einer Objekthierarchie abgelegt. Letzteres eignet sich gut für den Bau von Vorlagen und ist somit eine Stärke von Tableau. Das Vorgehen dabei ist nicht trivial, das heißt ein saloppes Reinschmeißen von Visualisierungen führt definitiv nicht zum Ziel.
Tim erklärt ziemlich gut, wie man vorgehen kann => HIER.

Tableau ist aus der Designperspektive limitiert, weshalb das Endergebnis, das Dashboard,  nicht selten sehr eckig und kantig aussieht. Einfache visuelle Anpassungen wie abgerundete Kanten von Arbeitsblättern/Containern sind nicht möglich. Designtechnisch hat Tableau daher noch Luft nach oben!


Der Einstieg für kleine Unternehmen mit Tableau ist nur unter sehr hohem Kostenaufwand möglich, aufgrund von preisintensiven Lizenzen und einer Mindestabnahme an Lizenzen. Aber auch bei einem hohen Bedarf an Lizenzen befindet sich Tableau im höheren Preissegment. Jedoch beinhalten Tableaus Lizenzgebühren bereits Kosten, welche bei der Konkurrenz erst durch die Nutzung ersichtlich werden, da bei ihnen die Höhe der Kosten stärker von der beanspruchten Kapazität abhängig ist. Tableau bietet seinen Kunden damit eine hohe Transparenz über ein zwar preisintensives, aber sehr ausgereiftes Produktportfolio.

Tableau legt mit einer lokalen Option, welche die gleichen Funktionalitäten beinhaltet wie die cloudbasierte Alternative, ein Augenmerk auf Kunden mit strengen Data Governance-Richtlinien. Sandboxed Extensions sind ein weiteres Beispiel für das Bewusstsein für eine hohe Datensicherheit. Jedoch ist das Angebot an Extensions, also das Angebot dritter Entwickler, ausbaufähig. Eine breit aufgestellte Community bietet nicht nur dritten Entwicklern eine gute Geschäftsgrundlage, sondern auch Nutzern zu fast jedem Thema eine Hilfestellung.

Tableau Prep Builder => TOP!

Mit diesem Tool kann die Datengrundlage super einfach analysiert werden und Datenmanipulationen sind einfach durchzuführen. Die Syntax und die Verwendung von Berechnungen bedarf einiger Übung, aber wenn man die wesentlichen Konzepte verstanden hat, dann sind Berechnungen schnell erstellt.

Ein Dashboard kann zu 90 % in fast jedem Tool gleich aussehen. Der Weg dorthin ist oft ein anderer und je nach Anforderung bei einem Tool leichter als bei einem anderen. Tableau bietet ein komplexes Konzept, sodass auch die außergewöhnlichsten Anforderungen erfüllt werden können. Jedoch ist das zugrundliegende Design oft sehr kantig und nicht immer zeitgemäß.

Fortsetzung folgt… MicroStrategy

Python vs R: Which Language to Choose for Deep Learning?

Data science is increasingly becoming essential for every business to operate efficiently in this modern world. This influences the processes composed together to obtain the required outputs for clients. While machine learning and deep learning sit at the core of data science, the concepts of deep learning become essential to understand as it can help increase the accuracy of final outputs. And when it comes to data science, R and Python are the most popular programming languages used to instruct the machines.

Python and R: Primary Languages Used for Deep Learning

Deep learning and machine learning differentiate based on the input data type they use. While machine learning depends upon the structured data, deep learning uses neural networks to store and process the data during the learning. Deep learning can be described as the subset of machine learning, where the data to be processed is defined in another structure than a normal one.

R is developed specifically to support the concepts and implementation of data science and hence, the support provided by this language is incredible as writing codes become much easier with its simple syntax.

Python is already much popular programming language that can serve more than one development niche without straining even for a bit. The implementation of Python for programming machine learning algorithms is very much popular and the results provided are accurate and faster than any other language. (C or Java). And because of its extended support for data science concept implementation, it becomes a tough competitor for R.

However, if we compare the charts of popularity, Python is obviously more popular among data scientists and developers because of its versatility and easier usage during algorithm implementation. However, R outruns Python when it comes to the packages offered to developers specifically expertise in R over Python. Therefore, to conclude which one of them is the best, let’s take an overview of the features and limits offered by both languages.


Python was first introduced by Guido Van Rossum who developed it as the successor of ABC programming language. Python puts white space at the center while increasing the readability of the developed code. It is a general-purpose programming language that simply extends support for various development needs.

The packages of Python includes support for web development, software development, GUI (Graphical User Interface) development and machine learning also. Using these packages and putting the best development skills forward, excellent solutions can be developed. According to Stackoverflow, Python ranks at the fourth position as the most popular programming language among developers.

Benefits for performing enhanced deep learning using Python are:

  • Concise and Readable Code
  • Extended Support from Large Community of Developers
  • Open-source Programming Language
  • Encourages Collaborative Coding
  • Suitable for small and large-scale products

The latest and stable version of Python has been released as Python 3.8.0 on 14th October 2019. Developing a software solution using Python becomes much easier as the extended support offered through the packages drives better development and answers every need.


R is a language specifically used for the development of statistical software and for statistical data analysis. The primary user base of R contains statisticians and data scientists who are analyzing data. Supported by R Foundation for statistical computing, this language is not suitable for the development of websites or applications. R is also an open-source environment that can be used for mining excessive and large amounts of data.

R programming language focuses on the output generation but not the speed. The execution speed of programs written in R is comparatively lesser as producing required outputs is the aim not the speed of the process. To use R in any development or mining tasks, it is required to install its operating system specific binary version before coding to run the program directly into the command line.

R also has its own development environment designed and named RStudio. R also involves several libraries that help in crafting efficient programs to execute mining tasks on the provided data.

The benefits offered by R are pretty common and similar to what Python has to offer:

  • Open-source programming language
  • Supports all operating systems
  • Supports extensions
  • R can be integrated with many of the languages
  • Extended Support for Visual Data Mining

Although R ranks at the 17th position in Stackoverflow’s most popular programming language list, the support offered by this language has no match. After all, the R language is developed by statisticians for statisticians!

Python vs R: Should They be Really Compared?

Even when provided with the best technical support and efficient tools, a developer will not be able to provide quality outputs if he/she doesn’t possess the required skills. The point here is, technical skills rank higher than the resources provided. A comparison of these two programming languages is not advisable as they both hold their own set of advantages. However, the developers considering to use both together are less but they obtain maximum benefit from the process.

Both these languages have some features in common. For example, if a representative comes asking you if you lend technical support for developing an uber clone, you are directly going to decline as Python and R both do not support mobile app development. To benefit the most and develop excellent solutions using both these programming languages, it is advisable to stop comparing and start collaborating!

R and Python: How to Fit Both In a Single Program

Anticipating the future needs of the development industry, there has been a significant development to combine these both excellent programming languages into one. Now, there are two approaches to performing this: either we include R script into Python code or vice versa.

Using the available interfaces, packages and extended support from Python we can include R script into the code and enhance the productivity of Python code. Availability of PypeR, pyRserve and more resources helps run these two programming languages efficiently while efficiently performing the background work.

Either way, using the developed functions and packages made available for integrating Python in R are also effective at providing better results. Available R packages like rJython, rPython, reticulate, PythonInR and more, integrating Python into R language is very easy.

Therefore, using the development skills at their best and maximizing the use of such amazing resources, Python and R can be togetherly used to enhance end results and provide accurate deep learning support.


Python and R both are great in their own names and own places. However, because of the wide applications of Python in almost every operation, the annual packages offered to Python developers are less than the developers skilled in using R. However, this doesn’t justify the usability of R. The ultimate decision of choosing between these two languages depends upon the data scientists or developers and their mining requirements.

And if a developer or data scientist decides to develop skills for both- Python and R-based development, it turns out to be beneficial in the near future. Choosing any one or both to use in your project depends on the project requirements and expert support on hand.

Looking for the ‘aha moment’: An expert’s insights on process mining

Henny Selig is a specialist in process mining, with significant expertise in the implementation of process mining solutions and supporting customers with process analysis. As a Solution Owner at Signavio, Henny is also well versed in bringing Signavio Process Intelligence online for businesses of all shapes and sizes. In this interview, Henny shares her thoughts about the challenges and opportunities of process mining. 

Henny, could you give a simple explanation of the concept of process mining?

Basically, process mining is a combination of data analysis and business process management. IT systems support almost every business process, meaning they leave behind digital traces. We extrapolate all the data from the IT systems connected to a particular process, then visualize and evaluate it with the help of data science technology.

In short, process mining builds a bridge between employees, process experts and management, allowing for a data-driven and fact-based approach to business process optimization. This helps avoid thinking in siloes, as well as enabling transparent design of handovers and process steps that cross departmental boundaries within an organization.

When a business starts to analyze their process data, what are the sorts of questions they ask? Do they have at least have some expectation about what process mining can offer?

That’s a really good question! There isn’t really a single good answer to it, as it is different for different companies. For example, there was one procurement manager, and we were presenting the complete data set to him, and it turned out there was an approval at one point, but it should have been at another. He was really surprised, but we weren’t, because we sat outside the process itself and were able to take a broader view. 

We also had different questions that the company hadn’t considered, things like what was the process flow if an order amount is below 1000 euros, and how often that occurs—just questions that seem clear to an outsider but often do not occur to process owners.

So do people typically just have an idea that something is wrong, or do they generally understand there is a specific problem in one area, and they want to dive deeper? 

There are those people who know that a process is running well, but they know a particular problem pops up repeatedly. Usually, even if people say they don’t have a particular focus or question, most of them actually do because they know their area. They already have some assumptions and ideas, but it is sometimes so deep in their mind they can’t actually articulate it.

Often, if you ask people directly how they do things, it can put pressure on them, even if that’s not the intention. If this happens, people may hide things without meaning to, because they already have a feeling that the process or workflow they are describing is not perfect, and they want to avoid blame. 

The approvals example I mentioned above is my favorite because it is so simple. We had a team who all said, over and over, “We don’t approve this type of request.” However, the data said they did–the team didn’t even know. 

We then talked to the manager, who was interested in totally different ideas, like all these risks, approvals, are they happening, how many times this, how many times that — the process flow in general. Just by having this conversation, we were able to remove the mismatch between management and the team, and that is before we even optimized the actual process itself. 

So are there other common issues or mismatches that people should be aware of when beginning their process mining initiative?

The one I often return to is that not every variation that is out of line with the target model is necessarily negative. Very few processes, apart from those that run entirely automatically, actually conform 100% to the intended process model—even when the environment is ideal. For this reason, there will always be exceptions requiring a different approach. This is the challenge in projects: finding out which variations are desirable, and where to make necessary exceptions.

So would you say that data-based process analysis is a team effort?

Absolutely! In every phase of a process mining project, all sorts of project members are included. IT makes the data available and helps with the interpretation of the data. Analysts then carry out the analysis and discuss the anomalies they find with IT, the process owners, and experts from the respective departments. Sometimes there are good reasons to explain why a process is behaving differently than expected. 

In this discussion, it is incredibly helpful to document the thought process of the team with technical means, such as Signavio Process Intelligence. In this way, it is possible to break down the analysis into individual processes and to bring the right person into the discussion at the right point without losing the thread of the discussion. Then, the next colleague who picks up the topic can then see the thread of the analysis and properly classify the results.

At the very least, we can provide some starting points. Helping people reach an “aha moment” is one of the best parts of my job!

To find out more about how process mining can help you understand and optimize your business processes, visit the Signavio Process Intelligence product page. If you would like to get a group effort started in your organization right now, why not sign up for a free 30-day trial with Signavio, today.

How Finance Organizations Are Dealing with The Growing Demand for Instant Response Times

The financial industry is one of the most innovative industries that has evolved at an incredibly fast-paced over the past decade. Finance is a complex industry that requires a delicate balance between optimal convenience and security. 

With security being the most important aspect, the role of AI has increased in importance and various financial organizations are taking strides to innovate unique solutions to meet the growing demand for faster and instant response rates. 

In a recent study, it was found that automation and digital intelligence save US banks over $1trillion on an annual basis. From a world perspective, more countries in different parts of the world are adopting AI tools to meet the growing demand for instant response time.

The client experience

Despite the fast rate of digital integration into various industries, clients still want to feel a personal connection to a brand experience. The advances in machine learning have allowed for a vast improvement in personalized services using customer data. This feature uses AI tools to better understand and respond to client needs. 

A feature of this nature allows financial organizations to develop improved products and increase speeds in response rates. The client not only experiences faster service but also gains access to products that are relevant to their needs and interested.

The improved customer experience has also improved by eliminating the need to go to the physical office of a financial institution to solve a problem. The incorporation of chatbots for customer service allows clients to easily solve queries remotely. 

A recent example is the Bank of America’s chatbot, known as Erica, who is accessible at all times of the day is currently used by a million people. This eliminates having to deal with human assistants meaning that it is easier to access solutions. Customer service is on the areas that allow financial institutions to thrive and the client is increasingly demanding optimal customer service. 

Improved security and fraud prevention 

More financial organizations are making use of biometric data to record customer data. Some financial institutions have decided to replace passwords, thus simplifying client verification. Despite the simplicity, it offers a higher level of security beyond a simple pin code. 

In the future, clients are anticipated to simply use their biometrics to access their funds at an ATM or the bank. Another aspect of improving response times to limit cybercrime and prevent fraud by easily identifying client patterns. The knowledge of client patterns allows clients to be contacted in the event of unusual activities. 

Disruption from startup innovation

The term disruption has transformed into a positive term in the past decade because disruptors have created technology that speeds up and streamlines payments, product maintenance for clients and increasing the value chain. 

Financial institutions are finding ways to work collaboratively with disruptors and innovative FinTech companies to create improved technology-driven solutions. The culture of disruption has allowed financial institutions to deliver more innovative money management solutions and simple avenues to process transactions with minimal delays. 

Disruptors generally evolve at a rapid pace and are also becoming institutions that are becoming standalone financial service providers. The expanded competition only creates room for a wide range of institutions to choose from dedicated to solving client problems. 

Using robotics to eliminate the risk

The growing alliance between financial services and technology companies focused on AI allows the financial industry to have a better understanding of consumer patterns to develop products relevant to them. 

The joy of incorporating AI tools means that the client does not have to resort to interacting with a bank teller to solve an issue. The integration of AI tools is a good way to ensure that tasks are performed with minimal human error and eliminate hurdles that arise due to inaccuracies. 

NLP AI Technology has also worked towards assisting financial institutions make informed decisions by developing different useful apps. For example, there are apps that use NLP to gather data on influencers, marketers and blog posts, that data is then used to advise financiers on how to invest. There is also other software that helps digitize financial documentation processes using NLP and that is just a few examples amongst quite a few.

Taking advantage of the sharing economy 

A recent innovation in finance has been the recognition of the power of a shared economy which has been realized in industries such as transport and hospitality. The client is always looking for fast means to meet their needs and the cheapest possible options. 

The rise of digital currencies and the decentralized model have shown banks that people respond to a system that allows for decentralized asset sharing. 

With the rise of cryptocurrency, financial institutions have also started exploring the potential of employing blockchain to create a system that presents a public ledger and improve internal operation within an organization to deliver at high speed. 

Moving infrastructure to the cloud

Financial institutions are growing more and more to use the cloud to manage their operations and this allows for easier management. Financial institutions realize the importance of automating processes such as data management, CRM, accounting and even HR. 

Using analytical tools allows for the fast-tracking of data gathering and delivering solutions to clients. This allows functions like client payment, statement generation, credit checks and more to become automated and more accurate. 

Once again, the issue of cybersecurity is forefronted in machines ‘taking over’ and the concern stems from the fact that the software is being sourced from third parties and requirements in the industry are highly sophisticated. 

The rapid growth of data-driven solutions has placed pressure on financial institutions to work with trustworthy service providers or develop inhouse data management systems to avoid third-party interactions. 


The language of convenience is one that is universal; everyone wants everything to work faster, be delivered to their doorstep and accommodate their needs. The financial industry is no exception to these expectations from customers. Finance organizations are taking the leap into incorporating AI tools to partly manage operations because it simplifies monitoring, reporting and processing large volumes of data. 

The sophistication of analytical tools ensures that issues are resolved before they become larger issues that are beyond an organization’s control. It is certainly exciting to see how financial industries and organizations will transform in 2020 to incorporate tech tools to streamline security and operations. 

Wie der C++-Programmierer bei der Analyse großer Datenmengen helfen kann

Die Programmiersprache C wurde von Dennis Ritchie in den Bell Labs in einer Zeit (1969-1973) entwickelt, als jeder CPU-Zyklus und jeder Byte Speicher sehr teuer war. Aus diesem Grund wurde C (und später C++) so konzipiert, dass die maximale Leistung der Hardware mit der Sprachkomplexität erzielt werden konnte. Derzeit ist der C++ Programmierer besonders begehrt auf dem Arbeitsmarkt, für ganz bestimmte Abläufe, die wir später genauer beschreiben werden.

Warum sollten Sie einen C++ Entwickler mieten, wenn es um große Daten geht?

C++ ermöglicht, als Sprache auf einem niedrigen Level, eine Feinabstimmung der Leistung der Anwendung in einer Weise, die bei der Verwendung von Sprachen auf einem hohen Level nicht möglich ist. Warum sollten Sie einen C++ Entwickler mieten? C++ bietet den Entwicklern eine viel bessere Kontrolle über den Systemspeicher und die Ressourcen, als die der C Programmierer oder Anderer.

C++ ist die einzige Sprache, in der man Daten mit mehr als 1 GB pro Sekunde knacken, die prädiktive Analyse in Echtzeit neu trainieren und anwenden und vierstellige QPS einer REST-ful API in der Produktion bedienen kann, während die [eventuelle] Konsistenz des Aufzeichnungssystems ständig erhalten bleibt. Auf einem einzigen Server, natürlich aus Gründen der Zuverlässigkeit dupliziert, aber das, ohne in Repliken, Sharding und das Auffüllen und Wiederholen von persistenten Nachrichtenwarteschlangen investieren zu. Für ein groß angelegtes Werbesystem, dynamischen Lastausgleich oder eine hocheffiziente adaptive Caching-Schicht ist C++ die klügste Wahl.

Die allgemeine Vorstellung ist, dass R und Python schneller sind, aber das ist weit von der Wahrheit entfernt. Ein gut optimierter C++-Code könnte hundertmal schneller laufen, als das gleiche Stück Code, das in Python oder R geschrieben wurde. Die einzige Herausforderung bei C++ ist die Menge an Arbeit, die Sie bewältigen müssen, um die fertigen Funktionen zum Laufen zu bringen. Sie müssen wissen, wie man Zeiger verteilt und verwaltet – was ehrlich gesagt ein wenig kompliziert sein kann. Die C# Programmierer Ausbildung ist aus diesem Grunde z.Z. sehr begehrt.

R und Python

Akademiker und Statistiker haben R über zwei Jahrzehnte entwickelt. R verfügt nun über eines der reichsten Ökosysteme, um Datenanalysen durchzuführen. Es sind etwa 12000 Pakete in CRAN (Open-Source-Repository) verfügbar. Es ist möglich, eine Bibliothek zu finden, für was auch immer für eine Analyse Sie durchführen möchten. Die reiche Vielfalt der Bibliothek macht R zur ersten Wahl für statistische Analysen, insbesondere für spezialisierte analytische Arbeiten.

Python kann so ziemlich die gleichen Aufgaben wie R erledigen: Data Wrangling, Engineering, Feature Selection Web Scrapping, App und so weiter. Python ist ein Werkzeug, um maschinelles Lernen in großem Maßstab einzusetzen und zu implementieren. Python-Codes sind einfacher zu warten und robuster als R. Vor Jahren hatte Python nicht viele Bibliotheken für Datenanalyse und maschinelles Lernen. In letzter Zeit holt Python auf und bietet eine hochmoderne API für maschinelles Lernen oder künstliche Intelligenz. Der größte Teil der datenwissenschaftlichen Arbeit kann mit fünf Python-Bibliotheken erledigt werden: Numpy, Pandas, Scipy, Scikit-Learning und Seaborn.

Aber das Wissen, mit Zeigern zu arbeiten oder den Code in C++ zu verwalten, ist mit einem hohen Preis verbunden. Aus diesem Grunde werden C++ Programmierer gesucht, für die Bewältigung von großen Datenpaketen. Ein tiefer Einblick in das Innenleben der Anwendung ermöglicht es ihnen, die Anwendung im Falle von Fehlern besser zu debuggen und sogar Funktionen zu erstellen, die eine Kontrolle des Systems auf Mikroebene erfordern. Schauen Sie sich doch nach C# Entwickler in Berlin um, denn sie haben einen besonders guten Ruf unter den neuen Entwicklern.

Das Erlernen der Programmierung ist eine wesentliche Fähigkeit im Arsenal der Analysten von Big Data. Analysten müssen kodieren, um numerische und statistische Analysen mit großen Datensätzen durchzuführen. Einige der Sprachen, in deren Erlernen auch die C Entwickler Zeit und Geld investieren sollten, sind unter anderem Python, R, Java und C++. Je mehr sie wissen, desto besser – Programmierer sollten immer daran denken, dass sie nicht nur eine einzelne Sprache lernen sollten. C für Java Programmierer sollte ein MUSS sein.

Wo wird das C++ Programmieren eingesetzt?

Die Programmiersprache C++ ist eine etablierte Sprache mit einem großen Satz von Bibliotheken und Tools, die bereit ist, große Datenanwendungen und verteilte Systeme zu betreiben. In den meisten Fällen wird C++ zum Schreiben von Frameworks und Paketen für große Daten verwendet. Diese Programmiersprache bietet auch eine Reihe von Bibliotheken, die beim Schreiben von Algorithmen für das tiefe Lernen helfen. Mit ausreichenden C++-Kenntnissen ist es möglich, praktisch unbegrenzte Funktionen auszuführen. Dennoch ist C++ nicht die Sprache, die man leicht erlernen kann, da man die über 1000 Seiten Spezifikation und fast 100 Schlüsselwörter beherrschen muss.

Die Verwendung von C++ ermöglicht die prozedurale Programmierung für intensive Funktionen der CPU und die Kontrolle über die Hardware, und diese Sprache ist sehr schnell, weshalb sie bei der Entwicklung verschiedener Spiele oder in Spielmaschinen weit verbreitet ist.

C++ bietet viele Funktionen, die anderen Sprachen fehlen. Darüber hinaus bietet die Sprache auch Zugang zu umfangreichen Vorlagen, die es Ihnen ermöglichen, generische Codes zu schreiben. Als betroffenes Unternehmen sollten Sie sich deshalb tatsächlich überlegen, einen C++ Programmierer zu suchen oder in einen Kurs von C++ für Ihren C Programmierer zu investieren. Am Ende lohnen sich bestimmt diese Kosten.

Und vergessen Sie nicht: C++ ist die einzige Sprache, die in der Lage ist, 1 GB+ Daten in weniger als einer Sekunde zu verarbeiten. Darüber hinaus können Sie Ihr Modell neu trainieren und prädiktive Analysen in Echtzeit und sogar die Konsistenz der Systemaufzeichnung anwenden. Diese Gründe machen C++ zu einer bevorzugten Wahl für Sie, wenn Sie einen Datenwissenschaftler für Ihr Unternehmen suchen.

Beispiele für die Verwendung von C++

Die Verwendung von C++ zur Entwicklung von Anwendungen und vielen produktbasierten Programmen, die in dieser Sprache entwickelt wurden, hat mehrere Vorteile, die nur auf ihren Eigenschaften und ihrer Sicherheit beruhen. Unten finden Sie eine Liste der häufigsten Anwendungen von C++.

  • Google-Anwendungen – Einige der Google-Anwendungen sind auch in C++ geschrieben, darunter das Google-Dateisystem und der Google-Chromium-Browser sowie MapReduce für die Verarbeitung großer Clusterdaten. Die Open-Source-Gemeinschaft von Google hat über 2000 Projekte, von denen viele in den Programmiersprachen C oder C++ geschrieben und bei GitHub frei verfügbar sind.
  • Mozilla Firefox und Thunderbird – Der Mozilla-Internetbrowser Firefox und der E-Mail-Client Thunderbird sind beide in der Programmiersprache C++ geschrieben, und sie sind ebenfalls Open-Source-Projekte. Der C++-Quellcode dieser Anwendungen ist in den MDN-Webdokumenten zu finden.
  • Adobe-Systeme – Die meisten der wichtigsten Anwendungen von Adobe-Systemen werden in der Programmiersprache C++ entwickelt. Zu diesen Anwendungen gehören Adobe Photoshop und Image Ready, Illustrator und Adobe Premier. Sie haben in der Vergangenheit eine Menge Open-Source-Codes veröffentlicht, immer in C++, und ihre Entwickler waren in der C++-Community aktiv.
  • 12D-Lösungen – 12D Solutions Pty Ltd ist ein australischer Softwareentwickler, der sich auf Anwendungen im Bereich Bauwesen und Vermessung spezialisiert hat. Computer Aided Design-System für Vermessung, Bauwesen und mehr. Zu den Kunden von 12D Solutions gehören Umweltberater, Berater für Bau- und Wasserbau, lokale, staatliche und nationale Regierungsabteilungen und -behörden, Vermessungsingenieure, Forschungsinstitute, Bauunternehmen und Bergbau-Berater.
  • In C/C++ geschriebene Betriebssysteme

Apple – Betriebssystem OS XApple – Betriebssystem OS X

Einige Teile von Apple OS X sind in der Programmiersprache C++ geschrieben. Auch einige Anwendungen für den iPod sind in C++ geschrieben.


Der Großteil der Software wird buchstäblich mit verschiedenen Varianten von Visual C++ oder einfach C++ entwickelt. Die meisten der großen Anwendungen wie Windows 95, 98, Me, 200 und XP sind ebenfalls in C++ geschrieben. Auch Microsoft Office, Internet Explorer und Visual Studio sind in Visual C++ geschrieben.

  • Betriebssystem Symbian – Auch Symbian OS wird mit C++ entwickelt. Dies war eines der am weitesten verbreiteten Betriebssysteme für Mobiltelefone.

Die Einstellung eines C- oder C++-Entwicklers kann eine gute Investition in Ihr Projekt-Upgrade sein

Normalerweise benötigen C- und C++-Anwendungen weniger Strom, Speicher und Platz als die Sprachen der virtuellen Maschinen auf hoher Ebene. Dies trägt dazu bei, den Kapitalaufwand, die Betriebskosten und sogar die Kosten für die Serverfarm zu reduzieren. Hier zeigt sich, dass C++ die Gesamtentwicklungskosten erheblich reduziert.

Trotz der Tatsache, dass wir eine Reihe von Tools und Frameworks nur für die Verwaltung großer Daten und die Arbeit an der Datenwissenschaft haben, ist es wichtig zu beachten, dass auf all diesen modernen Frameworks eine Schicht einer niedrigen Programmiersprache – wie C++ – aufgesetzt ist. Die Niedrigsprachen sind für die tatsächliche Ausführung des dem Framework zugeführten Hochsprachencodes verantwortlich. Es ist also ratsam in ein C-Entwickler-Gehalt zu investieren.

Der Grund dafür, dass C++ ein so unverzichtbares Werkzeug ist, liegt darin, dass es nicht nur einfach, sondern auch extrem leistungsfähig ist und zu den schnellsten Sprachen auf dem Markt gehört. Darüber hinaus verfügt ein gut geschriebenes Programm in C++ über ein komplexes Wissen und Verständnis der Architektur der Maschine, sowie der Speicherzugriffsmuster und kann schneller laufen als andere Programme. Es wird Ihrem Unternehmen Zeit- und Stromkosten sparen.

Zum Abschluss eine Grafik, die Sie als Unternehmer interessieren wird und die das Verhältnis von der Performance and der Sicherheit diverser Sprachen darstellt:

Aus diesen und weiteren Gründen neigen viele Unternehmensentwickler und Datenwissenschaftler mit massiven Anforderungen an Skalierbarkeit und Leistung zu dem guten alten C++. Viele Organisationen, die Python oder andere Hochsprachen für die Datenanalyse und Erkundungsaufgaben verwenden, verlassen sich auf C++, um Programme zu entwickeln, die diese Daten an die Kunden weiterleiten – in Echtzeit.

Im Interview mit Henny Selig zu Process Mining: “Für den Kunden sind solche Aha-Momente toll“

Henny Selig ist Spezialistin für Process Mining und verfügt über umfassende Erfahrung bei der Umsetzung von Process-Mining-Lösungen und der Unterstützung von Kunden bei der Prozessanalyse. Als Solution Owner bei Signavio ist Henny auch mit der Implementierung von Signavio Process Intelligence bei Unternehmen jeglicher Größe bestens vertraut. In diesem Interview geht Henny auf die Herausforderungen und Chancen von Process Mining ein. 

Henny, wie würdest du das Konzept „Process Mining“ erklären?

Process Mining ist eine Kombination aus Datenanalyse und Business Process Management. Nahezu jeder Geschäftsprozess stützt sich auf IT-Systeme und hinterlässt digitale Spuren. Aus diesen IT-Systemen extrahieren wir alle Daten, die einen bestimmten Prozess betreffen, visualisieren sie und werten diese dann mithilfe von Data Science-Technologien aus.

Kurz gesagt: Process Mining bildet eine wichtige Brücke zwischen Fachabteilungen, Prozessverantwortlichen und dem Management. Damit sind datengestützte und faktenbasierte Diskussionen zur Optimierung von Geschäftsprozessen möglich. So lassen sich vor allem Übergaben und abteilungsübergreifende Schritte transparent gestalten und Silo-Denken vermeiden.

Welche Fragen beschäftigen Unternehmen, die mit Process Mining beginnen? Gibt es bestimmte Erwartungen, die durch den Einsatz von Process Mining erfüllt werden sollen?

Jedes Unternehmen ist anders und hat unterschiedliche Fragen und Erwartungen. Ein Beispiel: Ein Beschaffungsmanager, mit dem ich vor Kurzem zusammengearbeitet habe, war von den analysierten Daten überrascht. Denn es stellte sich heraus, dass zu einem bestimmten Zeitpunkt im Prozess eine Genehmigung vorlag, die eigentlich in einem anderen Moment erfolgen sollte. Für den Kunden sind solche Aha-Momente toll. Sie treten ganz automatisch auf, wenn man eine objektive und transparente Sicht auf den jeweiligen Prozess hat. 

Es wurden auch Fragen von uns aufgeworfen, die das Unternehmen bisher nicht berücksichtigt hatte, z. B. wie sich der Prozessablauf bei einem Bestellbetrag unter 1.000 Euro gestaltet und wie oft dies vorkommt. Fragen, die einem Außenstehenden klar erscheinen, die sich Prozessverantwortliche aber oft nicht stellen.

Ahnen Unternehmen häufig nur, dass ein Prozess nicht wie gewünscht läuft? Oder wissen die Meisten um spezifische Probleme in einem Bereich? 

Es gibt Unternehmen, die wissen, dass ein Prozess prinzipiell gut läuft, ein bestimmtes Problem aber immer wieder auftritt. Die involvierten Mitarbeiter sagen in diesen Fällen häufig, dass sie kein bestimmtes Anliegen oder keine konkrete Frage haben. Das stimmt natürlich nicht: Bei genauerem Nachfragen äußern sie dann erste Vermutungen oder Ideen.

Wenn man Mitarbeiter eines Unternehmens direkt fragt, wie sie bestimmte Dinge erledigen, sorgt das oft völlig unbeabsichtigt für Stress. Viele halten zunächst Informationen zurück, weil sie das Gefühl haben, dass der von ihnen beschriebene Prozess oder Workflow nicht perfekt ist. So wollen sie Vorwürfe vermeiden. 

Das oben erwähnte Genehmigungsbeispiel ist mein Favorit, weil es so eindeutig ist. Im betreffenden Unternehmen gab es zum Beispiel ein Team, das immer wieder sagte: „Diese Art von Anträgen genehmigen wir nicht.“ Die Daten sagten jedoch etwas ganz anderes – dem Team war das überhaupt nicht bewusst. 

Wir sprachen dann mit dem Manager. Dieser hatte sich bisher über ganz andere Dinge Gedanken gemacht wie etwa Risiken, den Prozessfluss im Allgemeinen und vieles andere. Nur allein durch dieses Gespräch konnten wir schon die Unstimmigkeiten zwischen dem Management und dem Team beseitigen, noch bevor der eigentliche Prozess selbst optimiert wurde. 

Gibt es noch andere Aspekte, die Unternehmen beachten sollten, wenn sie mit ihrer Process Mining-Initiative beginnen?

Nicht jede Varianz jenseits des Soll-Modells eines Prozesses ist automatisch negativ. Die wenigsten Prozesse, die nicht rein automatisiert ablaufen, sind zu 100% prozesskonform – selbst wenn die Rahmenbedingungen ideal sind. Daher wird es immer Ausnahmen geben, die einen anderen Ansatz erfordern. Und genau das ist die Herausforderung im Projekt: Man muss herausfinden, welche Variationen gewünscht und wo notwendige Ausnahmen zu treffen sind.

Würdest du sagen, dass eine datenbasierte Prozessanalyse eine Teamleistung ist?

Absolut! In jeder Phase eines Process Mining-Projekts sind ganz unterschiedliche Projektmitglieder involviert. Die IT stellt die Daten bereit und hilft bei deren Interpretation. Analysten führen dann die Prozessanalyse durch und diskutieren die gefundenen Auffälligkeiten mit der IT, den Prozessverantwortlichen und den Experten aus den Fachabteilungen. Denn manchmal gibt es gute Gründe für ein bestimmtes Prozessverhalten, das ohne das Wissen der Experten nicht erklärbar ist. 

Bei der Diskussion hilft es natürlich ungemein, den Gedankengang des Teams mit technischen Mitteln wie Signavio Process Intelligence zu dokumentieren. Auf diese Weise ist es möglich, die Analyse auf einzelne Prozesse herunterzubrechen und die richtige Person an der richtigen Stelle in die Diskussion einzubeziehen. So verliert man auch nicht den roten Faden. Und der nächste Kollege, der sich mit dem Thema beschäftigt, kann die Analyse nachvollziehen und das Ergebnis richtig einordnen.

Weitere Informationen dazu, wie Sie mit Process Mining Ihre Geschäftsprozesse besser verstehen und optimieren können, finden Sie auf der Produktseite von Signavio Process Intelligence. Oder melden Sie sich noch heute für eine kostenlose 30-Tage-Testversion bei Signavio an und legen Sie direkt los.

Was Kunden von Business-Transformation-Lösungen erwarten

Unabhängig davon, in welcher Branche Sie tätig sind, steht die Kundenzufriedenheit an erster Stelle. Denn ohne Kunden kann es kein Geschäft geben! Daher hat die Kundenzufriedenheit für viele Unternehmen oberste Priorität. So drehen sich zahlreiche Studien, Artikel und Berichte um die Frage, was Kunden erwarten und wie Unternehmen diese Erwartungen erfüllen können. 

Read this article in English:

What Customers Want from Business Transformation Solutions

Aus Sicht des Prozessmanagements gibt es bereits eine Technologie, um die Interaktion von Kunden mit Ihrem Unternehmen zu verstehen: Customer Journey Mapping (CJM).). Mithilfe von Customer Journey Mapping können Sie genau nachvollziehen, wie Kunden mit Ihrem Unternehmen agieren und wie ihre Erlebnisse dabei sind. Es hilft bei der Beantwortung von Fragen wie: 

  • Haben Kunden ein positives oder negatives Gefühl, wenn sie mit bestimmten Prozessen Ihres Unternehmens in Berührung kommen? 
  • Gibt es Punkte, an denen Kunden nicht weiterkommen oder weiter ziehen oder weitere Informationen wünschen? 
  • Wie reagieren die Kunden tatsächlich auf Ihre Kundenserviceoptionen?

Neben der internen Beantwortung dieser Fragen gibt es jedoch noch ein wichtigeres und zugleich ganz einfaches Instrument, die Kundenzufriedenheit und -bindung zu verbessern: Fragen Sie einfach Ihre Kunden! 


Was Business-Transformation-Kunden erwarten

Dank Technologie können Unternehmen ihre Kunden einfacher als je zuvor direkt zu Produkten und Dienstleistungen befragen. Dabei besteht jedoch die Gefahr, dass Kunden zu häufig kontaktiert werden und sie genau das Gegenteil von dem erreichen, was sie wollten. Darüber hinaus können Einschränkungen bei der Erfassung und Verwendung von Kundendaten dazu führen, dass die tatsächliche Kontaktaufnahme mit Kunden zu einer Herausforderung wird.

Eine Möglichkeit, um diese Hürden zu überwinden, sind online verfügbare technische Bewertungsservices. Diese Websites bieten eine Fülle von Informationen darüber, was Kunden in den unterschiedlichsten Branchen schätzen. Signavio verwendet beispielsweise IT Central Station, um Aufrufe von Kunden zu Business-Transformation-Software zu verfolgen. Wenn wir diese Aufrufe in ihrer Gesamtheit betrachten, fällt auf, dass immer wieder zwei Themen auftauchen: Zusammenarbeit und Benutzerfreundlichkeit.

Dies spiegelt sich auch in den Kommentaren von Benutzern wider:

  • „Aus meiner Sicht bietet der Collaboration Hub definitiv die wertvollsten Funktionen. Immer mehr Benutzer nutzen ihn und machen sich damit vertraut.“
  • „Nach meiner Erfahrung ist eine der besten Funktionen von Signavio der Collaboration Hub, über den Benutzer aus verschiedenen Abteilungen ständig auf ihr TO-BE-Prozessdesign zugreifen können.“
  • „Als wir nach Lösungen suchten, war die Benutzerfreundlichkeit eines der wichtigsten Kriterien. Die Benutzerfreundlichkeit hatte einen großen Einfluss auf die Akzeptanz in unserer Organisation. Wenn die Mitarbeiter mit der Lösung ihre Probleme gehabt hätten, dann hätten sie sie nicht benutzt. Ich würde sagen, die Benutzerfreundlichkeit ist ein ziemlich wichtiger Faktor bei der Entscheidung für eine Lösung.“
  • „Eines der wichtigsten Merkmale der Lösung ist die Benutzerfreundlichkeit. Eine wirklich gute Investition. Mitarbeiter wollen Tools, die sie einfach und sofort nutzen können.“
  • „Die Oberfläche ist sehr intuitiv. Ich modelliere viele Prozesse und mit diesem Tool ist es für mich ganz einfach.“

Ein letzter Tipp

Um die Bedürfnisse Ihrer Kunden erfüllen und so eine dauerhafte Kundenbeziehung aufbauen zu können, müssen Sie Ihre Kunden verstehen. Und wie so oft spielen auch hier Gefühle eine große Rolle. 

Gleiches gilt für die Business Transformation, wie der Lead Business Analyst eines Medienunternehmens mit über 10.000 Mitarbeitern betonte: „Sie haben ein Gefühl dafür, was Sie tun möchten, und dann schauen Sie sich die verfügbaren Tools an und können Ihre Entscheidung umso leichter treffen.“

Sind Sie bereit, sich für die richtige Business-Transformation-Lösung zu entscheiden? Dann registrieren Sie sich noch heute für eine kostenlose 30-Tage-Testversion bei Signavio.

Data Science Blog Newsletter

The Data Science Blog is one of the most successful multi-author blog platform around data science and related topics like Data Engineering, Business Intelligence and Process Mining.

In a three-monthly newsletter we summarize the most important articles, tutorials and news and add exclusive posts for you.

Subscribe to the newsletter and stay informed about which tools, methods and ideas are currently shaping the data science scene!

Data Privacy Note:

No, we will not sell your data. We will use it for one purpose and one purpose only, to keep you up-to-date via your e-mail adress!

Multi-touch attribution: A data-driven approach

This is the first article of article series Getting started with the top eCommerce use cases.

What is Multi-touch attribution?

Customers shopping behavior has changed drastically when it comes to online shopping, as nowadays, customer likes to do a thorough market research about a product before making a purchase. This makes it really hard for marketers to correctly determine the contribution for each marketing channel to which a customer was exposed to. The path a customer takes from his first search to the purchase is known as a Customer Journey and this path consists of multiple marketing channels or touchpoints. Therefore, it is highly important to distribute the budget between these channels to maximize return. This problem is known as multi-touch attribution problem and the right attribution model helps to steer the marketing budget efficiently. Multi-touch attribution problem is well known among marketers. You might be thinking that if this is a well known problem then there must be an algorithm out there to deal with this. Well, there are some traditional models  but every model has its own limitation which will be discussed in the next section.

Traditional attribution models

Most of the eCommerce companies have a performance marketing department to make sure that the marketing budget is spent in an agile way. There are multiple heuristics attribution models pre-existing in google analytics however there are several issues with each one of them. These models are:

First touch attribution model

100% credit is given to the first channel as it is considered that the first marketing channel was responsible for the purchase.

Figure 1: First touch attribution model

Last touch attribution model

100% credit is given to the last channel as it is considered that the first marketing channel was responsible for the purchase.

Figure 2: Last touch attribution model

Linear-touch attribution model

In this attribution model, equal credit is given to all the marketing channels present in customer journey as it is considered that each channel is equally responsible for the purchase.

Figure 3: Linear attribution model

U-shaped or Bath tub attribution model

This is most common in eCommerce companies, this model assigns 40% to first and last touch and 20% is equally distributed among the rest.

Figure 4: Bathtub or U-shape attribution model

Data driven attribution models

Traditional attribution models follows somewhat a naive approach to assign credit to one or all the marketing channels involved. As it is not so easy for all the companies to take one of these models and implement it. There are a lot of challenges that comes with multi-touch attribution problem like customer journey duration, overestimation of branded channels, vouchers and cross-platform issue, etc.

Switching from traditional models to data-driven models gives us more flexibility and more insights as the major part here is defining some rules to prepare the data that fits your business. These rules can be defined by performing an ad hoc analysis of customer journeys. In the next section, I will discuss about Markov chain concept as an attribution model.

Markov chains

Markov chains concepts revolves around probability. For attribution problem, every customer journey can be seen as a chain(set of marketing channels) which will compute a markov graph as illustrated in figure 5. Every channel here is represented as a vertex and the edges represent the probability of hopping from one channel to another. There will be an another detailed article, explaining the concept behind different data-driven attribution models and how to apply them.

Figure 5: Markov chain example

Challenges during the Implementation

Transitioning from a traditional attribution models to a data-driven one, may sound exciting but the implementation is rather challenging as there are several issues which can not be resolved just by changing the type of model. Before its implementation, the marketers should perform a customer journey analysis to gain some insights about their customers and try to find out/perform:

  1. Length of customer journey.
  2. On an average how many branded and non branded channels (distinct and non-distinct) in a typical customer journey?
  3. Identify most upper funnel and lower funnel channels.
  4. Voucher analysis: within branded and non-branded channels.

When you are done with the analysis and able to answer all of the above questions, the next step would be to define some rules in order to handle the user data according to your business needs. Some of the issues during the implementation are discussed below along with their solution.

Customer journey duration

Assuming that you are a retailer, let’s try to understand this issue with an example. In May 2016, your company started a Fb advertising campaign for a particular product category which “attracted” a lot of customers including Chris. He saw your Fb ad while working in the office and clicked on it, which took him to your website. As soon as he registered on your website, his boss called him (probably because he was on Fb while working), he closed everything and went for the meeting. After coming back, he started working and completely forgot about your ad or products. After a few days, he received an email with some offers of your products which also he ignored until he saw an ad again on TV in Jan 2019 (after 3 years). At this moment, he started doing his research about your products and finally bought one of your products from some Instagram campaign. It took Chris almost 3 years to make his first purchase.

Figure 6: Chris journey

Now, take a minute and think, if you analyse the entire journey of customers like Chris, you would realize that you are still assigning some of the credit to the touchpoints that happened 3 years ago. This can be solved by using an attribution window. Figure 6 illustrates that 83% of the customers are making a purchase within 30 days which means the attribution window here could be 30 days. In simple words, it is safe to remove the touchpoints that happens after 30 days of purchase. This parameter can also be changed to 45 days or 60 days, depending on the use case.

Figure 7: Length of customer journey

Removal of direct marketing channel

A well known issue that every marketing analyst is aware of is, customers who are already aware of the brand usually comes to the website directly. This leads to overestimation of direct channel and branded channels start getting more credit. In this case, you can set a threshold (say 7 days) and remove these branded channels from customer journey.

Figure 8: Removal of branded channels

Cross platform problem

If some of your customers are using different devices to explore your products and you are not able to track them then it will make retargeting really difficult. In a perfect world these customers belong to same journey and if these can’t be combined then, except one, other paths would be considered as “non-converting path”. For attribution problem device could be thought of as a touchpoint to include in the path but to be able to track these customers across all devices would still be challenging. A brief introduction to deterministic and probabilistic ways of cross device tracking can be found here.

Figure 9: Cross platform clash

How to account for Vouchers?

To better account for vouchers, it can be added as a ‘dummy’ touchpoint of the type of voucher (CRM,Social media, Affiliate or Pricing etc.) used. In our case, we tried to add these vouchers as first touchpoint and also as a last touchpoint but no significant difference was found. Also, if the marketing channel of which the voucher was used was already in the path, the dummy touchpoint was not added.

Figure 10: Addition of Voucher as a touchpoint

Let me know in comments if you would like to add something or if you have a different perspective about this use case.