Five Illusions about Big Data you can’t help but believe in

Big Data is a smorgasbord of data. Even the marketing world has acknowledged the gravity of Big Data. But alas! Instead of having such a resplendent data power by our side, we are no closer to construct smart marketing decisions than before, when the concept was not well known.

So, something is definitely not right, right? Not all information derived from this industry is precise and to address this issue, I have highlighted five common misconceptions about Big Data. Know it, work on it and gain from it.

 

Misconception 1: Human touch surpasses automation

Entrepreneurs are the ones who pull their weight. The human effort they offer yields potential success for the firm, only if it is backed by meaningful data.
“One of the most common misconceptions is that people believe they will always outperform computers in their decision-making process. That may have been the case in the past, but with the complexity of today’s markets and the advancement of technology, this assumption no longer holds true,” says Victor Rosenman, CEO of Feedvisor, the pioneer of Algo-Commerce. He added, “All business owners are constantly required to make critical decisions, and the most effective decisions are not based on gut feelings, but on facts and data.”

Misconception 2: Data leads to more costs

Money makes a business. It is also the other way round. Using artificial intelligence, small business-owners benefit the most. AI saves time and money both, thus helps in raising the revenues. You need to understand that big data wouldn’t be enjoying the current hot seat status, if it was that expensive to implement. They are low on cost now, even getting lower. Moreover, besides being inexpensive, big data also aid in curbing other costs that the company would have to bear otherwise.

Misconception 3: Data takes the lead in big changes

“The view of cognitive systems as brains that automatically solve any problem is a popular misconception.” – IBM’s Brandon Buckner recently said. Integrated tools are mostly implemented to do stuffs like gauge human expertise and enhance human intelligence. By this, he meant that technologies actually support your business instead of taking the lead. With data, business-owners enjoy better decision-making capabilities, which is propitious for future business endeavours.

Misconception 4: Little data is too little to make any impact

Though big data arrests the glowing eyes, little data seizes the mind.  Little data is a small set of data. We know that people always look for a bulk of information, but at times, quality is not what they seek. Sometimes, little data can do the job, which bulk data fail to do. The information in little data is more restrained, clean and unprecedented.

Misconception 5: Big data for big businesses

No more, you need to shell out ludicrous amounts of money to acquire big data technologies. Non- Fortune 500 companies are also introducing big data in their systems. And the best part is that it is no more confined to a single sector, it is omnipresent in almost every industry.

In 2011 McKinsey Global Institute report called “Big data: The next frontier for innovation, competition, and productivity” revealed: “The use of big data will become a key basis of competition and growth for individual firms.” Now it is 2017, so just think how big Big Data must have grown in size and scope over the past 6 years.

Lernplattform dataX Academy gewinnt Sonderpreis für “Digitale Bildung”

Sponsored Post


Big Data ist die Zukunft, doch den meisten Unternehmen fehlen ausgebildete Datenexperten. Die Berliner Gründer Leo Marose und Stefan Berntheisel haben eine Lernplattform entwickelt, die Datenkompetenz auf eine völlig neue Art und Weise vermitteln soll – interaktiv und am Beispiel realistischer Szenarien. Für ihr Konzept werden sie jetzt vom Bundeswirtschaftsministerium auf der CeBIT 2017 mit dem Sonderpreis für “Digitale Bildung” ausgezeichnet.

Der Bedarf an Experten für Themen wie Big Data, Machine Learning und künstlicher Intelligenz wächst rasant, das Angebot für Weiterbildungen ist aber immer noch gering. “Unternehmen sammeln immer mehr Daten, um wettbewerbsfähig zu sein – wissen aber oft nichts damit anzufangen”, erinnert sich der ehemalige Strategie-Berater Leo Marose. “Wir haben schnell gemerkt, dass hier ein riesiger Markt schlummert”. Gemeinsam mit dem IT-Systemarchitekten Stefan Berntheisel startet er 2016 dataX Academy. Die Idee: Angehende Data Scientists und Data Engineers sollen den Umgang mit komplexen Datensätzen nicht nur wie bislang in der Theorie, sondern auch in der Praxis lernen. Dazu stellt dataX Academy Online-Kurse mit echten Datensets und einer eigenen Programmierumgebung zur Verfügung. “Die Nutzer lösen dann realistische Übungsaufgaben, z. B. müssen sie herausfinden, an welchen Orten in New York mit der höchsten Taxi-Nachfrage zu rechnen ist. Allein für diese Aufgabe stehen mehr als 1,1 Milliarden echte Datenpunkte zur Verfügung”, erklärt Stefan Berntheisel. Andere Aufgaben stammen aus Bereichen wie Marketing, Geografie oder Logistik. Die Kurse werden gemeinsam mit Experten entwickelt und die Teilnehmer durch realistische Aufgaben und Probleme besser an die Praxis herangeführt. “Wir stellen immer die gesamte technische Infrastruktur für die Lernumgebung”, sagt Stefan Berntheisel und fügt hinzu: “So können Firmen ihre Mitarbeiter z. B. in Data Science sehr kostengünstig weiterbilden.” Die Kurse kosten zwischen 79 und 300 Euro. Mit dem Konzept gewann das Duo zuletzt den Startup-Award auf der Learntec 2017, der größten Messe für digitales Lernen in Europa, und erhielt eine EXIST-Förderung in Höhe von 125.000 Euro von der FU Berlin. Auf der diesjährigen CeBIT wird dataX Academy nun vom Bundeswirtschaftsministerium mit dem Sonderpreis für “Digitale Bildung” ausgezeichnet und erhält ein Preisgeld in Höhe von 10.000 Euro.

dataX Academy arbeitet aktuell an einer Finanzierungsrunde

– denn der Markt für Big Data wächst bis 2020 auf 61 Milliarden Dollar

Wenige Monate nach der Idee zu dataX Academy starteten Leo Marose und Stefan Berntheisel im Sommer 2016 einen ersten Produkttest in Indien, Europa und den USA – mit Erfolg. “Unsere Tests liefen sehr vielversprechend. Aktuell liegen unsere Akquisitionskosten pro Nutzer bei durchschnittlich einem Dollar. Deshalb arbeiten wir jetzt an einer weiteren Finanzierung, um unser Wachstum weiter zu beschleunigen”, sagt Leo Marose. Schon 2020 ist der Wachstumsmarkt Big Data über 61 Milliarden Dollar schwer, Experten schätzen das jährliche Wachstum auf satte 30 Prozent. Zwar gibt es bereits große E-Learning-Player am Markt mit vielseitigem Angebot, diese seien oft aber “nur in wenigen Bereichen spezialisiert und setzen vor allem auf Lernvideos oder Multiple-Choice-Tests”, so Stefan Berntheisel. “Der Bedarf ist riesig – allein in den USA fehlen über 500.000 Experten für Data Science, Data Engineering und Co. In Deutschland sind Datenexperten aktuell sogar noch schwieriger zu finden.” Deshalb rollt dataX Academy seine Lernplattform aktuell in Deutschland aus. Große Marken wie Daimler, Audi, Siemens und die Boston Consulting Group haben bereits Interesse angemeldet.

Über die dataX Academy

Das Berliner Startup dataX Academy trainiert die Datenexperten von Morgen. Mit der Plattform können Nutzer den Umgang mit “Big Data” nicht nur in der Theorie, sondern auch in der Praxis lernen. Dazu stellt dataX Online-Kurse mit echten Datensets und einer eigenen Programmierumgebung Verfügung. Die Kurse werden gemeinsam mit Experten entwickelt und die angehenden Data Scientists sowie Data Engineers durch realistische Aufgaben und Probleme besser an die Praxis herangeführt. So können Unternehmen oder Forschungseinrichtungen ihre Mitarbeiter kostengünstig weiterbilden.

Hinter der Idee stecken die Berliner Unternehmer Leo Marose und Stefan Berntheisel. Sie haben bereits zuvor das Online-Magazin BOXROX aufgebaut – mit monatlich einer Million Seitenaufrufe und internationalen Werbekunden wie Adidas, Reebok oder Nike. Zuletzt gewann dataX Academy den Startup-Award auf der Learntec, der größten Messe für digitales Lernen in Europa, und wurde vom Bundeswirtschaftsministerium mit dem Sonderpreis für “Digitale Bildung” auf der CeBit 2017 ausgezeichnet.

Pressekontakt

Leo Marose

Tel.: 0163 7788742

Mail: leo.marose@datax.academy

Web: www.datax.academy

 

Weitere Referenzen zu dataX Academy

 

 

Künstliche Intelligenz und Data Science in der Automobilindustrie

Data Science und maschinelles Lernen sind die wesentlichen Technologien für die automatisch lernenden und optimierenden Prozesse und Produkte in der Automobilindustrie der Zukunft. In diesem Beitrag werde die zugrundeliegenden Begriffe Data Science (bzw. Data Analytics) und maschinelles Lernen sowie deren Zusammenhang definiert. Darüber hinaus wird der Begriff Optimizing Analytics definiert und die Rolle der automatischen Optimierung als Schlüsseltechnologie in Kombination mit Data Analytics dargelegt. Der Stand der Nutzung dieser Technologien in der Automobilindustrie wird anhand der wesentlichen Teilprozesse in der automobilen Wertschöpfungskette (Entwicklung, Einkauf, Logistik, Produktion, Marketing, Sales und Aftersales, Connected Customer) an exemplarischen Beispielen erläutert. Dass die Industrie heute erst am Anfang der Nutzungsmöglichkeiten steht, wird anhand von visionären Anwendungsbeispielen verdeutlicht, die die revolutionären Möglichkeiten dieser Technologien darstellen. Der Beitrag zeigt auf, wie die Automobilindustrie umfassend, vom Produkt und dessen Entstehungsprozess bis zum Kunden und dessen Verbindung zum Produkt, durch diese Technologie effizienter und kundenorientierter wird.

Read more

Clarify Goal of the Analysis – Process Mining Rule 1 of 4

This is article no. 1 of the four-part article series Privacy, Security and Ethics in Process Mining.

Clarify Goal of the Analysis

The good news is that in most situations Process Mining does not need to evaluate personal information, because it usually focuses on the internal organizational processes rather than, for example, on customer profiles. Furthermore, you are investigating the overall process patterns. For example, a process miner is typically looking for ways to organize the process in a smarter way to avoid unnecessary idle times rather than trying to make people work faster.

Read this article in German:
Datenschutz, Sicherheit und Ethik beim Process Mining – Regel 1 von 4

However, as soon as you would like to better understand the performance of a particular process, you often need to know more about other case attributes that could explain variations in process behaviours or performance. And people might become worried about where this will lead them.

Therefore, already at the very beginning of the process mining project, you should think about the goal of the analysis. Be clear about how the results will be used. Think about what problem are you trying to solve and what data you need to solve this problem.

Do:

  • Check whether there are legal restrictions regarding the data. For example, in Germany employee-related data cannot be used and typically simply would not be extracted in the first place. If your project relates to analyzing customer data, make sure you understand the restrictions and consider anonymization options (see guideline No. 3).
  • Consider establishing an ethical charter that states the goal of the project, including what will and what will not be done based on the analysis. For example, you can clearly state that the goal is not to evaluate the performance of the employees. Communicate to the people who are responsible for extracting the data what these goals are and ask for their assistance to prepare the data accordingly.

Don’t:

  • Start out with a fuzzy idea and simply extract all the data you can get. Instead, think about what problem are you trying to solve? And what data do you actually need to solve this problem? Your project should focus on business goals that can get the support of the process managers you work with (see guideline No. 4).
  • Make your first project too big. Instead, focus on one process with a clear goal. If you make the scope of your project too big, people might block it or work against you while they do not yet even understand what process mining can do.

R als Tool im Process Mining

Die Open Source Sprache R ermöglicht eine Vielzahl von Analysemöglichkeiten, die von einer einfachen beschreibenden Darstellung eines Prozesses bis zur umfassenden statistischen Analyse reicht. Dabei können Daten aus einem Manufacturing Execution System, kurz MES, als Basis der Prozessanalyse herangezogen werden. R ist ein Open Source Programm, welches sich für die Lösung von statischen Aufgaben im Bereich der Prozessoptimierung sehr gut eignet, erfordert jedoch auf Grund des Bedienungskonzepts als Scriptsprache, grundlegende Kenntnisse der Programmierung. Aber auch eine interaktive Bedienung lässt sich mit einer Einbindung der Statistikfunktionen in ein Dashboard erreichen. Damit können entsprechend den Anforderungen, automatisierte Analysen ohne Programmierkenntnisse realisiert werden.

Der Prozess als Spagetti Diagramm

Um einen Überblick zu erhalten, wird der Prozess in einem „process value flowchart“, ähnlich einem Spagetti‐ Diagramm dargestellt und je nach Anforderung mit Angaben zu den Key Performance Indicators ergänzt. Im konkreten Fall werden die absolute Anzahl und der relative Anteil der bearbeiteten Teile angegeben. Werden Teile wie nachfolgend dargestellt, aufgrund von festgestellten Mängel bei der Qualitätskontrolle automatisiert ausgeschleust, können darüber Kennzahlen für den Ausschuss ermittelt werden.

Der Prozess in Tabellen und Diagrammen

Im folgenden Chart sind grundlegende Angaben zu den ausgeführten Prozessschritten, sowie deren Varianten dargestellt. Die Statistikansicht bietet eine Übersicht zu den Fällen, den sogenannte „Cases“, sowie zur Dauer und Taktzeit der einzelnen Aktivitäten. Dabei handelt es sich um eine Fertigungsline mit hohem Automatisierungsgrad, bei der jeder Fertigungsschritt im MES dokumentiert wird. Die Tabelle enthält statistische Angaben zur Zykluszeit, sowie der Prozessdauer zu den einzelnen Aktivitäten. In diesem Fall waren keine Timestamps für das Ende der Aktivität vorhanden, somit konnte die Prozessdauer nicht berechnet werden.

Die Anwendung von Six Sigma Tools

R verfügt über eine umfangreiche Sammlung von Bibliotheken zur Datendarstellung, sowie der Prozessanalyse. Darin sind auch Tools aus Six Sigma enthalten, die für die weitere Analyse der Prozesse eingesetzt werden können. In den folgenden Darstellungen wird die Möglichkeit aufgezeigt, zwei Produktionszeiträume, welche über eine einfache Datumseingabe im Dashboard abgegrenzt werden, gegenüber zu stellen. Dabei handelt es sich um die Ausbringung der Fertigung in Stundenwerten, die für jeden Prozessschritt errechnet wird. Das xbar und r Chart findet im Bereich der Qualitätssicherung häufig Anwendung zur ersten Beurteilung des Prozessoutputs.

Zwei weitere Six Sigma typische Kennzahlen zur Beurteilung der Prozessfähigkeit sind der Cp und Cpk Wert und deren Ermittlung ein Bestandteil der R Bibliotheken ist. Bei der Berechnung wird von einer Normalverteilung der Daten ausgegangen, wobei das Ergebnis aus der Überprüfung dieser Annahme im Chart durch Zahlen, als auch grafisch dargestellt wird.

Von Interesse ist auch die Antwort auf die Frage, welchem Trend folgt der Prozess? Bereits aus der Darstellung der beiden Produktionszeiträume im Box‐Whiskers‐Plot könnte man anhand der Mediane auf einen Trend zu einer Verschlechterung der Ausbringung schließen, den der Interquartilsabstand nicht widerspiegelt. Eine weitere Absicherung einer Aussage über den Trend, kann über einen statistischen Vergleichs der Mittelwerte erfolgen.

Der Modellvergleich

Besteht die Anforderung einer direkten Gegenüberstellung des geplanten, mit dem vorgefundenen, sogenannten „Discovered Model“, ist aufgrund der Komplexität beim Modellvergleich, dieser in R mit hohem Programmieraufwand verbunden. Besser geeignet sind dafür spezielle Process Miningtools. Diese ermöglichen den direkten Vergleich und unterstützen bei der Analyse der Ursachen zu den dargestellten Abweichungen. Bei Produktionsprozessen handelt es sich meist um sogenannte „Milestone Events“, die bei jedem Fertigungsschritt durch das MES dokumentiert werden und eine einfache Modellierung des Target Process ermöglichen. Weiterführende Analysen der Prozessdaten in R sind durch einen direkten Zugriff über ein API realisierbar oder es wurde vollständig integriert. Damit eröffnen sich wiederum die umfangreichen Möglichkeiten bei der statistischen Prozessanalyse, sowie der Einsatz von Six Sigma Tools aus dem Qualitätsmanagement. Die Analyse kann durch eine, den Kundenanforderungen entsprechende Darstellung in einem Dashboard vereinfacht werden, ermöglicht somit eine zeitnahe, weitgehend automatisierte Prozessanalyse auf Basis der Produktionsdaten.

Resümee

Process Mining in R ermöglicht zeitnahe Ergebnisse, die bis zur automatisierten Analyse in Echtzeit reicht. Der Einsatz beschleunigt erheblich das Process Controlling und hilft den Ressourceneinsatz bei der Datenerhebung, sowie deren Analyse zu reduzieren. Es kann als stand‐alone Lösung zur Untersuchung des „Discovered Process“ oder als Erweiterung für nachfolgende statistische Analysen eingesetzt werden. Als stand‐alone Lösung eignet es sich für Prozesse mit geringer Komplexität, wie in der automatisierten Fertigung. Besteht eine hohe Diversifikation oder sollen standortübergreifende Prozessanalysen durchgeführt werden, übersteigt der Ressourcenaufwand rasch die Kosten für den Einsatz einer Enterprise Software, von denen mittlerweile einige angeboten werden.

 

Privacy, Security and Ethics in Process Mining – Article Series

When I moved to the Netherlands 12 years ago and started grocery shopping at one of the local supermarket chains, Albert Heijn, I initially resisted getting their Bonus card (a loyalty card for discounts), because I did not want the company to track my purchases. I felt that using this information would help them to manipulate me by arranging or advertising products in a way that would make me buy more than I wanted to. It simply felt wrong.

Read this article in German:
Datenschutz, Sicherheit und Ethik beim Process Mining – Artikelserie

The truth is that no data analysis technique is intrinsically good or bad. It is always in the hands of the people using the technology to make it productive and constructive. For example, while supermarkets could use the information tracked through the loyalty cards of their customers to make sure that we have to take the longest route through the store to get our typical items (passing by as many other products as possible), they can also use this information to make the shopping experience more pleasant, and to offer more products that we like.

Most companies have started to use data analysis techniques to analyze their data in one way or the other. These data analyses can bring enormous opportunities for the companies and for their customers, but with the increased use of data science the question of ethics and responsible use also grows more dominant. Initiatives like the Responsible Data Science seminar series [1] take on this topic by raising awareness and encouraging researchers to develop algorithms that have concepts like fairness, accuracy, confidentiality, and transparency built in (see Wil van der Aalst’s presentation on Responsible Data Science at Process Mining Camp 2016).

Process Mining can provide you with amazing insights about your processes, and fuel your improvement initiatives with inspiration and enthusiasm, if you approach it in the right way. But how can you ensure that you use process mining responsibly? What should you pay attention to when you introduce process mining in your own organization?

In this article series, we provide you four guidelines that you can follow to prepare your process mining analysis in a responsible way:

Part 1 of 4: Clarify the Goal of the Analysis

– Part 2 of 4: Responsible Handling of Data (COMING SOON!)

– Part 3 of 4: Consider Anonymization (COMING SOON!)

– Part 4 of 4: Establish a collaborative Culture (COMING SOON!)

Acknowledgements

We would like to thank Frank van Geffen and Léonard Studer, who initiated the first discussions in the workgroup around responsible process mining in 2015. Furthermore, we would like to thank Moe Wynn, Felix Mannhardt and Wil van der Aalst for their feedback on earlier versions of this article.