Statistik Challenge

Bring Deine Arbeit einen großen Schritt voran.
Mach mit bei der Statistik-Challenge!


Die Challenge ist komplett gratis. Es gibt keinen Haken!

Jeden Tag bekommst Du einen kurzen Statistik-Input von mir und ich beantworte Deine Statistikfragen. Anschließend arbeitet jeder für sich in Ruhe an seiner Arbeit. Nach dieser fokussierten Arbeitszeit klären wir in einer Abschlussrunde nochmal Deine neuen Fragen.

Durch diese Challenge wirst Du motiviert und kannst intensiv an Deinen Baustellen arbeiten. Deine Fragen werden schnell geklärt und Du kommst gut voran.


In der Statistik-Challenge treffen wir uns jeden Vormittag (Montag, 11. bis Mittwoch, 12. Mai 2020, 8.30 Uhr bis 12.30 Uhr) im Online-Seminarraum. Du bekommst den Zugangslink jeweils am Morgen per Mail zugeschickt.

Du siehst und hörst mich und kannst Dich über den Chat in den Fragerunden mit mir und den anderen Teilnehmern austauschen.

In der fokussierten Arbeitszeit schalte ich mein Mikro aus, so dass jeder in Ruhe arbeiten kann.

Trage hier Deinen Namen und Deine E-Mail-Adresse in mein Formular hier ein und Du bist kostenlos dabei!

Article series: 5 Clean Coding Tips – 5.Put yourself in somebody else’s shoes

This is the fifth of the article series “5 tips for clean coding” to follow as soon as you’ve made the first steps into your coding career, in this article series. Read the introduction here, to find out why it is important to write clean code if you missed it.

It might be a bit repetitive to bring up how important the readability of the code is, let’s do it anyway. In the majority of the cases you are writing for others, therefore you need to put yourself in their shoes to be able to assess how good the readability of your code is. For you, it all might be obvious because you wrote it. But it doesn’t have to be easy to read for someone else. If you have a colleague or a friend that has a bit of time for you and is willing to give you feedback, that is great. If, however, you don’t have such a person, having a few imaginary friends might be helpful in this case. It might sound crazy, but don’t close this page just yet. Having a set of imaginary personas at your disposal, to review your work with their eyes, can help you a lot. Imagine that your code met one of those guys. What would they say about it? If you work in a team or collaborate with people, you probably don’t have to imagine them. You’ve met them.

The_PEP8_guy – He has years of experience. He is used to seeing the code in a very particular way. He quotes the style guide during lunch. His fingers make the perfect line splitting and indentation without even his thoughts reaching the conscious state. He knows that lowercase_with_underscore is for variables, UPPER_CASE_NAMES are for constants and the CapitalizedWords are for classes. He will be lost if you do it in any different way. His expectations will not meet what you wrote, and he will not understand anything, because he will be too distracted by the messed up visual. Depending on the character he might start either crying or shouting. Read the style guide and follow it. You might be able to please this guy at least a little bit with the automatic tools like pylint.

The_ grieving _widow – Imagine that something happens to you. Let’s say, that you get hit by a bus[i]. You leave behind sadness and the_ grieving_widow to manage your code, your legacy. Will the future generations be able to make use of it or were you the only one who can understand anything you wrote? That is a bit of an extreme situation, ok. Alternatively, imagine, that you go for a 5-week vacation to a silent retreat with a strict no-phone policy (or that is what you tell your colleagues). Will they be able to carry on if they cannot ask you anything about the code? Review your code and the documentation from the perspective of the poor grieving_widow.

The_not_your_domain_guy – He is from the outside of the world you are currently in and he just does not understand your jargon. He doesn’t have to know that in data science a feature, a predictor and an x probably mean the same thing. SNR might shout signal-to-noise ratio at you, it will only snort at him. You might use abbreviations that are obvious to you but not to everyone. If you think that the majority of people can understand, and it helps with the code readability keep the abbreviations but just in case, document/comment them. There might be abbreviations specific to your company and, someone from the outside, a new guy, a consultant will not get them. Put yourself in the shoes of that guy and maybe make your code a bit more democratic wherever possible.

The_foreigner– You might be working in an environment, where every single person speaks the same language you speak, and it happens not to be English. So, you and your colleagues name variables and write the comments in your language. However, unless you work in a team with rules a strict as Athletic Bilbao, there might be a foreigner joining your team in the future. It is hard to argue that English is the lingua franca in programming (and in the world), these days. So, it might be worth putting yourself in the_foreigner’s shoes, while writing your code, to avoid a huge amount of work in the future, that the translation and explanation will require. And even if you are working on your own, you might want to make your code public one day and want as many people as possible to read it.

The_hurry_up_guy – we all know this guy. Sometimes he doesn’t have a body or a face, but we can feel his presence. You might want to write a perfect solution, comment it in the best possible way and maybe add a bit of glitter on top but sometimes you just need to give in and do it his way. And that’s ok too.



Deep Learning World – Virtual Edition 2020!


Virtual Edition, May 11-12, 2020

The premier conference covering the
commercial deployment of deep learning

Deep Learning is no longer the cool new discipline. Instead it has become another tool in the toolbox of the data scientist – but a very important one! Without RNN, CNN etc. many applications that make our daily life better or help us to improve our business wouldn’t be possible. Take for example the German Federal State NRW: they are using neural networks to detect child pornography. Other organizations use it to detect cancer, translate text or inspect machines. It’s also important to understand how Deep Learning sits alongside traditional machine learning methods. As an expert you should know when and how to apply different methods for different applications. At the Deep Learning World conference, you will learn from other practitioners why they decided for a deep, transfer or reinforcement learning approach, what the analytical and technical but also organisational and economic challenges were and how they solved them. Take this opportunity and visit the two-day event to broaden your knowledge, deepen your understanding and discuss your questions with other Deep Learning experts – see you virtually in May 2020!

Why should you participate?

We will provide a live-streamed virtual version of deep learning on 11-12 May, 2020: you will be able to attend sessions and to interact and connect with the speakers and fellow members of the data science community including sponsors and exhibitors from your home or your office.

What about the workshops?

The workshops will also be held virtually on the planned date:
13 May, 2020.

Don’t have a ticket yet?

It‘s not too late to join the data science community.
Register by 10 May to receive access to the livestream and recordings.


We’re looking forward to see you – virtually!

This year the Deep Learning World runs alongside with the Predictive Analytics World for Healthcare and Predictive Analytics World for Industry 4.0.

Image Source: Pixabay (

The Data Surrounding Higher Education and COVID-19

Just a few short weeks ago, it would have seemed impossible for some microscopic pathogen to upend our lives as we knew it, but the novel Coronavirus has proven us breathtakingly wrong.

It has suddenly and unexpectedly changed everything we had thought was most stable and predictable in our lives, from the ways that we work to the ways we interact with one another. It’s even changed the way we learn, as colleges and universities across the nation shutter their doors.

But what is the real impact of COVID-19 on higher education? How are college students really faring in the face of the pandemic, and what can we do to support them now and in the post-pandemic life to come?

The Scramble is On

Probably the most significant challenge that schools, educators, and students alike are facing is that no one really saw this coming, so now we’re trying to figure out how to protect students’ education while also protecting their physical health. We’re having to make decisions that impact millions of students and faculty and do that with no preparation whatsoever.

To make matters worse, faculties are having to convert their classes to a forum the majority have never even used before. Before the lockdown, more than 70% of faculty in higher education had zero experience with online teaching. Now they’re being asked to convert their entire semester’s course schedule from an in-class to an online format, and they’re having to do it in a matter of weeks if not days.

For students who’ve never taken a distance learning course before, these impromptu, online, cobbled-together courses are hardly the recipe for academic success. The challenge is even greater for lab-based courses, where content mastery depends on hands-on work and laboratory applications. To solve this problem, some of the newly-minted distance ed instructors are turning to online lab simulations to help students make do until the real thing is open to them again.

Making Do

It’s not just the schools and the faculty that have been caught off guard by the sudden need to learn while under lockdown. Students are also having to hustle to make sure they have the technology they need to move their college experience online. Unfortunately, for many students, that’s not always easy, and for some, it’s downright impossible.

Studies show that large swaths of the student population: first-generation college students, community college students, immigrants, and lower-income students, typically rely on on-campus facilities to access the technology they need to do their work. When physical campuses close and the community libraries and hotspots with them, so too does the chance for many students to take their learning online.

Students in urban environments face particular risks. Even if they are able to access the technology they need to engage in distance learning, they may find it impossible to socially isolate. The need to access a hotspot or wi-fi connection might put them in unsafe proximity to other students, not to mention the millions of workers now forced to telecommute.

The Good News

America’s millions of new online learners and teachers may have a tough row to hoe, but the news isn’t all bad. Online education is by no means a new thing. By 2017, nearly 7 million students were enrolled in at least one distance education course according to a recent survey by the National Center for Education Statistics.

It isn’t as though the technology to provide a secure, user-friendly learning experience doesn’t exist. The financial industry, for example, has played a leading role in developing private, responsive, and highly-customizable technology solutions to meet practically any need a client or stakeholder may have.

The solutions used for the financial sector can be built on and modified for the online learning experience to ensure the privacy of students, educators, and institutions while providing real-time access to learning tools and content to classmates and teachers.

A New Path?

As challenging as it may be, transitioning to online learning not only offers opportunities for the present, but it may well open up new paths for the future. While our world may finally be approaching the downward slope of the curve and while we may be seeing the light at the end of the tunnel, until there’s a vaccine, we haven’t likely seen the last of COVID-19.

And even when we lay the COVID beast to rest, infectious disease, unfortunately, is a fact of human life. For students just starting to think about their career paths, this lockdown may well be the push they need to find a career that’s well-suited to this “new normal.”

For instance, careers in data science transition perfectly from onsite to at-home work, and as epidemiological superheroes like Dr. Fauci and Dr. Birx have shown, they are often involved in important, life-saving work. These are also careers that can be pursued largely, if not exclusively, online. Whether you’re a complete newbie or a veteran to the field, there is a large range of degree and certification programs available online to launch or advance your data science career.

It might be that your college-with-corona experience is pointing your life in a different direction, toward education rather than data science. With a doctorate in education, your future career path is virtually unlimited. You might find yourself teaching, researching, leading universities or developing education policy.

What matters most is that with an EdD, you can make a difference in the lives of students and teachers, just as your teachers and administrators are making a difference in your life. You can be the guiding and comforting force for students in a time of crisis and you can use your experiences today to pay it forward tomorrow.

Conversion Rate Optimization: Understanding the Sales Funnel

Are you capturing the attention of consumers or prospects with your content? Do they trust you enough to give you their contact information? Will they come back and buy from you again? Knowing how the sales funnel works and what you can do to improve it will take you down the road of success.

Business 101

As a business owner, your goal is to turn a prospect (meaning a prospective buyer) into a loyal customer. Nobody wants to lose a possible customer after putting a lot of effort into the attempt of establishing a relationship. Once you understand the different stages of the sales funnel, it will be easier to find cracks and holes within. The following sections unpack how sales funnel management can help you optimize your conversion rate and build a successful long-term relationship with your customers and website users.

The Sales Funnel

The sales funnel describes the path a customer takes on the way to buying a product or service. It visualizes the typical journey they go through and in which stage of the buying decision prospects are at the moment. As one of the core concepts in digital marketing, sales funnel management can help you to understand your audience and prevent them from dropping out before a sale is made. It is about giving every potential customer the treatment they are looking for. If you don’t understand your sales funnel, you can’t optimize it. What matters most when it comes to a sales funnel is website optimization.

Prospects move from the top of the funnel to the bottom as they become more familiar with what you have to offer. The sales funnel narrows as visitors move through it, and the number of people in your funnel will continue to decrease the closer you get to sealing the deal. It starts at the top with all the prospects who landed on your website one way or another, while the narrow bottom represents loyal customers.

The 4 Stages of the Sales Funnel

Moving people through the funnel can be a challenge. A stratagem to keep in mind is that your goal should be to solve the “problems” of your customers, or potentially make them aware of a problem they didn’t even know existed. Start by creating content that attracts your prospect’s attention, followed by offering an irresistible solution to the problem. All you have to do then is watch the magic happen.

Truthfully, that is easier said than done, but if you follow the four stages of a prospective customer’s mindset, you will reach your goal sooner than later. The different stages can be easily explained using the AIDA (Awareness, Interest, Decision, Action) strategy. To understand what moves a buying decision, we have to take a closer look at each stage and the approach it requires.


To end up with a strong bond with your prospect, you have to gain attention first. Depending on how they found you (organic search results, recommendations, advertisements, or just pure luck), people will put different amounts of trust in your business. If you are lucky and all circumstances fall perfectly into place, a prospect turns into a customer immediately. More often though, the awareness stage does exactly what it sounds like; it creates awareness of your business and your products or services. At this point, all you are trying to do is lead prospects into the next stage, which will make them return for more.


Once a potential customer is aware of you, you need to build their interest. In this stage potential customers are interested in what you have to offer and are doing research or comparison. It is the perfect time to show off authority in your field and support them with helpful content that does not yet try to sell to them. Make sure your message stays consistent throughout the whole process and do not try to push too hard from the beginning. The interest stage should only lead them to be able to make an informed decision.


For the most part, the majority of people do not like making decisions and, therefore, getting a prospect to make a buying decision is not an easy feat. At this stage, you have to bring on your A-game and make them an offer they can’t refuse. Whether this means offering free premium shipping, a discount code, or a free month of your services is totally up to you; you just have to make sure that your potential customer wants to take advantage of it. Showcasing positive reviews or social proof is another powerful way that you can get people to take action.


Now your prospect turns into a customer. When he or she purchases your product or takes advantage of your service, that customer becomes part of your business’s ecosystem. But just because they reached the final stage of the sales funnel and the AIDA principle doesn’t mean your work is all said and done. Starting to build a long-term relationship with someone who already trusts your company is easier than starting the sales funnel all over again with a new prospect.

Sales Funnel Management

At this point, you should understand why sales funnel management is so important. Even the best prospects can get lost along the way if expectations aren’t met. It takes time to build a sales funnel that represents what your audience is looking for. The best way to optimize a sales funnel is to start with the results and work your way up. Another point of interest is the timing when people move from one point to the next within the funnel. This can help you find out where, when, and why you’re losing potential customers.

Too slow: New leads are nine times more likely to convert if someone follows up within the first five minutes. On the other hand, a lead is 21 times less likely to turn into a sale after 30 minutes have passed. To react within tight response times like that, you need to implement sales funnel management automation.

Too impatient: It can be tempting to dump a lead that isn’t converting right away and move on to the next. You should ask yourself the question if you are patient enough and if you are following up as much as you should. A marketing automation funnel also helps to stay in touch with the prospect over time.

Too fast: Instead of asking people to buy from you right away, you should cultivate them over time. If you adjust your sales approach to the different stages, you don’t just avoid chasing them away; you also find out what is working and what is a waste of your time.

How can you optimize your conversion rate?

There are countless ways you can improve your conversion rate and turn a “no, thank you” into a “yes, please.” In sales, a no often simply means “not until later” or “try again, I’m just not totally convinced yet.” Any time you encounter problems like that, you can use one or multiple of the following, mostly automated sales techniques, to reach your goals.

Target your Audience

To lead people into your sales funnel, you have to put the right content in front of your prospects. How and where you do that depends on your target audience. Be creative with your content, but make sure it mimics your offer and the call-to-action you are using. Customer relationship management (CRM) can help you track interactions with current and future customers.

Build a Landing Page

A landing page offers content that addresses a specific problem, ideally with a single call-to-action, and should steer your visitor towards becoming a customer. A/B testing your landing pages will help you figure out what your audience responds to best and what language, imagery, or layouts can help you improve conversion rates. Experienced hosting companies like 101domain can help you along the way. Additionally, you can use pay-per-click campaigns to drive traffic to your landing page and contact forms to gain subscribers to a mailing list.

Targeting Soft Conversions

When considering which page to use as a landing page, you can increase your conversion rate by bringing leads to an on-site resource to gain a “soft conversion.”

 To illustrate the importance of a good landing page and soft conversions, consider the following data:

RED: Cost per conversion BLUE: Number of conversions X-AXIS: Time (Screenshot supplied by Howard Ahmanson)

The initial strategy represented in this graph was to take visitors directly to a sales page. This resulted in a very low number of conversions, about a rate of 1%,, which in turn drove the cost per conversion way up. Later, the landing page was switched to an on-site resource, such as  a form fill of “get the free retirement planning guide.” This prompted a few soft conversions, or in other words email addresses. Upon doing this, the average number of conversions per month increased from about 10 to between 30 and 45, which in turn dropped the total cost per conversion from a median of about $400 to about $100. This is an approximately 300% increase in conversions at 50% of the cost.

But how does increased conversions translate in terms of sales numbers? To see an example of this, consider the data from the Ken Tamplin Vocal Academy:

RED: Total conversion, including soft conversions
BLUE: Sales conversions
X-AXIS: Time

When running ads for Ken, the initial strategy was to bring prospects directly to a sales page. Later, this was switched out for a “Yes! I want Ken’s free lessons!” page.

This led to an increase in the number of soft conversions, which led to a tightly correlated increase in sales. There was an increase from around 30 conversions per month up to over 225, which is an increase of 750%.

Create an Email Drip Campaign

Email drip campaigns are used to send a pre-written set of emails to subscribers or customers over time. You can use those campaigns to educate the receiver as well as make them aware of sales or offers. Last but not least, don’t forget about existing customers. This technique is ideal for building up loyalty and making them feel like part of the family.

Business Data is changing the world’s view towards Green Energy

Energy conservation is one of the main stressed points all around the globe. In the past 30 years, researches in the field of energy conservation and especially green energy have risen to another level. The positive outcomes of these researches have given us a gamut of technologies that can aid in preserving and utilize green energy. It has also reduced the over-dependency of companies on fossil fuels such as oil, coal, and natural gas.

Business data and analytics have all the power and the potential to take the business organizations forward in the future and conquer new frontiers. Seizing the opportunities presented by Green energy, market leaders such as Intel and Google have already implemented it, and now they enjoy the rich benefits of green energy sources.

Business data enables the organizations to keep an eye on measuring the positive outcomes by adopting the green energies. According to a report done by the World energy outlook, the global wind energy capacity will increase by 85% by the year 2020, reaching 1400 TWh. Moreover, in the Paris Summit, more than 170 countries around the world agreed on reducing the impact of global warming by harnessing energy from green energy sources. And for this to work, Big Data Analytics will play a pivotal role.

Overview of Green energy

In simpler terms, Green Energy is the energy coming from natural sources such as wind, sun, plants, tides, and geothermal heat. In contrast to fossil fuels, green energy resources can be replenished in a short period, and one can use them for longer periods. Green energy sources have a minimal ill effect on the environment as compared to fossil fuels. In addition to this, fossil fuels can be replaced by green energy sources in many areas like providing electricity, fuel for motor vehicles, etc..

With the help of business data, organizations throughout the world can change the view of green energy. Big Data can show how different types of green energy sources can help businesses and accelerate sustainable expansion.

Below are the different types of green energy sources:

  • Wind Power
  • Solar Power
  • Geothermal Energy
  • Hydropower
  • Biofuels
  • Bio-mass

Now we present before you a list of advantages that green energy or renewable energy sources have brought to the new age businesses.

Profits on the rise

If the energy produced is more than the energy used, the organizations can sell it back to the grids and earn profit out of it. Green energy sources are renewable sources of energy, and with precise data, the companies will get an overall estimation of the requirement of energy.

With Big Data, the organizations can know the history of the demographical location before setting up the factory. For example, if your company is planning to setup a factory in the coastal region, tidal and wind energy would be more beneficial as compared to solar power. Business data will give the complete analysis of the flow of the wind so that the companies can ascertain the best location of the windmill; this will allow them to store the energy in advance and use it as per their requirement. It not only saves money but also provides an extra source of income to the companies. With green energy sources, the production in the company can increase to an unprecedented level and have sustainable growth over the years.

Synchronizing the maintenance process

If there is a rapid inflow of solar and wind energy sources, the amount of power produced will be huge. Many solar panels and windmills are operating in a solar power plant or in a wind energy source, and with many types of equipment, it becomestoo complex to manage. Big Data analytics will assist the companies in streamlining all the operations to a large extent for their everyday work without any hassle.

Moreover, the analytics tool will convey the performance of renewable energy sources under different weather conditions. Thus, the companies will get the perfect idea about the performance of the green energy sources, thus enabling them to take necessary actions as and when required.

Lowering the attrition rate

Researchers have found that more number of employees want to be associated with companies that support green energies. By opting for green energy sources and investing in them, companies are indirectly investing in keeping the workforce intact and lowering the attrition rate. Stats also show the same track as nearly 50% of the working professionals, and almost 2/3rd of the millennial population want to be associated with the companies who are opting for the green energy sources and have a positive impact on environmental conservation.

The employees will not only wish to stay with the organizations for a long time but will also work hard for the betterment of the organization. Therefore, you can concentrate on expanding the business rather than thinking about the replacement of the employees.

Lowering the risk due to Power Outage

The Business Data Analytics will continuously keep updating the requirements of power needed to run the company. Thus the organizations can cut down the risk of the power outage and also the expenses related to it. The companies will know when to halt the energy transmission as they would know if the grid is under some strain or not.

Business analytics and green energy provide a planned power outage to the companies, which is cost-efficient and thus can decrease the product development cost.  Apart from this, companies can store energy for later usage. Practicing this process will help save a lot of money in the long run, proving that investment in green energy sources is a smart investment.

Reducing the maintenance cost

An increasing number of organizations are using renewable sources of energy as it plays a vital role in decreasing production and maintenance costs. The predictive analysis technology helps renewable energy sources to produce more energy at less cost, thus reducing the cost of infrastructure.

Moreover, data analytics will make green energy sources more bankable for companies. As organizations will have a concrete amount of data related to the energy sources, they can use it wisely on a more productive basis

Escalating Energy Storage

Green energy sources can be stored in bulk and used as per requirement by the business organizations. Using green energy on a larger basis will even allow companies to completely get rid of fossil fuels and thus work towards the betterment of the environment. Big Data analytics with AI and cloud-enabled systems help organizations store renewable energies such as Wind and Solar.

Moreover, it gathers information for the businesses and gives the complete analysis of the exact amount of energy required to complete a particular task. The data will also automate cost savings as it can predict the client’s needs. Based on business data, companies can store renewable energy sources in a better manner.

With Business data analytics, the companies can store energy when it is cheap and use it according to the needs when the energy rates go higher. Although predicting the requirement of storage is a complicated process, with Artificial Intelligence (AI) at work, you can analyze the data efficiently.

Bundling Up

Green energy sources will play a pivotal role in deciding the future of the businesses as fossil fuels are available in a certain limit. Moreover, astute business data analysts will assist the organizations to not only use renewable energy sources in a better manner but also to form a formidable workforce. The data support in the green energy sector will also provide sustainable growth to the companies, monitor their efforts, and assist them in the long run.

Interview: Künstliche Intelligenz in der Pharma-Forschung und -Entwicklung

Interview mit Anna Bauer-Mehren, Head of Data Science in der Pharma-Forschung und -Entwicklung bei Roche in Penzberg

Frau Dr. Bauer-Mehren ist Head of Data Science im Bereich Pharma-Forschung und -Entwicklung bei Roche in Penzberg. Sie studierte Bioinformatik an der LMU München und schloss ihre Promotion im Bereich Biomedizin an der Pompeu Fabra Universität im Jahr 2010 in Spanien ab. Heute befasst sie sich mit dem Einsatz von Data Science zur Verbesserung der medizinischen Produkte und Prozesse bei Roche. Ferner ist sie Speaker der Predictive Analytics World Healthcare (Virtual Conference, Mai 2020).

Data Science Blog: Frau Bauer-Mehren, welcher Weg hat Sie bis an die Analytics-Spitze bei Roche geführt?

Ehrlich gesagt bin ich eher zufällig zum Thema Data Science gekommen. In der Schule fand ich immer die naturwissenschaftlich-mathematischen Fächer besonders interessant. Deshalb wollte ich eigentlich Mathematik studieren. Aber dann wurde in München, wo ich aufgewachsen und zur Schule gegangen bin, ein neuer Studiengang eingeführt: Bioinformatik. Diese Kombination aus Biologie und Informatik hat mich so gereizt, dass ich die Idee des Mathe-Studiums verworfen habe. Im Bioinformatik-Studium ging es unter anderem um Sequenzanalysen, etwa von Gen- oder Protein-Sequenzen, und um Machine Learning. Nach dem Masterabschluss habe ich an der Universitat Pompeu Fabra in Barcelona in biomedizinischer Informatik promoviert. In meiner Doktorarbeit und auch danach als Postdoktorandin an der Stanford School of Medicine habe ich mich mit dem Thema elektronische Patientenakten beschäftigt. An beiden Auslandsstationen kam ich auch immer wieder in Berührung mit Themen aus dem Pharma-Bereich. Bei meiner Rückkehr nach Deutschland hatte ich die Pharmaforschung als Perspektive für meine berufliche Zukunft fest im Blick. Somit kam ich zu Roche und leite seit 2014 die Abteilung Data Science in der Pharma-Forschung und -Entwicklung.

Data Science Blog: Was sind die Kernfunktionen der Data Science in Ihrem Bereich der Pharma-Forschung und -Entwicklung?

Ich bin Abteilungsleiterin für Data Science von pREDi (Pharma Research and Early Development Informatics), also von Roches Pharma-Forschungsinformatik. Dieser Bereich betreut alle Schritte von der Erhebung der Daten bis zur Auswertung und unterstützt alle Forschungsgebiete von Roche, von den Neurowissenschaften und der Onkologie bis hin zu unseren Biologie- und Chemielaboren, die die Medikamente herstellen. Meine Abteilung ist für die Auswertung der Daten zuständig. Wir beschäftigen uns damit, Daten so aufzubereiten und auszuwerten, dass daraus neue Erkenntnisse für die Erforschung und Entwicklung sowie die Optimierung von pharmazeutischen Produkten und Therapien gewonnen werden könnten. Das heißt, wir wollen die Daten verstehen, interpretieren und zum Beispiel einen Biomarker finden, der erklärt, warum manche Patienten auf ein Medikament ansprechen und andere nicht.

Data Science Blog: Die Pharmaindustrie arbeitet schon seit Jahrzehnten mit Daten z. B. über Diagnosen, Medikationen und Komplikationen. Was verbessert sich hier gerade und welche Innovationen geschehen hier?

Für die medizinische Forschung ist die Qualität der Daten sehr wichtig. Wenn ein Medikament entwickelt wird, fallen sehr große Datenmengen an. Früher hat niemand dafür gesorgt, dass diese Daten so strukturiert und aufbereitet werden, dass sie später auch in der Forschung oder bei der Entwicklung anderer Medikamente genutzt werden können. Es gab noch kein Bewusstsein dafür, dass die Daten auch über den eigentlichen Zweck ihrer Erhebung hinaus wertvoll sein könnten. Das hat sich mittlerweile deutlich verbessert, auch dank des Bereichs Data Science. Heute ist es normal, die eigenen Daten „FAIR“ zu machen. Das Akronym FAIR steht für findable, accessible, interoperable und reusable. Das heißt, dass man die Daten so sauber managen muss, dass Forscher oder andere Entwickler sie leicht finden, und dass diese, wenn sie die Berechtigung dafür haben, auch wirklich auf die Daten zugreifen können. Außerdem müssen Daten aus unterschiedlichen Quellen zusammengebracht werden können. Und man muss die Daten auch wiederverwenden können.

Data Science Blog: Was sind die Top-Anwendungsfälle, die Sie gerade umsetzen oder für die Zukunft anstreben?

Ein Beispiel, an dem wir zurzeit viel forschen, ist der Versuch, so genannte Kontrollarme in klinischen Studien zu erstellen. In einer klinischen Studie arbeitet man ja immer mit zwei Patientengruppen: Eine Gruppe der Patienten bekommt das Medikament, das getestet werden soll, während die anderen Gruppe, die Kontrollgruppe, beispielsweise ein Placebo oder eine Standardtherapie erhält. Und dann wird natürlich verglichen, welche der zwei Gruppen besser auf die Therapie anspricht, welche Nebenwirkungen auftreten usw. Wenn wir jetzt in der Lage wären, diesen Vergleich anhand von schon vorhanden Patientendaten durchzuführen, quasi mit virtuellen Patienten, dann würden wir uns die Kontrollgruppe bzw. einen Teil der Kontrollgruppe sparen. Wir sprechen hierbei auch von virtuellen oder externen Kontrollarmen. Außerdem würden wir dadurch auch Zeit und Kosten sparen: Neue Medikamente könnten schneller entwickelt und zugelassen werden, und somit den ganzen anderen Patienten mit dieser speziellen Krankheit viel schneller helfen.

Data Science Blog: Mit welchen analytischen Methoden arbeiten Sie und welche Tools stehen dabei im Fokus?

Auch wir arbeiten mit den gängigen Programmiersprachen und Frameworks. Die meisten Data Scientists bevorzugen R und/oder Python, viele verwenden PyTorch oder auch TensorFlow neben anderen.  Generell nutzen wir durchaus viel open-source, lizenzieren aber natürlich auch Lösungen ein. Je nachdem um welche Fragestellungen es sich handelt, nutzen wir eher statistische Modelle- Wir haben aber auch einige Machine Learning und Deep Learning use cases und befassen uns jetzt auch stark mit der Operationalisierung von diesen Modellen. Auch Visualisierung ist sehr wichtig, da wir die Ergebnisse und Modelle ja mit Forschern teilen, um die richtigen Entscheidungen für die Forschung und Entwicklung zu treffen. Hier nutzen wir z.B. auch RShiny oder Spotfire.

Data Science Blog: Was sind Ihre größten Herausforderungen dabei?

In Deutschland ist die Nutzung von Patientendaten noch besonders schwierig, da die Daten hier, anders als beispielsweise in den USA, dem Patienten gehören. Hier müssen erst noch die notwendigen politischen und rechtlichen Rahmenbedingungen geschaffen werden. Das Konzept der individualisierten Medizin funktioniert aber nur auf Basis von großen Datenmengen. Aktuell müssen wir uns also noch um die Fragen kümmern, wo wir die Datenmengen, die wir benötigen, überhaupt herbekommen. Leider sind die Daten von Patienten, ihren Behandlungsverläufen etc. in Deutschland oft noch nicht einmal digitalisiert. Zudem sind die Daten meist fragmentiert und auch in den kommenden Jahren wird uns sicherlich noch die Frage beschäftigen, wie wir die Daten so sinnvoll erheben und sammeln können, dass wir sie auch integrieren können. Es gibt Patientendaten, die nur der Arzt erhebt. Dann gibt es vielleicht noch Daten von Fitnessarmbändern oder Smartphones, die auch nützlich wären. Das heißt, dass wir aktuell, auch intern, noch vor der Herausforderung stehen, dass wir die Daten, die wir in unseren klinischen Studien erheben, nicht ganz so einfach mit den restlichen Datenmengen zusammenbringen können – Stichwort FAIRification. Zudem reicht es nicht nur, Daten zu besitzen oder Zugriff auf Daten zu haben, auch die Datenqualität und -organisation sind entscheidend. Ich denke, es ist sehr wichtig, genau zu verstehen, um was für Daten es sich handelt, wie diese Erhoben wurden und welche (wissenschaftliche) Frage ich mit den Daten beantworten möchte. Ein gutes Verständnis der Biologie bzw. Medizin und der dazugehörigen Daten sind also für uns genauso wichtig wie das Verständnis von Methoden des Machine Learning oder der Statistik.

Data Science Blog: Wie gehen Sie dieses Problem an? Arbeiten Sie hier mit dedizierten Data Engineers? Binden Sie Ihre Partner ein, die über Daten verfügen? Freuen Sie sich auf die Vorhaben der Digitalisierung wie der digitalen Patientenakte?

Roche hat vor ein paar Jahren die Firma Flatiron aus den USA übernommen. Diese Firma bereitet Patientendaten zum Beispiel aus der Onkologie für Krankenhäuser und andere Einrichtungen digital auf und stellt sie für unsere Forschung – natürlich in anonymisierter Form – zur Verfügung. Das ist möglich, weil in den USA die Daten nicht den Patienten gehören, sondern dem, der sie erhebt und verwaltet. Zudem schaut Roche auch in anderen Ländern, welche patientenbezogenen Daten verfügbar sind und sucht dort nach Partnerschaften. In Deutschland ist der Schritt zur elektronischen Patientenakte (ePA) sicherlich der richtige, wenn auch etwas spät im internationalen Vergleich. Dennoch sind die Bestrebungen richtig und ich erlebe auch in Deutschland immer mehr Offenheit für eine Wiederverwendung der Daten, um die Forschung voranzutreiben und die Patientenversorgung zu verbessern.

Data Science Blog: Sollten wir Deutsche uns beim Datenschutz lockern, um bessere medizinische Diagnosen und Behandlungen zu erhalten? Was wäre Ihr Kompromiss-Vorschlag?

Generell finde ich Datenschutz sehr wichtig und erachte unser Datenschutzgesetz in Deutschland als sehr sinnvoll. Ich versuche aber tatsächlich auf Veranstaltungen und bei anderen Gelegenheiten Vertreter der Politik und der Krankenkassen immer wieder darauf aufmerksam zu machen, wie wichtig und wertvoll für die Gesellschaft eine Nutzung der Versorgungsdaten in der Pharmaforschung wäre. Aber bei der Lösung der Problematik kommen wir in Deutschland nur sehr langsam voran. Ich sehe es kritisch, dass viel um dieses Thema diskutiert wird und nicht einfach mal Modelle ausprobiert werden. Wenn man die Patienten fragen würde, ob sie ihre Daten für die Forschung zur Verfügung stellen möchte, würden ganz viele zustimmen. Diese Bereitschaft vorher abzufragen, wäre technisch auch möglich. Ich würde mir wünschen, dass man in kleinen Pilotprojekten mal schaut, wie wir hier mit unserem Datenschutzgesetz zu einer ähnlichen Lösung wie beispielsweise Flatiron in den USA kommen können. Ich denke auch, dass wir mehr und mehr solcher Pilotprojekte sehen werden.

Data Science Blog: Gehört die Zukunft weiterhin den Data Scientists oder eher den selbstlernenden Tools, die Analysen automatisiert für die Produkt- oder Prozessverbesserung entwickeln und durchführen?

In Bezug auf Künstliche Intelligenz (KI) gibt es ein interessantes Sprichwort: Garbage in, Garbage out. Wenn ich also keine hochqualitativen Daten in ein Machine Learning Modell reinstecke, dann wird höchstwahrscheinlich auch nichts qualitativ Hochwertiges rauskommen. Das ist immer die Illusion, die beim Gedanken an KI entsteht: Ich lass einfach mal die KI über diesen Datenwust laufen und dann wird die gute Muster erkennen und wird mir sagen, was funktioniert. Das ist aber nicht so. Ich brauche schon gute Daten, ich muss die Daten gut organisieren und gut verstehen, damit meine KI wirklich etwas Sinnvolles berechnen kann. Es reichen eben nicht irgendwelche Daten, sondern die Daten müssen auch eine hohe Qualität haben, da sie sich sonst nicht integrieren und damit auch nicht interpretieren lassen. Dennoch arbeiten wir auch mit der Vision “Data Science” daran, immer mehr zu demokratisieren, d.h. es möglichst vielen Forschern zu ermöglichen, die Daten selbst auszuwerten, oder eben gewisse Prozessschritte in der Forschung durch KI zu ersetzen. Auch hierbei ist es wichtig, genau zu verstehen, was in welchem Bereich möglich ist. Und wieder denke ich, dass die richtige Erfassung/Qualität der Daten auch hier das A und O ist und dennoch oft unterschätzt wird.

Data Science Blog: Welches Wissen und welche Erfahrung setzen Sie für Ihre Data Scientists voraus? Und nach welchen Kriterien stellen Sie Data Science Teams für Ihre Projekte zusammen?

Generell sucht Roche als Healthcare-Unternehmen Bewerber mit einem Hintergrund in Informatik und Life Sciences zum Beispiel über ein Nebenfach oder einen Studiengang wie Biotechnologie oder Bioinformatik. Das ist deswegen wichtig, weil man bei Roche in allen Projekten mit Medizinern, Biologen oder Chemikern zusammenarbeitet, deren Sprache und Prozesse man verstehen sollte. Immer wichtiger werden zudem Experten für Big Data, Datenanalyse, Machine Learning, Robotics, Automatisierung und Digitalisierung.

Data Science Blog: Für alle Studenten, die demnächst ihren Bachelor, beispielsweise in Informatik, Mathematik oder auch der Biologie, abgeschlossen haben, was würden sie diesen jungen Damen und Herren raten, wie sie einen guten Einstieg ins Data Science bewältigen können?

Generell empfehle ich jungen Absolventen herauszufinden für welchen Bereich ihr Herz schlägt: Interessiere ich mich dafür, tief in die Biologie einzusteigen und grundlegende Prozesse zu verstehen? Möchte ich nahe am Patienten sei? Ooder ist mir wichtiger, dass ich auf möglichst große Datenmengen zugreifen kann?  Je nachdem, kann ich als Einstieg durchaus Traineeprogramme empfehlen, die es ermöglichen, in mehrere Abteilungen einer Firma Einblicke zu bekommen, oder würde eher eine Promotion empfehlen. Ich denke, das lässt sich eben nicht pauschalisieren. Für die Arbeit bei Roche ist sicherlich entscheidend, dass ich mich neben der Informatik/Data Science auch für das Thema Medizin und Biologie interessiere. Nur dann kann ich in den interdisziplinären Teams einen wertvollen Beitrag leisten und gleichzeitig auch meiner Leidenschaft folgen. Ich denke, dass das auch in anderen Branchen ähnlich ist.

Frau Bauer-Mehren ist Speaker der Predictive Analytics World Healthcare zum Thema Unlocking the Potential of FAIR Data Using AI at Roche.

The Predictive Analytics World Healthcare is the premier machine learning conference for the Healthcare Industry. Due to the corona virus crisis, this conference will be a virtual edition from 11 to 12 MAY 2020.

Article series: 5 Clean Coding Tips – 4. Stop commenting the obvious

This is the fourth of the article series “5 tips for clean coding” to follow as soon as you’ve made the first steps into your coding career, in this article series. Read the introduction here, to find out why it is important to write clean code if you missed it.

Everyone will tell you that you need to comment your code. You do it for yourself, for others, it might help you to put down a structure of your code before you get down to coding properly. Writing a lot of comments might give you a false sense of confidence, that you are doing a good job. While in reality, you are commenting your code a lot with obvious, redundant statements that are not bringing any value. The role of a comment it to explain, not to describe. You need to realize that any piece of comment has to add information to the code you already have, not to double it.

Keep in mind, you are not narrating the code, adding ‘subtitles’ to python’s performance. The comments are there to clarify what is not explicit in the code itself. Adding a comment saying what the line of code does is completely redundant most of the time:

A good rule of thumb would be: if it starts to sound like an instastory, rethink it. ‘So, I am having my breakfast, with a chai latte and my friend, the cat is here as well’. No.

It is also a good thing to learn to always update necessary comments before you modify the code. It is incredibly easy to modify a line of code, move on and forget the comment. There are people who claim that there are very few crimes in the world worse than comments that contradict the code itself.

Of course, there are situations, where you might be preparing a tutorial for others and you want to narrate what the code is doing. Then writing that load function will load the data is good. It does not have to be obvious for the listener. When teaching, repetitions, and overly explicit explanations are more than welcome. Always have in mind who your reader will be.

Predictive Analytics World 2020 Healthcare

Difficult times call for creative measures

Predictive Analytics World for Healthcare will go virtual and you still have time to join us!

What do you have in store for me?

We will provide a live-streamed virtual version of healthcare Munich 2020 on 11-12 May, 2020: you will be able to attend sessions and to interact and connect with the speakers and fellow members of the data science community including sponsors and exhibitors from your home or your office.

What about the workshops?

The workshops will also be held virtually on the planned date:
13 May, 2020.

Get a complimentary virtual sneak preview!

If you would like to join us for a virtual sneak preview of the workshop „Data Thinking“ on Thursday, April 16, so you can familiarise yourself with the quality of the virtual edition of both conference and workshops and how the interaction with speakers and attendees works, please send a request to

Don’t have a ticket yet?

It‘s not too late to join the data science community.
Register by 10 May to receive access to the livestream and recordings.


We’re looking forward to see you – virtually!

This year Predictive Analytics World for Healthcare runs alongside Deep Learning World and Predictive Analytics World for Industry 4.0.

Interview – IT-Netzwerk Werke überwachen und optimieren mit Data Analytics

Interview mit Gregory Blepp von NetDescribe über Data Analytics zur Überwachung und Optimierung von IT-Netzwerken

Gregory Blepp ist Managing Director der NetDescribe GmbH mit Sitz in Oberhaching im Süden von München. Er befasst sich mit seinem Team aus Consultants, Data Scientists und IT-Netzwerk-Experten mit der technischen Analyse von IT-Netzwerken und der Automatisierung der Analyse über Applikationen.

Data Science Blog: Herr Blepp, der Name Ihres Unternehmens NetDescribe beschreibt tatsächlich selbstsprechend wofür Sie stehen: die Analyse von technischen Netzwerken. Wo entsteht hier der Bedarf für diesen Service und welche Lösung haben Sie dafür parat?

Unsere Kunden müssen nahezu in Echtzeit eine Visibilität über die Leistungsfähigkeit ihrer Unternehmens-IT haben. Dazu gehört der aktuelle Status der Netzwerke genauso wie andere Bereiche, also Server, Applikationen, Storage und natürlich die Web-Infrastruktur sowie Security.

Im Bankenumfeld sind zum Beispiel die uneingeschränkten WAN Verbindungen für den Handel zwischen den internationalen Börsenplätzen absolut kritisch. Hierfür bieten wir mit StableNetⓇ von InfosimⓇ eine Netzwerk Management Plattform, die in Echtzeit den Zustand der Verbindungen überwacht. Für die unterlagerte Netzwerkplattform (Router, Switch, etc.) konsolidieren wir mit GigamonⓇ das Monitoring.

Für Handelsunternehmen ist die Performance der Plattformen für den Online Shop essentiell. Dazu kommen die hohen Anforderungen an die Sicherheit bei der Übertragung von persönlichen Informationen sowie Kreditkarten. Hierfür nutzen wir SplunkⓇ. Diese Lösung kombiniert in idealer Form die generelle Performance Überwachung mit einem hohen Automatisierungsgrad und bietet dabei wesentliche Unterstützung für die Sicherheitsabteilungen.

Data Science Blog: Geht es den Unternehmen dabei eher um die Sicherheitsaspekte eines Firmennetzwerkes oder um die Performance-Analyse zum Zwecke der Optimierung?

Das hängt von den aktuellen Ansprüchen des Unternehmens ab.
Für viele unserer Kunden standen und stehen zunächst Sicherheitsaspekte im Vordergrund. Im Laufe der Kooperation können wir durch die Etablierung einer konsequenten Performance Analyse aufzeigen, wie eng die Verzahnung der einzelnen Abteilungen ist. Die höhere Visibilität erleichtert Performance Analysen und sie liefert den Sicherheitsabteilung gleichzeitig wichtige Informationen über aktuelle Zustände der Infrastruktur.

Data Science Blog: Haben Sie es dabei mit Big Data – im wörtlichen Sinne – zu tun?

Wir unterscheiden bei Big Data zwischen

  • dem organischen Wachstum von Unternehmensdaten aufgrund etablierter Prozesse, inklusive dem Angebot von neuen Services und
  • wirklichem Big Data, z. B. die Anbindung von Produktionsprozessen an die Unternehmens IT, also durch die Digitalisierung initiierte zusätzliche Prozesse in den Unternehmen.

Beide Themen sind für die Kunden eine große Herausforderung. Auf der einen Seite muss die Leistungsfähigkeit der Systeme erweitert und ausgebaut werden, um die zusätzlichen Datenmengen zu verkraften. Auf der anderen Seite haben diese neuen Daten nur dann einen wirklichen Wert, wenn sie richtig interpretiert werden und die Ergebnisse konsequent in die Planung und Steuerung der Unternehmen einfließen.

Wir bei NetDescribe kümmern uns mehrheitlich darum, das Wachstum und die damit notwendigen Anpassungen zu managen und – wenn Sie so wollen – Ordnung in das Datenchaos zu bringen. Konkret verfolgen wir das Ziel den Verantwortlichen der IT, aber auch der gesamten Organisation eine verlässliche Indikation zu geben, wie es der Infrastruktur als Ganzes geht. Dazu gehört es, über die einzelnen Bereiche hinweg, gerne auch Silos genannt, die Daten zu korrelieren und im Zusammenhang darzustellen.

Data Science Blog: Log-Datenanalyse gibt es seit es Log-Dateien gibt. Was hält ein BI-Team davon ab, einen Data Lake zu eröffnen und einfach loszulegen?

Das stimmt absolut, Log-Datenanalyse gibt es seit jeher. Es geht hier schlichtweg um die Relevanz. In der Vergangenheit wurde mit Wireshark bei Bedarf ein Datensatz analysiert um ein Problem zu erkennen und nachzuvollziehen. Heute werden riesige Datenmengen (Logs) im IoT Umfeld permanent aufgenommen um Analysen zu erstellen.

Nach meiner Überzeugung sind drei wesentliche Veränderungen der Treiber für den flächendeckenden Einsatz von modernen Analysewerkzeugen.

  • Die Inhalte und Korrelationen von Log Dateien aus fast allen Systemen der IT Infrastruktur sind durch die neuen Technologien nahezu in Echtzeit und für größte Datenmengen überhaupt erst möglich. Das hilft in Zeiten der Digitalisierung, wo aktuelle Informationen einen ganz neuen Stellenwert bekommen und damit zu einer hohen Gewichtung der IT führen.
  • Ein wichtiger Aspekt bei der Aufnahme und Speicherung von Logfiles ist heute, dass ich die Suchkriterien nicht mehr im Vorfeld formulieren muss, um dann die Antworten aus den Datensätzen zu bekommen. Die neuen Technologien erlauben eine völlig freie Abfrage von Informationen über alle Daten hinweg.
  • Logfiles waren in der Vergangenheit ein Hilfswerkzeug für Spezialisten. Die Information in technischer Form dargestellt, half bei einer Problemlösung – wenn man genau wusste was man sucht. Die aktuellen Lösungen sind darüber hinaus mit einer GUI ausgestattet, die nicht nur modern, sondern auch individuell anpassbar und für Nicht-Techniker verständlich ist. Somit erweitert sich der Anwenderkreis des “Logfile Managers” heute vom Spezialisten im Security und Infrastrukturbereich über Abteilungsverantwortliche und Mitarbeiter bis zur Geschäftsleitung.

Der Data Lake war und ist ein wesentlicher Bestandteil. Wenn wir heute Technologien wie Apache/KafkaⓇ und, als gemanagte Lösung, Confluent für Apache/KafkaⓇ betrachten, wird eine zentrale Datendrehscheibe etabliert, von der alle IT Abteilungen profitieren. Alle Analysten greifen mit Ihren Werkzeugen auf die gleiche Datenbasis zu. Somit werden die Rohdaten nur einmal erhoben und allen Tools gleichermaßen zur Verfügung gestellt.

Data Science Blog: Damit sind Sie ein Unternehmen das Datenanalyse, Visualisierung und Monitoring verbindet, dies jedoch auch mit der IT-Security. Was ist Unternehmen hierbei eigentlich besonders wichtig?

Sicherheit ist natürlich ganz oben auf die Liste zu setzen. Organisation sind naturgemäß sehr sensibel und aktuelle Medienberichte zu Themen wie Cyber Attacks, Hacking etc. zeigen große Wirkung und lösen Aktionen aus. Dazu kommen Compliance Vorgaben, die je nach Branche schneller und kompromissloser umgesetzt werden.

Die NetDescribe ist spezialisiert darauf den Bogen etwas weiter zu spannen.

Natürlich ist die sogenannte Nord-Süd-Bedrohung, also der Angriff von außen auf die Struktur erheblich und die IT-Security muss bestmöglich schützen. Dazu dienen die Firewalls, der klassische Virenschutz etc. und Technologien wie Extrahop, die durch konsequente Überwachung und Aktualisierung der Signaturen zum Schutz der Unternehmen beitragen.

Genauso wichtig ist aber die Einbindung der unterlagerten Strukturen wie das Netzwerk. Ein Angriff auf eine Organisation, egal von wo aus initiiert, wird immer über einen Router transportiert, der den Datensatz weiterleitet. Egal ob aus einer Cloud- oder traditionellen Umgebung und egal ob virtuell oder nicht. Hier setzen wir an, indem wir etablierte Technologien wie zum Beispiel ´flow` mit speziell von uns entwickelten Software Modulen – sogenannten NetDescibe Apps – nutzen, um diese Datensätze an SplunkⓇ, StableNetⓇ  weiterzuleiten. Dadurch entsteht eine wesentlich erweiterte Analysemöglichkeit von Bedrohungsszenarien, verbunden mit der Möglichkeit eine unternehmensweite Optimierung zu etablieren.

Data Science Blog: Sie analysieren nicht nur ad-hoc, sondern befassen sich mit der Formulierung von Lösungen als Applikation (App).

Das stimmt. Alle von uns eingesetzten Technologien haben ihre Schwerpunkte und sind nach unserer Auffassung führend in ihren Bereichen. InfosimⓇ im Netzwerk, speziell bei den Verbindungen, VIAVI in der Paketanalyse und bei flows, SplunkⓇ im Securitybereich und Confluent für Apache/KafkaⓇ als zentrale Datendrehscheibe. Also jede Lösung hat für sich alleine schon ihre Daseinsberechtigung in den Organisationen. Die NetDescribe hat es sich seit über einem Jahr zur Aufgabe gemacht, diese Technologien zu verbinden um einen “Stack” zu bilden.

Konkret: Gigaflow von VIAVI ist die wohl höchst skalierbare Softwarelösung um Netzwerkdaten in größten Mengen schnell und und verlustfrei zu speichern und zu analysieren. SplunkⓇ hat sich mittlerweile zu einem Standardwerkzeug entwickelt, um Datenanalyse zu betreiben und die Darstellung für ein großes Auditorium zu liefern.

NetDescribe hat jetzt eine App vorgestellt, welche die NetFlow-Daten in korrelierter Form aus Gigaflow, an SplunkⓇ liefert. Ebenso können aus SplunkⓇ Abfragen zu bestimmten Datensätzen direkt an die Gigaflow Lösung gestellt werden. Das Ergebnis ist eine wesentlich erweiterte SplunkⓇ-Plattform, nämlich um das komplette Netzwerk mit nur einem Knopfdruck (!!!).
Dazu schont diese Anbindung in erheblichem Umfang SplunkⓇ Ressourcen.

Dazu kommt jetzt eine NetDescribe StableNetⓇ App. Weitere Anbindungen sind in der Planung.

Das Ziel ist hier ganz pragmatisch – wenn sich SplunkⓇ als die Plattform für Sicherheitsanalysen und für das Data Framework allgemein in den Unternehmen etabliert, dann unterstützen wir das als NetDescribe dahingehend, dass wir die anderen unternehmenskritischen Lösungen der Abteilungen an diese Plattform anbinden, bzw. Datenintegration gewährleisten. Das erwarten auch unsere Kunden.

Data Science Blog: Auf welche Technologien setzen Sie dabei softwareseitig?

Wie gerade erwähnt, ist SplunkⓇ eine Plattform, die sich in den meisten Unternehmen etabliert hat. Wir machen SplunkⓇ jetzt seit über 10 Jahren und etablieren die Lösung bei unseren Kunden.

SplunkⓇ hat den großen Vorteil dass unsere Kunden mit einem dedizierten und überschaubaren Anwendung beginnen können, die Technologie selbst aber nahezu unbegrenzt skaliert. Das gilt für Security genauso wie Infrastruktur, Applikationsmonitoring und Entwicklungsumgebungen. Aus den ständig wachsenden Anforderungen unserer Kunden ergeben sich dann sehr schnell weiterführende Gespräche, um zusätzliche Einsatzszenarien zu entwickeln.

Neben SplunkⓇ setzen wir für das Netzwerkmanagement auf StableNetⓇ von InfosimⓇ, ebenfalls seit über 10 Jahren schon. Auch hier, die Erfahrungen des Herstellers im Provider Umfeld erlauben uns bei unseren Kunden eine hochskalierbare Lösung zu etablieren.

Confluent für Apache/KafkaⓇ ist eine vergleichbar jüngere Lösung, die aber in den Unternehmen gerade eine extrem große Aufmerksamkeit bekommt. Die Etablierung einer zentralen Datendrehscheibe für Analyse, Auswertungen, usw., auf der alle Daten zur Performance zentral zur Verfügung gestellt werden, wird es den Administratoren, aber auch Planern und Analysten künftig erleichtern, aussagekräftige Daten zu liefern. Die Verbindung aus OpenSource und gemanagter Lösung trifft hier genau die Zielvorstellung der Kunden und scheinbar auch den Zahn der Zeit. Vergleichbar mit den Linux Derivaten von Red Hat Linux und SUSE.

VIAVI Gigaflow hatte ich für Netzwerkanalyse schon erwähnt. Hier wird in den kommenden Wochen mit der neuen Version der VIAVI Apex Software ein Scoring für Netzwerke etabliert. Stellen sie sich den MOS score von VoIP für Unternehmensnetze vor. Das trifft es sehr gut. Damit erhalten auch wenig spezialisierte Administratoren die Möglichkeit mit nur 3 (!!!) Mausklicks konkrete Aussagen über den Zustand der Netzwerkinfrastruktur, bzw. auftretende Probleme zu machen. Ist es das Netz? Ist es die Applikation? Ist es der Server? – der das Problem verursacht. Das ist eine wesentliche Eindämmung des derzeitigen Ping-Pong zwischen den Abteilungen, von denen oft nur die Aussage kommt, “bei uns ist alles ok”.

Abgerundet wird unser Software Portfolio durch die Lösung SentinelOne für Endpoint Protection.

Data Science Blog: Inwieweit spielt Künstliche Intelligenz (KI) bzw. Machine Learning eine Rolle?

Machine Learning spielt heute schon ein ganz wesentliche Rolle. Durch konsequentes Einspeisen der Rohdaten und durch gezielte Algorithmen können mit der Zeit bessere Analysen der Historie und komplexe Zusammenhänge aufbereitet werden. Hinzu kommt, dass so auch die Genauigkeit der Prognosen für die Zukunft immens verbessert werden können.

Als konkretes Beispiel bietet sich die eben erwähnte Endpoint Protection von SentinelOne an. Durch die Verwendung von KI zur Überwachung und Steuerung des Zugriffs auf jedes IoT-Gerät, befähigt  SentinelOne Maschinen, Probleme zu lösen, die bisher nicht in größerem Maßstab gelöst werden konnten.

Hier kommt auch unser ganzheitlicher Ansatz zum Tragen, nicht nur einzelne Bereiche der IT, sondern die unternehmensweite IT ins Visier zu nehmen.

Data Science Blog: Mit was für Menschen arbeiten Sie in Ihrem Team? Sind das eher die introvertierten Nerds und Hacker oder extrovertierte Consultants? Was zeichnet Sie als Team fachlich aus?

Nerds und Hacker würde ich unsere Mitarbeiter im technischen Consulting definitiv nicht nennen.

Unser Consulting Team besteht derzeit aus neun Leuten. Jeder ist ausgewiesener Experte für bestimmte Produkte. Natürlich ist es auch bei uns so, dass wir introvertierte Kollegen haben, die zunächst lieber in Abgeschiedenheit oder Ruhe ein Problem analysieren, um dann eine Lösung zu generieren. Mehrheitlich sind unsere technischen Kollegen aber stets in enger Abstimmung mit dem Kunden.

Für den Einsatz beim Kunden ist es sehr wichtig, dass man nicht nur fachlich die Nase vorn hat, sondern dass man auch  kommunikationsstark und extrem teamfähig ist. Eine schnelle Anpassung an die verschiedenen Arbeitsumgebungen und “Kollegen” bei den Kunden zeichnet unsere Leute aus.

Als ständig verfügbares Kommunikationstool nutzen wir einen internen Chat der allen jederzeit zur Verfügung steht, so dass unser Consulting Team auch beim Kunden immer Kontakt zu den Kollegen hat. Das hat den großen Vorteil, dass das gesamte Know-how sozusagen “im Pool” verfügbar ist.

Neben den Consultants gibt es unser Sales Team mit derzeit vier Mitarbeitern*innen. Diese Kollegen*innen sind natürlich immer unter Strom, so wie sich das für den Vertrieb gehört.
Dedizierte PreSales Consultants sind bei uns die technische Speerspitze für die Aufnahme und das Verständnis der Anforderungen. Eine enge Zusammenarbeit mit dem eigentlichen Consulting Team ist dann die  Voraussetzung für die vorausschauende Planung aller Projekte.

Wir suchen übrigens laufend qualifizierte Kollegen*innen. Details zu unseren Stellenangeboten finden Ihre Leser*innen auf unserer Website unter dem Menüpunkt “Karriere”.  Wir freuen uns über jede/n Interessenten*in.

Über NetDescribe:

NetDescribe steht mit dem Claim Trusted Performance für ausfallsichere Geschäftsprozesse und Cloud-Anwendungen. Die Stärke von NetDescribe sind maßgeschneiderte Technologie Stacks bestehend aus Lösungen mehrerer Hersteller. Diese werden durch selbst entwickelte Apps ergänzt und verschmolzen.

Das ganzheitliche Portfolio bietet Datenanalyse und -visualisierung, Lösungskonzepte, Entwicklung, Implementierung und Support. Als Trusted Advisor für Großunternehmen und öffentliche Institutionen realisiert NetDescribe hochskalierbare Lösungen mit State-of-the-Art-Technologien für dynamisches und transparentes Monitoring in Echtzeit. Damit erhalten Kunden jederzeit Einblicke in die Bereiche Security, Cloud, IoT und Industrie 4.0. Sie können agile Entscheidungen treffen, interne und externe Compliance sichern und effizientes Risikomanagement betreiben. Das ist Trusted Performance by NetDescribe.