Datenschatz und Herausforderung zugleich
Mathematik
Der Bereich der Mathematik bildet die Grundlage für alle angewandten Modellierungen und Analysen. Theoretische Kenntnisse über das Design von Experimenten und Datenanalyse ermöglichen es einem Data Scientisten, Daten zu erheben und grundlegend auszuwerten. Nach einer ersten Analyse werden meist fortgeschrittene statistische Modelle für die detaillierte Zerlegung der Daten genutzt. Hierbei kann auf klassische Modelle der Optimierung oder künstliche Intelligenz zurückgegriffen werden.
Von künstlicher Intelligenz wird gesprochen, wenn Algorithmen verwendet werden, die „selbst“ lernen. Hinter jeder dieser Methoden steht ein statistisches Modell, welches versucht ein gewisses Gütemaß zu optimieren. Diese Maße variieren stark je nach Einsatzbereich der künstlichen Intelligenz.
Informatik
Das zweite Standbein eines Data Scientisten ist die Informatik. Die mathematischen Analysen und statistischen Modelle sollen von einem Programm angewendet werden. Deshalb hat jeder Data Scientist Programmierexpertise. Meist werden hierfür die Programmiersprachen Python und R genutzt.
Die Informatik-Kenntnisse eines Data Scientisten unterscheiden sich meist stark von denen eines Software-Entwicklers. Schließlich liegt der Fokus im Bereich Data Science auf der Verarbeitung, Modellierung und Visualisierung von Daten. Zusätzlich sind meist Kenntnisse in den Bereichen Datenbanken und Cloud-Computing notwendig.
Fachkenntnisse
Letztendlich helfen Branchenwissen und Unternehmenskenntnisse enorm dabei, den Sachzusammenhang der Daten zu verstehen und somit fachlich sinnvolle Analysen und Modelle zu entwickeln. Ein betriebswirtschaftlicher Hintergrund ist deshalb keine Seltenheit. Dies hilft zusätzlich auch bei der Aufbereitung der Erkenntnisse für eine effektive Präsentation vor Entscheidungs
Klassische Anwendungsfälle
Einer der klassischen Anwendungsfälle von Data Science ist das Clustering von Daten. Beispielweise kann es für ein Unternehmen von großem Wert sein, die Kunden in Segmente einzuteilen. Beim Clustering werden lediglich verschiedene Kunden-Datensätze benötigt. Der Algorithmus bestimmt durch Distanzmaße welche Datensätze einem Cluster zugeordnet werden. Das Zentrum des Clusters ist hierbei meist flexibel und kann sich über mehrere Iterationen verändern, um die Daten besser darzustellen.
Das zweite große Feld der Data Science befindet sich im Bereich der Klassifikation. Hierbei ist das Ziel eines Algorithmus vordefinierte Klassen von Datensätzen zu generalisieren und damit neue Daten in Klassen einteilen zu können. Von Entscheidungsbäumen bis hin zu neuronalen Netzen ist bei der Wahl des Algorithmus hierbei keine Grenze gesetzt. Diese Anwendung kann für Unternehmen beispielsweise von Interesse sein, um die Kündigungswahrscheinlichkeit eines Kunden vorherzusagen und präventive Maßnahmen zur Kundenbindung anzustoßen.
In der menschlichen Sprache und in Texten liegt sehr viel an Informationen verborgen, die ein Computer nicht direkt verstehen kann. Der Bereich der Natural Language Processing („NLP“) beschäftigt sich mit der Informationsextraktion aus Texten. Auch dies kann viele verschiedene Anwendungen in einem Unternehmen finden. Ob die Analyse von Social Media Posts oder die Optimierung einer internen Suchmaschine, Natural Language Processing eröffnet viele Möglichkeiten.
Ein weiterer großer Bereich der Data Science ist das Reinforcement Learning. Hierbei werden Algorithmen genutzt, die aus der Simulation einer Umgebung lernen. Ein sogenannter "Agent" hat hierbei die Möglichkeit durch Aktionen Einfluss auf die Umgebung zu nehmen. Durch eine vordefinierte Belohnungsfunktion kann der Agent abschätzen, wie gut die gewählte Aktion im gegebenen Status der Umgebung ist und somit optimal entscheiden. Durch Reinforcement Learning werden nicht nur komplexe Spiele gemeistert, sondern auch Produktionsprozesse optimiert werden. Bei einem Bio-Reaktor könnte der Agent Übersicht über die Temperatur und Kontrolle über die Durchflussrate einer Kühlflüssigkeit erhalten. Die Zielfunktion wäre eine Zieltemperatur und die "Bestrafung" würde sich aus der Differenz der aktuellen und der Zieltemperatur bilden.
Data Science ist vielschichtig einsetzbar, um Prozesse in Unternehmen zu optimieren und neue Erkenntnisse zu sammeln. Die Analysten und Entwickler der committance AG sind in diesen Bereichen speziell ausgebildet und bringen nicht nur die theoretischen Kenntnisse, sondern auch wertvolle Erfahrungen und die richtigen Tools mit in ihr Projekt. Gerne helfen wir Ihnen auch hilfreiche Use Cases in Ihrem Unternehmen zu identifizieren und somit betriebswirtschaftliche Vorteile aus Ihren Daten zu gewinnen.
In einem ersten unverbindlichen Gespräch zeigen wir Ihnen gerne Ihre Möglichkeiten auf.