In einem Bereich wie big data, der sich rasant weiterentwickelt, ist es wichtig, die Fachsprache zu verstehen, und noch wichtiger, den Unterschied zwischen der Rhetorik und dem echten Wertversprechen zu erkennen. In diesem Glossar werden viele der am häufigsten verwendeten und manchmal missverstandenen Begriffe und Konzepte von big data erläutert.

Algorithmus

Ein Algorithmus ist mathematische Logik oder ein Satz von Regeln, mit denen Berechnungen ausgeführt werden. Der Algorithmus beginnt mit einer Eingabe (die 0 oder null sein kann). Die Logik oder die Regeln werden als Reihe von Schritten codiert oder in Software geschrieben. Diese werden beim Ausführen von Berechnungen, Verarbeiten von Daten oder anderen Funktionen befolgt und führen am Schluss zu einer Ausgabe.

Teradata-Erläuterung: Im Kontext von big data sind Algorithmen das wichtigste Mittel zum Aufdecken von Erkenntnissen und Erkennen von Mustern. Sie sind daher wesentlich für die Realisierung des Business Case für big data.

Zurück nach oben

Analyseplattform

Eine Analyseplattform ist eine voll funktionsfähige Technologielösung, die entworfen wurde, um dem Bedarf von Großunternehmen zu entsprechen. Normalerweise verknüpft eine Analyseplattform verschiedene „Tools und Analysesysteme mit einem Modul zur Ausführung, einer Datenbank oder einem Repository zum Speichern und Verwalten der Daten, DataMining-Prozesse sowie Techniken und Mechanismen zum Abrufen und Vorbereiten von nicht gespeicherten Daten. Diese Lösung kann in Form einer reinen Softwareanwendung oder als cloudbasierte Software-as-a-Service-Lösung (SaaS) für Organisationen bereitgestellt werden, die Kontextinformationen benötigen, auf die ihre sämtlichen Datenpunkte zeigen mit anderen Worten, Analyseinformationen auf Basis der aktuellen Datensätze.Quelle: Techopedia (Übersetzung aus dem Englischen)

Zurück nach oben

Behavioral Analytics

Behavioral Analytics ist eine Untergruppe von Business Analytics, mit der Erkenntnisse dazu gewonnen werden, was Verbraucher und Anwendungen tun, wie sie dies tun und warum sie sich auf bestimmte Weise verhalten. Behavioral Analytics ist ein big data-Begriff, der besonders in den Bereichen eCommerce und Online-Einzelhandel, Online-Spiele und Webanwendungen weit verbreitet ist. In der Praxis verbindet Behavioral Analytics scheinbar nicht in Zusammenhang stehende Datenpunkte und erstellt Erklärungen oder Voraussagen zu Ergebnissen, Zukunftstrends oder der Wahrscheinlichkeit von bestimmten Ereignissen. Zum Kern von Behavioral Analytics zählen Daten wie Online-Navigationspfade, Klickströme, SocialMedia-Interaktionen, Einkäufe oder Entscheidungen zum Abbruch des Einkaufs, aber es können auch spezifischere Messwerte dazugehören.

Teradata-Erläuterung: Behavioral Analytics kann allerdings mehr als nur das Nachverfolgen von Personen sein. Die zugehörigen Grundsätze gelten auch für Interaktionen und Dynamiken zwischen Prozessen, Geräten und sogar makroökonomischen Trends.

Zurück nach oben

big data

big data „bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. Quelle: Wikipedia In diesem big data-Glossar werden viele der damit verbundenen Terminologien erläutert.

Teradata-Erläuterung: Zur Beschreibung von big data werden häufig mehrere Begriffe mit „V verwendet: „Volume (Volumen), „Variety (Vielfältigkeit), „Velocity (Geschwindigkeit), „Variability (Variabilität), „Veracity (Richtigkeit). Alle diese Begriffe beziehen sich auf die Komplexität und Schwierigkeit beim Sammeln, Speichern, Verwalten, Analysieren usw. von big data, um „Value (Wert) zu erzeugen (den wichtigsten „V-Begriff).

Zurück nach oben

big data Analysen

„Unter big data Analysen ist die Strategie zur Analyse von großen Datenvolumen zu verstehen …, die aus einer breiten Vielfalt von Quellen gesammelt wurden, einschließlich sozialer Netzwerke, Videos, digitaler Bilder, Sensoren und Datensätzen aus Verkaufstransaktionen. Ziel der Analyse all dieser Daten ist die Aufdeckung von Mustern und Verbindungen, die sonst unter Umständen verborgen bleiben würden, jedoch wertvolle Erkenntnisse über die Anwender liefern können, von denen sie erstellt wurden. Durch diese Erkenntnisse können Unternehmen einen Vorsprung vor ihren Mitbewerbern gewinnen und bessere Geschäftsentscheidungen treffen. Quelle: Techopedia (Übersetzung aus dem Englischen)

Teradata-Erläuterung: Zu big data Analysen gehören verschiedene Methoden oder Tools. In manchen Situationen ist eine Datenvisualisierung erforderlich, während in anderen verbundene Analysen die richtige Antwort darstellen.

Zurück nach oben

Business Intelligence

„Business Intelligence (BI) ist ein Kollektivbegriff, der die Anwendungen, die Infrastruktur und die Tools sowie bewährte Methoden einschließt, die den Zugriff auf und die Analyse von Informationen ermöglichen, um Entscheidungen und Leistung zu verbessern und zu optimieren. Quelle: Gartner (Übersetzung aus dem Englischen). „Unternehmen nutzen BI zur Verbesserung der Entscheidungsfindung, Reduzierung von Kosten und Identifizierung neuer Geschäftschancen. BI ist mehr als nur Unternehmensberichterstellung und eine Reihe von Tools, um Unternehmenssystemen Daten zu entlocken. CIOs verwenden BI, um ineffiziente Geschäftsprozesse zu identifizieren, die reif für eine Umgestaltung sind. Quelle: CIO.com (Übersetzung aus dem Englischen)

Zurück nach oben

Clusteranalyse

Clusteranalyse oder Clustering ist eine statistische Klassifikationstechnik oder -aktivität, bei der eine Reihe von Objekten oder Daten so gruppiert wird, dass sich diejenigen in derselben Gruppe (Cluster genannt) ähnlich sind, aber von denen in anderen Clustern unterscheiden. Für Data Mining und Discovery ist Clustering unentbehrlich. Es findet häufig auch Verwendung im Kontext von maschinellem Lernen, Mustererkennung und Bildanalyse sowie in der Bioinformatik und weiteren Bereichen, in denen umfangreiche Datensätze analysiert werden.

Zurück nach oben

Vergleichende Analyse

Bei der vergleichenden Analyse werden mindestens zwei Prozesse, Dokumente, Datensätze oder andere Objekte miteinander verglichen. Musteranalysen, Filter und Entscheidungsstrukturanalysen sind Formen der vergleichenden Analyse. Im Gesundheitswesen wird die vergleichende Analyse verwendet, um große Mengen an Krankenakten, Dokumenten, Bildern, Sensordaten und anderen Informationen zu vergleichen und damit die Effektivität von medizinischen Diagnosen zu bewerten.

Zurück nach oben

Connection Analytics

Connection Analytics ist eine aufstrebende Disziplin, mit der miteinander in Beziehung stehende Verbindungen und Einflüsse zwischen Personen, Produkten, Prozessen, Computern und Systemen innerhalb eines Netzwerks ermittelt werden. Dies geschieht durch die Zuordnung dieser Verbindungen und die kontinuierliche Beobachtung der Interaktionen zwischen ihnen. Connection Analytics wird für schwierige, anhaltende Geschäftsfragen verwendet, zum Beispiel im Hinblick auf den Einfluss führender Experten, die Auswirkung externer Ereignisse oder Akteure auf finanzielle Risiken und die kausalen Beziehungen zwischen Knoten bei der Bewertung von Netzwerkleistung.

Zurück nach oben

Korrelationsanalyse

Bei der Korrelationsanalyse werden die statistische Analyse und andere mathematische Techniken angewendet, um die Beziehungen zwischen Variablen zu bewerten oder zu messen. Sie kann genutzt werden, um die wahrscheinlichste Gruppe von Faktoren zu definieren, die zu einem bestimmten Ergebnis führen zum Beispiel dazu, dass ein Kunde auf ein Angebot antwortet oder auf die Entwicklung an den Finanzmärkten reagiert.

Zurück nach oben

Datenanalyst

Die Hauptaufgaben von Datenanalysten sind das Sammeln, Bearbeiten und Analysieren von Daten. Außerdem gehört die Vorbereitung von Berichten dazu, unter anderem Grafiken, Diagramme, Dashboards und andere Visualisierungen. Im Allgemeinen fungieren Datenanalysten auch als Hüter oder Wächter der Daten einer Organisation und stellen sicher, dass die Informationsbestände konsistent, vollständig und aktuell sind. Viele Datenanalysten und Business-Analysten sind dafür bekannt, über bemerkenswertes technisches Wissen und große Branchenerfahrung zu verfügen.

Teradata-Erläuterung: Datenanalysten sind an der entscheidenden Operationalisierung von big data innerhalb von bestimmten Funktionen und Prozessen beteiligt und legen den Schwerpunkt dabei auf Leistungstrends und betriebliche Informationen.

Zurück nach oben

Data Mining

„Beim Data Mining werden unterschiedliche Perspektiven zur Analyse versteckter Datenmuster verwendet, um eine Kategorisierung in nützliche Informationen auszuführen. Diese Informationen werden in gemeinsamen Bereichen, z.B. Data Warehouses/Datenbanken, gesammelt und assembliert und dort für Informationsanforderungen verwendet, die letztendlich Kosten senken und den Ertrag steigern sollen, unter anderem für effiziente Analysen, DataMining-Algorithmen oder Geschäftsentscheidungen. Data Mining wird auch als Data Discovery und Wissensentdeckung bezeichnet. Quelle: Techopedia (Übersetzung aus dem Englischen)

Zurück nach oben

Datenmodell/Datenmodellierung

„Datenmodellierung ist die Analyse von Datenobjekten, die in einem geschäftlichen oder anderen Kontext verwendet werden, und die Identifikation von Beziehungen zwischen diesen Datenobjekten. Ein Datenmodell kann man sich wie ein Diagramm oder Flussdiagramm vorstellen, das die Beziehungen zwischen Daten illustriert. Quelle: TechTarget (Übersetzung aus dem Englischen)

Teradata-Erläuterung: Datenmodelle, die für bestimmte Branchen oder Unternehmensfunktionen maßgeschneidert sind, können eine tragfähige Grundlage oder einen schnelleren Start für Programme oder Investitionen für big data bieten.

Zurück nach oben

Data Warehouse/Datenbank

In der Datenverarbeitung ist ein Data Warehouse (DW oder DWH, auch als Enterprise Data Warehouse, EDW, bezeichnet), „eine Datenbank, in der Daten aus unterschiedlichen Quellen in einem einheitlichen Format zusammengefasst werden (Informationsintegration). Die Daten werden von den Datenquellen bereitgestellt und [...] vor allem für die Datenanalyse [...] und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen [...] langfristig gespeichert. DWs sind „die zentrale Komponente eines Data-Warehouse-Systems. Daten werden aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach [...] geladen zu werden. „Der Erstellung [...] liegen zwei Leitgedanken zugrunde: 1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um [...] eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen. 2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die [...] etwa für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden. Quelle: Wikipedia

Zurück nach oben

Descriptive Analytics

Descriptive Analytics wird als grundlegendster Analysetyp betrachtet, bei der big data in kleinere Teile nutzbarer Informationen unterteilt wird, sodass Unternehmen erkennen können, was mit einem bestimmten Ablauf, Prozess oder Satz von Transaktionen passiert ist. Descriptive Analytics bietet Einblick in aktuelles Kundenverhalten und Unternehmenstrends, um Entscheidungen über Ressourcenzuweisungen, Prozessverbesserungen und das gesamte Leistungsmanagement zu unterstützen. Laut den meisten Branchenkennern wird heute in Unternehmen diese Analyseform am meisten verwendet.

Teradata-Erläuterung: Eine tragfähige Grundlage aus Descriptive Analytics auf der Basis einer soliden, flexiblen Datenarchitektur bietet die Genauigkeit und das Vertrauen in die Entscheidungsfindung, die die meisten Unternehmen im Zeitalter von big data benötigen, insbesondere, wenn sie nicht von großen Datenvolumen überflutet werden möchten. Was noch wichtiger ist: Descriptive Analytics ermöglicht weitere Advanced Analytics-Funktionen, speziell Predictive Analytics und Prescriptive Analytics. Erläuterungen dazu finden Sie hier im big data-Glossar.

Zurück nach oben

Hadoop

Hadoop ist eine verteilte Datenmanagementplattform bzw. ein OpenSource-Softwareframework zum Speichern und Verarbeiten von big data. Es wird manchmal als ein vermindertes verteiltes Betriebssystem beschrieben. Hadoop ist darauf ausgelegt, mit enormen Mengen von Daten zu arbeiten und diese zu verwalten, und bietet lineare Skalierbarkeit für große Cluster aus Tausenden von herkömmlichen Computern. Ursprünglich für Yahoo! entwickelt, ist Hadoop jetzt über die Apache Software Foundation kostenlos öffentlich verfügbar. Für die Verwendung sind jedoch normalerweise umfassende Programmierkenntnisse erforderlich.

Zurück nach oben

Internet der Dinge (Internet of Things, IoT)

Ein Konzept, das die Verbindung von alltäglichen physischen Gegenständen und Produkten mit dem Internet beschreibt, sodass diese (über eindeutige Bezeichner) von anderen Geräten erkennbar sind und zu diesen in Beziehung gesetzt werden können. Der Begriff steht in engem Zusammenhang mit Machine-to-Machine-Kommunikation (M2M) und der Entwicklung von beispielsweise „Smart Grids für Hilfsprogramme, Remoteüberwachung und andere Innovationen. Im Jahr 2020 werden nach einer Schätzung von Gartner 26Milliarden Geräte verbunden sein, darunter Fahrzeuge und Kaffeemaschinen.

Teradata-Erläuterung: In der Zukunft wird big data noch mehr zunehmen, und dazu trägt das IoT wesentlich bei. Die Verbindungen von tragbaren Geräten und Sensoren bedeuten eine ansteigende Menge und mehr Vielfalt sowie eine höhere Geschwindigkeit von Feeds.

Zurück nach oben

Maschinelles Lernen

„Maschinelles Lernen ist eine Art von künstlicher Intelligenz (KI), die Computer mit der Fähigkeit zum Lernen ausstattet, ohne ausdrücklich dazu programmiert zu sein. Es werden Computerprogramme entwickelt, die sich selbst anweisen, zu wachsen und sich zu verändern, wenn sie neuen Daten ausgesetzt werden. Der Prozess des maschinellen Lernens ist dem von Data Mining ähnlich. Beide Systeme durchsuchen Daten nach Mustern. Anstatt Daten für Menschen zu extrahieren, um sie verständlich zu machen wie bei DataMining-Anwendungen der Fall werden die Daten beim maschinellen Lernen dazu genutzt, das eigene Programm zu verbessern. Programme für maschinelles Lernen entdecken Muster in Daten und passen die Programmaktionen entsprechend an. Quelle: TechTarget (Übersetzung aus dem Englischen)

Teradata-Erläuterung: Maschinelles Lernen ist in einem Kontext von big data insofern besonders leistungsfähig, als Maschinen Hypothesen anhand von großen Datenvolumen testen können, Geschäftsregeln für sich ändernde Bedingungen verfeinern und Anomalien schnell und genau identifizieren können.

Zurück nach oben

Metadaten

„Metadaten sind Daten, die andere Daten beschreiben. Sie fassen grundlegende Informationen über diese anderen Daten zusammen, wodurch es einfacher wird, bestimmte Instanzen von Daten zu finden und mit ihnen zu arbeiten. Zum Beispiel zählen Verfasser, Erstell- und Änderungsdatum sowie Dateigröße zu den grundlegendsten Dokumentmetadaten. Außer für Dokumentdateien werden Metadaten für Bilder, Videos, Tabellenkalkulationen und Webseiten verwendet. Quelle: TechTarget (Übersetzung aus dem Englischen)

Teradata-Erläuterung: Die effektive Verwaltung von Metadaten ist ein essenzieller Teil von stabilen und flexiblen Ökosystemen von big data, denn dadurch können Unternehmen ihre Datenbestände effizient verwalten und für Data Scientists und andere Analysten zur Verfügung stellen.

Zurück nach oben

Natürliche Sprachverarbeitung

Bei der natürlichen Sprachverarbeitung, einem Zweig der künstlichen Intelligenz, wird menschliche Sprache in geschriebener oder gesprochener Form für Computer verständlich gemacht. Als wissenschaftliche Disziplin umfasst die natürliche Sprachverarbeitung Aufgaben wie die Identifizierung von Satzstrukturen und -grenzen in Dokumenten, die Ermittlung von wichtigen Wörtern oder Phrasen in Audioaufnahmen, die Extraktion von Beziehungen zwischen Dokumenten und die Aufdeckung von Bedeutungen in informellen oder umgangssprachlichen Sprachmustern. Die natürliche Sprachverarbeitung kann die Analyse und Erkennung von Mustern in verbalen Daten ermöglichen, die noch unstrukturiert sind.

Teradata-Erläuterung: Mit der natürlichen Sprachverarbeitung sind erhebliche Fortschritte bei der Textanalyse möglich. Es können vertiefte und potenziell leistungsfähigere Einblicke in SocialMedia-Datenströme gewonnen werden, wo Umgangssprache und unkonventionelle Sprache vorherrschen.

Zurück nach oben

Mustererkennung

Eine Mustererkennung findet statt, wenn ein Algorithmus wiederholtes Auftreten oder Regelmäßigkeiten innerhalb von großen Datensätzen oder über getrennte Datensätze hinweg findet. Der Begriff ist eng mit maschinellem Lernen und Data Mining verknüpft und wird sogar mit diesen gleichgesetzt. Durch diese Sichtbarkeit können Forscher Einblicke gewinnen oder zu Schlussfolgerungen gelangen, die andernfalls verborgen bleiben würden.

Zurück nach oben

Predictive Analytics

Predictive Analytics ist die Analyse von big data, um Vorhersagen zu erstellen und die Wahrscheinlichkeit von zukünftigen Ergebnissen, Trends oder Ereignissen zu bestimmen. Diese Analyse kann in Unternehmen zur Modellierung verschiedener Szenarios verwendet werden: Wie reagieren Kunden auf neue Produktangebote oder Werbung, oder wie können sich extreme Wettermuster oder Nachfragespitzen auf die Lieferkette auswirken? Zu Predictive Analytics können mehrere statistische Techniken gehören, unter anderem Modellierung, maschinelles Lernen und Data Mining.

Zurück nach oben

Prescriptive Analytics

Eine Form oder Erweiterung von Predictive Analytics. Prescriptive Analytics wird genutzt, um spezifische Aktionen zu empfehlen oder vorzuschreiben, wenn bestimmte Informationsstatus erreicht oder Bedingungen erfüllt werden. Es werden Algorithmen, mathematische Techniken und/oder Geschäftsregeln verwendet, um eine Auswahl zwischen mehreren unterschiedlichen Aktionen zu treffen. Diese Aktionen sind auf ein Ziel ausgerichtet, z.B. die Verbesserung der Unternehmensleistung. Dabei werden verschiedene Anforderungen oder Einschränkungen erkannt.

Zurück nach oben

Semi-strukturierte Daten

Semi-strukturierte Daten sind Daten, die nicht auf konventionelle Weise erfasst oder formatiert wurden, wie in herkömmlichen Datenbankfeldern oder gebräuchlichen Datenmodellen. Es sind auch keine Rohdaten oder vollständig unstrukturierte Daten. Sie können einige Datentabellen, Tags oder andere Strukturelemente enthalten. Grafiken und Tabellen, XML-Dokumente sowie E-Mails sind Beispiele für semi-strukturierte Daten. Sie sind im World Wide Web sehr verbreitet und häufig in objektorientierten Datenbanken zu finden.

Teradata-Erläuterung: Semi-strukturierte Daten nehmen stark zu und enthalten einige rationale Daten. Unternehmen müssen sie daher in ihren Programmen und Datenarchitekturen von big data berücksichtigen.

Zurück nach oben

Sentimentanalyse

Die Sentimentanalyse beinhaltet die Erfassung und Nachverfolgung von Meinungen oder Gefühlen, die von Verbrauchern in verschiedenen Arten von Interaktionen oder Dokumenten geäußert werden, unter anderem in Social Media, Anrufen bei Kundendienstmitarbeitern, Umfragen und Ähnlichem. Im Prozess der Sentimentanalyse werden typischerweise Textanalyse und natürliche Sprachverarbeitung verwendet. Das Ziel besteht in der Bestimmung bzw. Einschätzung der Meinung oder Haltung in Äußerungen über Unternehmen, Produkte, Dienstleistungen, Personen oder Ereignisse.

Teradata-Erläuterung: Die Sentimentanalyse ist besonders wichtig, um aufkommende Trends oder Wahrnehmungsänderungen in Social Media nachzuverfolgen. In Umgebungen für big data können mit der Sentimentanalyse in Kombination mit Behavioral Analytics und maschinellem Lernen sogar noch mehr wertvolle Erkenntnisse gewonnen werden.

Zurück nach oben

„V-Begriffe

Wenn big data und die damit verknüpften geschäftlichen Herausforderungen und Chancen beschrieben und diskutiert werden, fallen häufig die folgenden englischsprachigen „V-Begriffe:

  • Value (Wert): Aus der Sicht des Unternehmens das wichtigste „V. Die Wertschöpfung durch big data resultiert normalerweise aus den entdeckten Erkenntnissen und der Mustererkennung, die zu effektiveren Abläufen, stärkeren Kundenbeziehungen und anderen deutlichen, quantifizierbaren Geschäftsvorteilen führen.
  • Variability (Variabilität): Die Veränderungen der Daten, die von den Unternehmen erfasst, verwaltet und analysiert werden, beispielsweise in Sentiment- oder Textanalysen die Veränderungen in der Bedeutung von wichtigen Wörtern oder Phrasen.
  • Variety (Vielfältigkeit): Die Bandbreite verschiedenartiger Datentypen, darunter unstrukturierte und semi-strukturierte Daten sowie Rohdaten.
  • Velocity (Geschwindigkeit): Die Geschwindigkeit, in der Unternehmen Daten empfangen, speichern und verwalten, also beispielsweise die konkrete Anzahl von SocialMedia-Beiträgen oder Suchanfragen, die an einem Tag, in einer Stunde oder in einer anderen Zeiteinheit empfangen wurden.
  • Veracity (Richtigkeit): Der Wahrheitsgehalt bzw. die Richtigkeit von Daten und Informationsbeständen. Durch diesen Faktor wird häufig das Vertrauen auf Führungskraftebene bestimmt.
  • Volume (Volumen): Die Größe und Menge von big data, die die Unternehmen verwalten und analysieren.

Zurück nach oben