ビッグデータのような変化の激しい分野では、専門用語の意味を正しく理解し、大げさな形容にとらわれずに真の価値提案を見極めることが重要です。 テラデータのビッグデータ用語集では、最も一般的な(ときに誤解されがちでもある)ビッグデータ用語および言語や概念の多くを取り上げています。

アルゴリズム

アルゴリズムとは、計算に使用される数学的「ロジック」または一連の規則です。 計算の実施やデータの処理、その他の機能の実行における手順として、初期入力(ゼロまたはヌル)を経てロジックまたは規則のコーディングまたはソフトウェアへの書き込みが行われ、最終的に何らかの出力に至ります。

テラデータによる補足: ビッグデータというコンテキストにおいて、アルゴリズムは知見を取得し、パターンを検出するための最大の手段です。 つまり、ビッグデータの投資効果の実現に不可欠な存在であると言えます。

トップに戻る

分析プラットフォーム

分析プラットフォームは、大企業のニーズに対応すべく設計されたフル機能の技術的ソリューションです。 一般に、「ツールおよび分析システムに加え、実行エンジン、データを保存・管理するデータベースまたはリポジトリ、データマイニングプロセス、保存されていないデータの取得・準備を行う技術およびメカニズム」といったさまざまな要素を包含しています。 「このソリューションは、データが指し示すコンテキスト情報(つまり最新のデータ記録に基づく分析情報)を必要とする企業に対し、ソフトウェアオンリーのアプリケーションまたはクラウドベースのサービスとしてのソフトウェア(SaaS: Software as a Service)の形で提供されます」(英語版出典: Techopedia)

トップに戻る

行動分析

行動分析はビジネス分析のサブセットであり、消費者およびアプリケーションの動きや、特定のアクションの原理および理由の理解に努めます。 eコマースおよびオンライン小売業、オンラインゲーム、ウェブアプリケーションの分野で特に顕著に活用されています。 行動分析は、一見無関係なデータポイント同士を結び付け、結果や今後のトレンド、特定のイベントが発生する可能性について説明または予測を試みます。 行動分析の核となるのは、オンラインナビゲーションパスやクリックストリーム、ソーシャルメディアでのインタラクション、購入またはショッピングカートの途中放棄などのデータですが、実際にはさらに具体的な指標が含まれる場合もあります。

テラデータによる補足: しかし、行動分析は人々の動きを追跡するだけではありません。 プロセスや機械、装置のほか、マクロ経済のトレンドなどのインタラクションや動向にも、その原理を応用することができます。

トップに戻る

ビッグデータ

「ビッグデータとは、従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑なデータセットの集合を包括的に指す用語です」(英語版出典: Wikipedia)

テラデータによる補足: ビッグデータは、しばしばVの付くキーワードで説明されます。量(volume)、種類(variety)、速度(velocity)、可変性(variability)、正確性(veracity)といったこれらのキーワードは、ビッグデータの収集および格納、管理、分析、そして最も重要な「V」である価値(value)の創出に向けた実用化がいかに複雑かつ困難であるかを集合的に表しています。

トップに戻る

ビッグデータ分析

「ビッグデータ分析とは、ソーシャルネットワークや動画、デジタル画像、センサー、販売取引記録など、あらゆるソースから収集された大量のデータに対する分析戦略を意味します。 これらのデータの分析の目的は、表面化していないパターンや関連性を見出し、作成したユーザーに関する有用な知見を得ることです。 企業はこの知見に基づいて競合に対する優位を確立し、有利な意思決定を下すことも可能です」(英語版出典: Techopedia)

テラデータによる補足: ビッグデータ分析は、1つの動作や1つのツールに留まるものではありません。 状況により、ビッグデータのビジュアライゼーションが必要な場合もあれば、関係性分析が妥当な場合もあります。

トップに戻る

ビジネス・インテリジェンス

「ビジネス・インテリジェンス(BI)は、アプリケーションおよびインフラストラクチャ、ツールを含む包括的用語であり、意思決定とパフォーマンスを改善し、最適化するための情報へのアクセスとその分析を可能にするベストプラクティスを意味します」(英語版出典: Gartner)。「企業は、意思決定の改善やコスト削減、新たなビジネスチャンスの特定のためにBIを活用します。 BIは、企業におけるレポーティングや、エンタープライズシステムからデータをあぶり出すためのツールのみを意味するものではありません。 CIOは、再構築すべき時を迎えた未熟なビジネスプロセスの特定にもBIを活用しています」(英語版出典: CIO.com)

トップに戻る

クラスタ分析

クラスタ分析またはクラスタリングとは、統計的分類の手法またはその作業であり、オブジェクトやデータの集合を分類し、互いに類似したものを同じグループ(これをクラスタと呼ぶ)にまとめ、クラスタごとにその特徴が異なるようにすることを指します。 これはデータマイニングおよびディスカバリーに不可欠であり、大規模なデータセット分析を行うバイオインフォマティクスなどの分野、ならびに機械学習やパターン認識、画像分析といったコンテキストでよく使用されます。

トップに戻る

比較分析

比較分析とは、2つ以上のプロセスまたは文書、データセット、その他オブジェクトの比較を意味します。 パターン分析やフィルタリング、ディシジョンツリー分析は、いずれも比較分析の形態の例です。 医療業界では、比較分析を用いて医療記録や文書、画像、センサーデータなどの大量の情報を比較し、診断の有効性評価を行います。

トップに戻る

関係性分析

関係性分析は、1つのネットワーク内の人や製品、プロセス、機械、システム間の関係性をマッピングし、それらのインタラクションを継続的に監視することで相関関係や影響を見出すという新たなアプローチです。 たとえばオピニオンリーダーの影響力、外部のイベントやプレーヤーが財務リスクに及ぼす影響、あるいはネットワークパフォーマンスの評価におけるノード間の因果関係といった、困難かつ長期的なビジネス上の課題への対処に用いられます。

トップに戻る

相関分析

相関分析とは、統計分析およびその他の数学的手法を応用して、変数間の関係を評価・検討することです。 これを用いて、特定の結果(あるオファーに対する顧客の反応や金融市場のパフォーマンスなど)を導く可能性が高い要因を特定できます。

トップに戻る

データアナリスト

データアナリストの主なタスクは、データの収集および操作、分析、ならびにレポートの作成(場合によりグラフやチャート、ダッシュボードなどのビジュアライゼーションを伴う)です。 また、データアナリストは一般に企業のデータを監視・保護する役割を担い、情報資産の一貫性および完全性、即時性を確保します。 データアナリストおよびビジネスアナリストの多くは、豊富な技術的知識を有し、業界にも精通しています。

テラデータによる補足: データアナリストは、特定の部門やプロセスにおけるビッグデータの実用化をサポートするという重要な役割を担い、その職務においてはパフォーマンストレンドと経営関連情報に主眼が置かれます。

トップに戻る

データマイニング

「データマイニングは、データウェアハウスなどの共有エリアから収集されたデータに潜むパターンをさまざまな視点から分析し、有用な情報として分類するプロセスです。効率的な分析、データマイニングアルゴリズム、ビジネス上の意思決定の促進などの要件の充足をサポートし、最終的にはコスト削減と収益増を目指します。 データマイニングは、データディスカバリーまたはナレッジディスカバリーとも呼ばれます」(英語版出典: Techopedia)

トップに戻る

データモデル/データモデリング

「データモデリングは、ビジネスまたはその他のコンテキストで用いられるデータオブジェクトの分析、およびデータオブジェクト間の関係の特定を指します。 データモデルは、データ間の関係を示した図またはフローチャートと言ってもよいでしょう」(英語版出典: TechTarget)

テラデータによる補足: 特定の業界または事業部門に合わせてカスタマイズされたデータモデルは、ビッグデータ関連のプログラムや投資に確固たる基盤を提供し、その成功を後押しするでしょう。

トップに戻る

データウェアハウス

「コンピューティングにおいて、データウェアハウス(DWまたはDWH)はエンタープライズ・データウェアハウス(EDW)とも呼ばれ、レポーティングおよびデータ分析に使用されるシステムを意味します。 DWは、1つまたは複数の異種ソースからの統合データを保存する中央リポジトリです。 現在および過去のデータが保存され、年次または四半期ごとの比較などをシニアマネジメントに報告するトレンドレポートの作成に使用されます。 なお、ウェアハウスに保存されるデータは、マーケティング、販売などの各種業務システムからアップロードされます」(英語版出典: Wikipedia)

トップに戻る

記述的分析

記述的分析は最も基礎的な分析とされ、企業はこれを使用してビッグデータを少量の実用的な情報の集合へと分解することで、具体的な業務やプロセス、一連のトランザクションの状況を理解できます。 記述的分析は最新の顧客行動や経営トレンドに関する知見を提供し、リソースの割り当てやプロセスの改善、パフォーマンス管理全般に関する意思決定をサポートします。 業界観測筋の多くは、今日の企業が使用する分析の大半を記述的分析が占めていると見ています。

テラデータによる補足: 記述的分析の確固たる基盤、すなわち堅牢かつ柔軟なデータアーキテクチャは、このビッグデータ時代に(巨大なデータ容量に圧倒されることなく)自信を持って的確な意思決定を下すという多くの企業のニーズを満たします。 さらに、記述的分析は、最終的により高度な分析(特に予測分析および処方的分析)能力の習得を促します。

トップに戻る

Hadoop

Hadoopは、ビッグデータの格納と処理を実行する分散型のデータマネジメントプラットフォームであり、オープンソースのソフトウェアフレームワークですが、 縮小版、分散型のオペレーティングシステムであるという見方もあります。 膨大なデータの管理と操作を担い、市販のコンピュータ数千台規模へと直線的に拡張可能です。 当初はYahoo!による使用を想定して開発されましたが、現在はApache Software Foundationから無料で入手できます。ただし、その使用には通常、広範なプログラミングの知識が必要です。

トップに戻る

モノのインターネット(IOT)

日常的な物理的物品や製品をインターネットに接続することで、それらが(一意の識別子によって)認識され、他の機器と関連付けられるようにするという概念です。 この用語は、機械間の通信や、ユーティリティ分野の「スマートグリッド」、リモートモニタリング、その他革新技術の開発と密接に関連しています。 ガートナ―は、2020年までに、自動車やコーヒーメーカーを含む260億台の機器の接続が実現すると予測しています。

テラデータによる補足: ビッグデータの規模は今後拡大する一方であり、IOTはその主要因となります。 特にウエラブルやセンサーとの接続により、量と種類の増大、フィードの加速が予想されます。

トップに戻る

機械学習

「機械学習は人工知能(AI)の一種であり、コンピュータに、明示的にプログラムされることなく学習する能力を与えるものです。 その主眼は、コンピュータが新しいデータに接した際に自ら進化を遂げ、変更を加えられるようなプログラムの開発に置かれています。 機械学習のプロセスは、データ探索を行い、パターンを探すシステムであるという点で、データマイニングと類似しています。 ただし、データマイニングアプリケーションでは人間が理解できるようデータが抽出されるのに対し、機械学習においてはプログラムが自らデータへの理解を深めます。 機械学習プログラムはデータ内のパターンを検出し、それに応じてアクションを調整します」(英語版出典: TechTarget)

テラデータによる補足: 機械が大量のデータを用いて仮説を検証したり、状況の変化に応じてビジネスルールを改定したり、異常や不審値を素早く正確に特定できるという点で、機械学習はビッグデータというコンテキストでは特に有用です。

トップに戻る

メタデータ

「メタデータは、他のデータについて説明するデータです。 データの基本的な情報を要約したものがメタデータであり、これによってデータの特定のインスタンスの検出や操作が容易になります。 たとえば、作成者および作成日、変更日、ファイルサイズは、文書の最も基本的なメタデータです。 メタデータは、文書ファイルのほか、画像や動画、スプレッドシート、ウェブページにも使用されます」(英語版出典: TechTarget)

テラデータによる補足: メタデータの有効な管理は、データサイエンティストやその他のアナリストによる使用に向けたデータ資産のより効率的な管理に役立つという意味で、堅牢かつ柔軟なビッグデータ「エコシステム」に不可欠な要素のひとつです。

トップに戻る

自然言語処理

自然言語処理(NLP)は人工知能の一分野であり、人間が使用する言語(口頭および記述の両形式)をコンピュータに理解させることを意味します。 NLPは科学的分野でもあり、そのタスクには、文の構造や文書内の境界の認識、録音された音声内のキーワードやキーフレーズの検出、文書間の関係の特定、口語やスラングなどの表現方法の意味の理解などがあります。 NLPを活用すれば、体系化されていない音声データの分析やパターン認識も可能になります。

テラデータによる補足: NLPはテキスト分析の大きな進歩の鍵を握っており、型にはまらない言語やスラングが主流となるソーシャルメディアのデータストリームからより優れた知見を得るのに有力な手段です。

トップに戻る

パターン認識

パターン認識とは、アルゴリズムによって大規模なデータセット内または異種のデータセット間での反復や規則性が見出されることを意味します。 機械学習やデータマイニングと密接に関連し、これらと同義に扱われることもあります。 これによって通常は表面化していない情報が可視化されるため、研究者がそこから知見を得たり何らかの結論に至るのに役立ちます。

トップに戻る

予測分析

予測分析とは、ビッグデータを分析して将来の予測を行い、結果やトレンド、イベントの可能性を判断することを意味します。 ビジネスにおいては、新製品やプロモーションに対する顧客の反応、あるいは異常な気象パターンや需要の急増がサプライチェーンに及ぼしうる影響など、さまざまなシナリオのモデル化に活用されます。 予測分析には、場合によりモデリングや機械学習、データマイニングなど、さまざまな統計的手法が用いられます。

トップに戻る

処方的分析

処方的分析は予測分析の一種、またはその延長線上にあり、所定の状況が生じたり条件が満たされた場合の具体的なアクションを提案または指示するのに使用されます。 アルゴリズムおよび数学的手法、ビジネスルールを活用して、複数の選択肢の中から、目標(ビジネスパフォーマンスの改善など)と調和し、あらゆる要件や制約を踏まえたアクションの選択を可能にします。

トップに戻る

半構造化データ

半構造化データとは、従来の方法でキャプチャまたはフォーマットされていないデータ(従来のデータベースフィールドまたは一般的なデータモデルに関連付けられたデータなど)を指します。 ただし生データとは異なり、まったく構造化されていないわけではなく、データテーブルやタグ、その他の構造要素を含む場合があります。 グラフや表、XML文書、メールなどが半構造化データの例であり、これらはワールド・ワイド・ウェブ上の各所に見られるほか、オブジェクト指向のデータベース内にも散見されます。

テラデータによる補足: 半構造化データは急速に増加しており、合理的なデータを含んでもいるため、企業はビッグデータプログラムおよびデータアーキテクチャにおけるその存在を把握しておく必要があります。

トップに戻る

感情分析

感情分析は、ソーシャルメディアやカスタマーサービスへの電話、アンケートなどのさまざまなインタラクションまたは文書を通じて消費者が表明した意見や感情、考えをキャプチャおよび追跡するものです。 テキスト分析および自然言語処理は、感情分析のプロセスに含まれる典型的な要素です。 目的は、企業または製品、サービス、人員、イベントに対して表明された心理や姿勢を特定したり、その評価を行うことです。

テラデータによる補足: 感情分析は、ソーシャルメディア上の新しいトレンドや感覚の変化の追跡において特に重要です。 ビッグデータ環境においては、感情分析を行動分析および機械学習と組み合わせて活用することで、さらに有用な知見を得られるでしょう。

トップに戻る

「V」のキーワード

ビッグデータ(およびこれに付随するビジネス上の課題と機会)は、しばしばVの付くキーワードで語られます。

  • 価値(Value): ビジネスという観点から見て最も重要な「V」。ビッグデータの価値は一般に、より有効な経営や顧客との強固な関係、その他明確かつ定量化可能なビジネス上のメリットにつながる知見の取得とパターン認識から生まれる
  • 可変性(Variability): 企業が収集および管理、分析(感情トまたはテキスト分析など)しようとするデータの性質の変化、また、キーワードやキーフレーズの意味の変化
  • 種類(Variety): 非構造化データや半構造化データ、生データを含むデータタイプの多彩さ、多様性
  • 速度(Velocity): データの受信および保存、管理の速度(1日または1時間など所定の時間内におけるソーシャルメディアへの投稿数や検索クエリ数といった具体的数値)
  • 正確性(Veracity): エグゼクティブが自信を持って意思決定を下すための、データおよび情報資産の信憑性または正確性
  • 量(Volume): 企業が管理・分析するビッグデータのサイズと容量

トップに戻る