レポート

データサイエンティスト協会 木曜勉強会#2 レポート

この記事を読むのに必要な時間:およそ 2 分

『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』

サイバネットシステム株式会社の矢野弘海氏が,toorPIAを用いてのデータ可視化による全体分析について発表しました。

写真2 矢野弘海氏

画像

toorPIAによる0次分析

現在は情報過多であり,情報が埋もれてしまうことがあります。これは情報検索での課題と捉えています。例えば,検索サイトでは実際にほしいデータが後ろのページにあることがあります。

矢野氏は,0次分析としてデータ全体を俯瞰的に視覚化し,全体の傾向を掴むことが良いと述べました。天気図が良い例で,単純な気象情報は数字の羅列で分かりづらいですが,天気図で可視化することで天気情報を把握することが容易になります。

発表で紹介したtoorPIAは,データ正規化や,データ軸を決めることはデータ取り込むだけでデータを俯瞰的にMap化(視覚化)できます。Map化したデータは距離により類似性を表すため,類似性が高いデータがまとまりになります。このまとまりを詳細に分析していくことでデータの傾向を掴めます。

図4 Map化されたデータ

画像

toorPIAを用いた事例として,Twitterのツイートと,センサーデータのMap化の例を紹介されました。Twitterの例では,よくある口コミ、ワードは大きなまとまりとしてMap化されます。外れた所でのまとまりを分析することで,新しい話題のワードを把握することができます。

センサーデータの例では,正常時のデータをMap化しておきます。リアルタイムでセンターデータをMap化し,正常時のまとまりから外れたまとまりを発見することで,異常を早期に発見することができます。

まとめ

データ分析を行う前にデータを俯瞰的に見たほうが好ましいと良く言われています。散布図などで見ることが一般的かと思いますが,とりあえずデータを投入するだけで類似したデータのまとまりをMap化しデータ全体の傾向が掴み易い点が良いです。

ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~

著者プロフィール

清田馨一郎(せいだ けいいちろう)

株式会社インテリジェンス マーケティング企画統括サービス開発部 所属。

インフラまで面倒見れるフルスタックなデータサイエンティストを夢見て独立系SIから現職へ。現実は甘くないと反省しつつ日々修練中。HR/HMを愛するメタル系エンジニア。