レポート

2年の歳月をかけて作成した1枚の図はデータ基盤構築の羅針盤となるか~「実践的データ基盤への処方箋の刊行にあたって」パネルディスカッションレポート

この記事を読むのに必要な時間:およそ 4.5 分

2021年12月10日,データマネジメント領域に特化した「Tech × Marketing Conference 2021」がオンライン形式で開催されました。

同イベントでは,データマネジメントというテーマを軸に,データ整備,ツールやサービス,データ基盤構築といったさまざまな視点から,豪華登壇者による10のセッションが行われました。当日の各セッションの様子はYouTubeチャンネルで公開されています。

本稿は「実践的データ基盤への処方箋の刊行にあたって」と題して行われたパネルディスカッションを再構成し,ダイジェストとしてお送りします。なお,このパネルディスカッションのアーカイブはYouTubeで公開しています

データ基盤構築でよく聞くお悩み

パネルディスカッションの冒頭では,データ基盤構築の際に挙げられる悩みについて,執筆者が書籍の内容を引用しながら深堀りしていきました。


高屋:「データ基盤の構築がうまくいかない」っていうお話をよく聞くんですよね。⁠執筆にあたって)どんなお悩みがあるかをまず挙げました。

データ基盤構築におけるお悩み

データ基盤構築におけるお悩み

(⁠⁠実践的データ基盤への処方箋』「はじめに」より)

これは本書の「はじめに」で掲載しています。この中のいくつかについて詳しく伺います。⁠社内に散らばるデータを集めたら,そのあと何をしたら良いかわからない」これはどういうことなんでしょうか?

ゆずたそ:よく大きな会社でデータ統合プロジェクトとかをやったりします。複数の部署でデータを集めましょうとか。集めたあとに何をするのか決まらないまま,そういったプロジェクトが始まったりするんです。提案資料を見ると「データを集めることによる効率的なマーケティング」とか書いてあるんですけど,具体的にどのデータをどの施策につなげてどういう風に使って,それで売上はどのぐらい上がるのかって話がまったくないまま,データ統合プロジェクトが急に始まっちゃうんですね(笑⁠⁠。結局3年後に一応できるはできるけど,それではい終わり,みたいなことがあると思ってます。こういう話は結構あるんじゃないかと思ってますね。

画像

ゆずたそ@yuzutas0

本名:横山翔。令和元年創業・東京下町のITコンサルティング会社「風音屋」代表。日本におけるDataOpsの第一人者。慶應義塾大学経済学部にて計量経済学を専攻。リクルートやメルカリ,ランサーズでデータ活用を推進。広告配信最適化や営業インセンティブ設計など,データを駆使した業務改善を得意とする。コミュニティ活動では,DevelopersSummitのコンテンツ委員やDataEngineeringStudyのモデレーターを担当し,データ基盤やダッシュボードの構築について積極的に情報発信している。当面の目標は100社のデータ活用を支援して各産業の活性化に貢献すること。著書に『個人開発をはじめよう!』⁠データマネジメントが30分でわかる本』がある。

高屋:「ずっとメンテナンスしてきた分析レポートが,実はなんの意思決定にも使われていなかった」これはどういうことですか?

伊藤:こういうデータが見たいから,こういうレポートが欲しいですっていう強い依頼がよくあるんですね。それで,すごくニーズがあるんだなと思って作りこんだ分析レポート/ダッシュボードがあって,それをずっとメンテナンスし続けている。蓋を開けてみると,その人が見たいっていうだけの指示で,その先のアクションだったり意思決定にはつながってない。その担当者も1回見たら満足してもう見ないとか,これはスポットで必要な分析とかアドホック分析でよくある話です。コミュニケーションが断絶していて,ひたすらその分析レポートを作り続けている人がいるのに,実は何の意思決定にも使われていない。これは本当にあった怖い話で,たぶん(データ基盤に関わる人にとって)あるあるだと思います。みなさん胸に手を当てると,ちょっとウルっとなることが多いかなと思うんですが。

画像

伊藤徹郎@tetsuroito

大学卒業後,大手金融関連企業にて営業,データベースマーケティングに従事。その後,コンサル・事業会社の双方の立場で,さまざまなデータ分析やサービスグロースに携わる。現在は,国内最大級の学習支援プラットフォームを提供するEdTech企業「Classi(クラッシー⁠⁠」の開発本部長とデータAI部部長を兼任し,エンジニア組織を統括している。著書に『データサイエンティスト養成読本 ビジネス活用編』『AI・データ分析プロジェクトのすべて』がある。

高屋:「データ収集が時間内に終わらず,その日の分析で利用できなかった」これはどういうことでしょうか?

渡部:12時(夜0時)に処理を締めて,売上とか,コンバージョンとかを夜間バッチで集計して,翌朝10時から使えますみたいなしくみはよくあると思います。ところが,集計処理にめちゃくちゃ時間がかかって終わらないとか,データを取ってくるのに時間がかかって朝までにできません,みたいなことは結構あると思うんですよね。こういうのって大体(原因が)2つあって,1つはデータ分析に適した技術を使ってないことです。たとえばWebのバックエンドに使うようなデータベースをそのまま分析用で使おうとしても,全然アーキテクチャが違っていてスピードが出なかったりします。そういうことを知らないまま,Webと同じデータベースで集計していて全然スピードが出ないということがあるんですよね。

画像

渡部徹太郎@fetarodc

東京工業大学大学院 情報理工学研究科にてデータ工学を研究。株式会社野村総合研究所にて大手証券会社向けのシステム基盤を担当し,その後はオープンソース技術部隊にてオープンソースミドルウェア全般の技術サポート・システム開発を担当。その後,株式会社リクルートテクノロジーズに転職し,リクルート全社の横断データ分析基盤のリーダーをする傍ら,東京大学での非常勤講師やビッグデータ基盤のコンサルティングを実施。現在は,株式会社MobilityTechnologies(旧JapanTaxi株式会社)にてMLOpsやデータプラットフォームを担当している。著書に『図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書』がある。

(あともう1つは)データの取り方にもコツがあります。データベースからデータを取るときに「select * from table」みたいに全部のテーブルを取ってしまうことがよくあるんですよ。何も考えずにやるとそうなるんですね。でも,収集する対象のテーブルに更新日付があれば,更新日付を元に前回からの差分のデータだけを収集すれば少ないデータ量ですむわけです。そういうのを知らないまま無邪気に全コピーしているとすごい時間がかかるし,しかもその元のデータベースを管理するエンジニアから怒られるとか,ほんとよくある話ですね。

高屋:「過去に外部のデータ分析会社に外注をしたが,うまくいかなかった」これはいかがでしょうか。

伊藤:少し前まではAIとか流行ってたと思うんですが,そのときによくPoC貧乏とか言われていました。データ分析プロジェクトを立ち上げたのにそこから価値が出せないとか,とりあえずPoC(Proof of Concept)して終わりみたいな。組織として何かコンセプトをもとに検証して,それが知見になればいいんですけれども,何の成果も得られませんでした,みたいになりがちです。そうすると,発注側の企業としてはデータ分析なんてなんの役にも立たないじゃないかっていう話がよく聞かれました。これも涙なくしては語れないような話です。

ゆずたそ:(発注側の企業の)データの渡し方もありますよね。ちょっと切り取ったCSVファイルだけ渡して,2ヵ月以内に20枚のレポートが戻ってくるみたいな。それだけ見てもなんとなく特徴はわかるけど,じゃあそこからどうしようみたいになって,そこから先に進まなかったりすることもあります。

伊藤:発注者側のシナリオと持っているデータの内容が合っていないということがあると思います。これもあるあるです。


寄せられる悩みは多く,これらに回答する目的で『実践的データ基盤への処方箋』を執筆したという背景が説明されました。続いて,執筆にあたって理想的なデータ基盤の全体像を定義したという話になりました。

著者プロフィール

高屋卓也(たかやたくや)

編集者。2002年技術評論社に入社。販売促進部にて書店/取次などの担当を経て編集部に異動。主な担当書籍に『効果検証入門』(2020),『Kaggleで勝つデータ分析の技術』(2019),『前処理大全』(2018),『データサイエンティスト養成読本』などがある。

Twitter:@tkaytkuy

バックナンバー

2022年

バックナンバー一覧