レポート

データエンジニア大集合!「実践的データ基盤への処方箋」輪読会レポート 〜データ整備編〜

この記事を読むのに必要な時間:およそ 6 分

データスチュワードは存在するか?

最後の発表者はmomota氏(@momota10s)が務めました。専門領域はデータエンジニアリングで,決済や小売,医療系のデータを扱った経験があるとお話したうえで発表をはじめました。ユースケースのあり方,メタデータ,サービスレベル,データスチュワードといった箇所を担当しました。

momota
momota@momota10s

大学を卒業後,ソフトウェアエンジニアとして様々な実務を経て現在はデータエンジアリングを主軸に仕事をしている。事業課題から逆算してデータの入口から出口までを一気通貫で構築する事を得意とする。
LinkedIn: https://www.linkedin.com/in/momotasasaki/

第1章 データ活用のためのデータ整備
1-9 ユースケースを優先的に検討しツールの整備を逆算する
1-10 データの調査コストを減らすためにメタデータを活用する
1-11 サービスレベルを設定・計測して改善サイクルにつなげる
1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける

そもそもデータ基盤を作るのは,そのユースケースを実現するためであって,技術的に難易度の高いデータ基盤を作ったところで,ビジネス価値がなければ使われないと述べ,どのようにユースケースを決めるかについて説明しました。

図9 ユースケースの定め方

図9
momota
「事業計画の目標を達成するために,施策から逆算してユースケースを定める。施策の解像度の高さが良質なアウトプットへの道しるべだと書いてあります。5W1H(画像は5H1W)の例では,誰が,いつ,どこで,なんのために,何を,どうするのか,まで解像度を高く設定してあげることで,実際にユースケースを満たすためのデータ基盤,またその先のBIツールなど,確度高く仕事が進められると書いていて,その通りだなと思います。」

事業目標にそぐわない課題,そもそも課題が間違っている,優先順位が低いなどのユースケースのアンチパターンにもふれます。作ったけれども使われないという課題に対しては,そもそも自分にとってよいと思うツールが他の役割の人にとってベストなのか,利用者の気持ちに立って考えるってところが重要であることを紹介しました。次にメタデータの説明に移ります。

momota
「どのようなデータなのかを知るために付与される情報です。写真データで言うと,いつ撮影されて,拡張子,撮影場所といった付随する情報などをメタデータと言います。データ基盤におけるメタデータは,データの作成者,作成日時,カラムに個人情報が含まれているか,単位,参照数など,たくさんあります。私自身,BigQueryをよく使うので,パブリックデータの例をお見せします。」

図10 BigQueryでのメタデータの例

図10
momota
「フィールド名に対して説明をつけたらそれがメタデータになりますし,そもそもテーブルのIDやサイズなどの情報もメタデータです。」

なぜメタデータを管理すべきなのかについては,データの調査のコストを削減するためと延べ,Momota氏ご自身の経験を紹介しました。

momota
「とあるECサイトの注文のレコードに,⁠payment_type1,2,3」という整数があって,⁠1,2,3」が何なのか,ソースコードを調べるか,知ってる人に尋ねないとわからないことがありました。メタデータが整備されてないと,調査コストがかかるのはその通りです。メタデータはデータ活用の画面だけではなくて,データパイプラインの作成過程でも役に立つと書いてあります。」

続けてmomota氏がどのようにメタデータを管理しているかにふれます。

momota
「⁠⁠メタデータの管理は)BigQueryやData Catalogで行います。分析用のデータベースやメタデータ管理ツールですね。他のクラウドサービスであっても,自社サービスであっても,作成者自身が書きます。とはいえ,スプレッドシートやExcelで管理されていることも往々にしてありますし,BigQueryにメタデータ拡充したから見てね,と言っても誰も見ないこともありえます。ここでも,ユースケースをよく考えることは重要だと思います。」

このように話したあと,メタデータ作成の専門部隊の多くは機能しないことが書かれていると説明しました。次にサービスレベルについて次のように解説します。

momota
「サービスレベルとはサービスの品質水準を表現したもので,データ基盤には簡単にアクセスできる便利さと整備済みデータを使える安心感という暗黙的な期待があります。サービスレベルは,目標設定から関係者との合意,計測,特定,施策の実施,振り返りといったサイクルで品質の向上を継続します。なぜサービスレベルを計測するかですが,計測によって課題が明確になって改善策につながるからです。」

このように解説し,サービスレベルを改善するポイントとして「システムではなくサービスに注目することと,計測すること」の2つの要素があると紹介し,どのようにサービスレベルを設定・計測するかを説明しました。

momota
「可視化が第一です。そのうえで,ビジネス要件や,要望がある人へのヒアリングを通して目標設定をしていきます。ここで,ユースケースごとに期待されるサービスレベルが異なるというのはミソだと思います。経理向けの集計データと分析向けデータは,求めるデータの品質が全然違います。」

最後にデータスチュワードについての説明に入ります。データスチュワードはデータ整備の推進者であり,データ活用者にとっての相談窓口であると説明します。データについて最も相談を受けている人がいれば,それが事実上のデータスチュワードであるとの記述を紹介しました。

momota
「専門の役職もあれば,データエンジニアやデータアナリストが事実上兼務していることもありますが,今までの経験上では後者の方が事実上兼務していることがほとんどかなと思います。」

このようにコメントしたうえで,データスチュワードの求人のジョブディスクリプションについて調査し,その一部を紹介しました。

momota
「LINEは,ビジネス周りのノウハウ,あとはコミュニケーション能力,分析の能力など,割と幅広く求められているように見えます。マリオットインターナショナルというホテル会社では,データエンジニアリングよりのスキル,経験を求めているように見えます。最後にボストンコンサルティンググループは,コンサルティングのノウハウ,顧客との折衝動力,マーケティング能力といったことを求められているように見えます。」

図11 データスチュワードとは

図11

そのうえで,そもそもデータスチュワードという役割に就いている人をLinkedInで調べてみたが多くはなかったことを紹介し,データスチュワードのキャリアについてご自身の考えをお話します。

momota
「データアナリストに内包されている会社が多いと現時点では思っています。データスチュワードが最初のキャリアというより,データアナリクスやデータエンジニアリングなどのキャリアを積んで,書籍では「事実上は兼任」と書かれていましたが,事業の数や規模が増えて,相談窓口としての業務が兼任では収まらなくなったタイミングで,専任となるのかなと考えました。」

続いて,データスチュワードの振る舞いについて,受動的な対応と能動的な対応の二つがあることが書かれていると話しました。

momota
「⁠⁠受動的な)データ抽出や集計などの問い合わせについては,場合によって別チームに転送します。一方,能動的なデータ整備の推進について,問い合わせによって何が課題なのかを知るために,ユースケースを把握しにいって,そのユースケースを実現するための品質を定義して,品質水準や利用状況をメタデータで計測することもあります。必要であればデータソースを整えることも必要です。なので,完全に2つの対応が分断しているというよりは,データを作りにいくところに関わることもあり得るし,活用する方に関わることもあり得ます。主軸としてはマネジメントなのかなというふうに思っています。」

最後に現場で生じる課題と対処法について紹介しました。

momota
「受動的な活動で時間を割かれることはよくある話です。セールスや事業開発側から,こんなデータが欲しい,あんなデータが欲しいという要望に対応していたら1日が終わってる人を見たことがあります。
自分の活動,自分の時間が何に使われているのかを定量的に管理することや,データ分析一つとっても依頼者が自らの力で解決できるように研修していくことが重要と書かれています。と言っても,SQLの研修は本当に大変なので,場合によってはSQLを使えなくてもデータの抽出や集計ができるBIツールの導入もソリューションとして考えられるかもしれません。
事業開発もセールスもみんなSQLを扱えるスタートアップ企業に所属していたこともあります。みんながデータについて知っているから,ドキュメントを拡充するよりも早く分析をして,試作の結果を見たいという感じでした。事業規模やそこにいる人の能力などによって変わると思います。」

以上で発表は終わりましたが,momota氏はこれまでのエピソードについてもいくつかお話されました。

momota
「データスチュワードの役割としてSQLの研修が挙げられていましたが,SQLを教えようとしても挫折する方が多いので,最終的にはTableauを導入するという話になったこともあります。結局,SQLの基本的な構文を覚えても,データモデルを理解していないとまったく立ちゆかないと思います。それを他の職能の人に期待するのは負担が大きいです。組織規模が大きくなって分業化が進むと,データ基盤を作る人が専任になって,他は見るだけの人のように分かれるんだろうなと思います。」

最後に著者のゆずたそ氏から,第1回輪読会は閉会しました。

ゆずたそ
「正解を勉強するために本を読むわけではないと思っています。みなさん自身がよりよい活躍をして,より世の中を良くしていく仕事をしてるんだと思うんですけど,本書がそういった仕事を後押しできればと思っています。そういう読み方をしてもらえるとすごくいいかなと思っています。」

画像

ゆずたそ@yuzutas0

本名:横山翔。令和元年創業・東京下町のITコンサルティング会社「風音屋」代表。日本におけるDataOpsの第一人者。慶應義塾大学経済学部にて計量経済学を専攻。リクルートやメルカリ,ランサーズでデータ活用を推進。広告配信最適化や営業インセンティブ設計など,データを駆使した業務改善を得意とする。コミュニティ活動では,DevelopersSummitのコンテンツ委員やDataEngineeringStudyのモデレーターを担当し,データ基盤やダッシュボードの構築について積極的に情報発信している。当面の目標は100社のデータ活用を支援して各産業の活性化に貢献すること。著書に『個人開発をはじめよう!』⁠⁠データマネジメントが30分でわかる本』がある(プロフィールは本書出版当時のもの⁠⁠。

著者プロフィール

高屋卓也(たかやたくや)

編集者。2002年技術評論社に入社。販売促進部にて書店/取次などの担当を経て編集部に異動。主な担当書籍に『効果検証入門』(2020),『Kaggleで勝つデータ分析の技術』(2019),『前処理大全』(2018),『データサイエンティスト養成読本』などがある。

Twitter:@tkaytkuy

バックナンバー

2022年

バックナンバー一覧