マスクド・アナライズの道場破り!リアルデータサイエンティスト・中山心太編

第1回 データサイエンティストの育成とチーム組成

この記事を読むのに必要な時間:およそ 4.5 分

データ分析者の育成について

マスクド:データ分析はいろいろなスキルや経験が求められるので,未熟なままインターンを経験しても,得るものは少ないですよね。そう考えると,データサイエンティストの育成方法が重要かと思います。この点についてお伺いします。

ところてん:育成について考えると,データ分析の業務プロセスは広いので,1人で全部やるのは超人しか無理ですね。かといって,それぞれの会社において得意不得意もあるので,そこにうまく当てはまるスキルを事前に身につけるというのも難しいですね。

マスクド:なるほど。

ところてん:前提として,私の場合はフリーランスみたいな状態で働いているので,業務プロセスの責任範囲を細かく分けています。これには自分の責任範囲をある程度絞りたい意図がありますし,相手の会社に何をしてもらいたいのか,というのを明確にして,先方を動きやすくするという意図があります。

また,一緒に仕事をしているような企業は,インフラエンジニアだったりアプリケーションエンジニアだったり,必要な人材が揃っていることが多いです。そういうところに私が呼ばれていって,相手の会社のメンバーと共同でデータ分析を行うことになります。

たとえば,お手伝いさせていただいているReproさんでは,機械学習のPoC回りをメインでやらせていただいており,論文調査,他社事例調査,Reproさんの環境に合わせた特徴量の設計,機械学習モデルの実装と評価,効果検証といったあたりは私が行っています。一方で本番環境への投入のためのプロダクションコードの作成や,安定運用については,Repro側の社員の方に依頼しています。

私自身としては,データ分析の業務プロセスのすべてができているわけではありませんが,相手の会社と適切に協力することで,データ分析業務ができています。

マスクド:社内で育成する場合はどうでしょうか。

ところてん:社内で育成する場合ですが,インフラもできるコードも書けるけどデータ分析はまだちょっとっていう人や,業務サポート系からから統計を学んで分析をはじめましたみたいな人だったりとか,いろいろなタイプの人がいると思います。そこは社内の人材アセットがどうなっているのか次第で,チーム編成は変わってくると思います。どんなチームを作っていくかということを視点に考えるのが良いのではないでしょうか。

マスクド:足りないところを埋めていくような体制がとれると,我々としてもありがたいですよね。いきなり全部の工程をお任せっていうのは難しいです。

ところてん:そうなんです。全部お任せで会社の業務プロセスの修正からやってくれよって,いえいえ,それコンサルとかそれ社長の仕事でしょって事例,けっこうあるんですよね。育成については,まず社内のアセットを整理をして,そこから足りないピースを外注してから,社内で育成するのが良いのかと思います。ただし,社内で育成するのは時間がかかります。

マスクド:社内で一から育成するためには,データサイエンスの基礎力があれば良いのでしょうか。中山さんの場合はどうだったのでしょうか。

ところてん:私の場合は,データサイエンスから入っているわけではなくて,企画屋さんからこの業界に入りました。

私は新しいことをやりたい,という思いが非常に強く,そのためには自分でコードを書くしかないと考えていて,企画屋兼プログラマをずっと続けてきました。企画を実現するために使えるリソースが自分しかないから,自分が仕方なくコードを書く,という感じですね。なので,根っこは企画屋だと思っています。そのため,データ分析の前工程の企画の話と,後工程のプログラミングの話の両方が理解できているデータ分析者として重宝されていると感じています。

逆にデータサイエンスだけやってきた人は,前工程の企画の話と後工程のアプリケーション運用の話の両方がちゃんとできるひとが少ないという感覚を受けます。そのため,突き抜けた分析力も大事ですが,最終的に会社に利益をもたらすためには,前後のプロセスの理解が必要になってくると思います。

画像

最近考えているのは,エンジニアをデータ分析者に転向させるには,いちどマーケティング部門を経由することで,うまくいくのではないか,と考えています。これは今回の書籍に書いた話ですが,エンジニアとデータ分析者のメンタルモデルが大きく異なるため,直接転向させようとすると高確率で失敗します。そのため,一度マーケティング部門でCPAやLTV,効果測定の方法等の価値観を学ぶことで,メンタルモデルの違いを克服できるのではないかと考えています。

 データサイエンティストとエンジニアのメンタルモデル

データサイエンティストのメンタルモデルエンジニアのメンタルモデル
仕事のスタイル確率,実験,やってみないとわからない抜けもれなく,バグがなく,QCD(Quality, Cost, Delivery)
ビジネスの考え方確率をベースにビジネスを考える完璧をベースにビジネスを考える
主に利用するプログラミング言語 PythonやRといったデータ分析が行いやすい言語を好むRubyやJavaScript,Javaなどのサービス開発が行いやすい言語を好む
コードの管理面JupyterやRStudioなどで実験コードを書き捨て単体テスト,結合テストをCIで回す
仕事の管理方法数値で計測することが仕事の一部だが,仕事自体を数値で計測できることが少ない(試行錯誤を繰り返すので,どの品質のものがどれくらいでできるかわからない)仕事自体を数値でできることが多い(バグの量,納期,品質,ダウンタイム,サーバコストなど)

マスクド:転職などを経て,さまざまな経験を積まれたという印象を受けます。ここにメリットはあるのでしょうか?

ところてん:結局いろいろな会社を見てまわると,業種が近いと似たような問題が見えてきます。以前,半導体系のメーカーと仕事をした時期があったんですが,そうすると工場のしくみがわかって,工場のしくみがわかると今度は物流の話にも知識が必要にもなって,と。いろいろな仕事の経験値が横に広がっていくと,これとこれが一緒だよねという範囲がどんどん広がっていくんですよ。そうするととりあえず新規の案件がきても,なるほどこういう構造になってて,こういう感じなのねっ,というのを一瞬でとらえらることができるようになります。

業務知識は特別ではない

マスクド:いわゆる業務知識的なところですね。

ところてん:そうですね,みんな業務知識はすごい特殊だって言うんですけど,特殊なわけがないんですよ。業務知識は特殊ではないっていうのを知って欲しいです。経営学者のC・N・パーキンソンは「コンサルタントはミツバチである」と言っています。ある会社からある会社に知識を移動させていくのがミツバチであると。

コンサルティングは実はすごい簡単なんですよ。複数の会社を見比べて,その会社ができていない箇所を見つけて,他社と比較してどのようにすればできるかを考えてあげればいいんです。世の中の多くのコンサルタントと同様に,私がやってる仕事って大体そういうマイナスをゼロにする仕事です。

「我々は特殊だから,我々はこういう会社でこういう制約条件があって大変だ」って言うんですけど,私が外部から行くと「別にこれはあそこの会社と一緒ですよ。あそこの会社でやっていることをあなたの会社に合わせてカスタマイズしてやってみましょう」って話をするんです。そうすると比較的簡単に終わります。業務知識が特殊だからと言って思考停止している人がすごく多いと思います。

エンジニアの知的生産術――効率的に学び,整理し,アウトプットする⁠西尾泰和, 2018, 技術評論社)で書かれている話とかもそうなんですけど,1つ上のメタの知識を持っていれば,個別の案件も一緒のことが見えてくるんです。1つの案件だけを見てしまうと,そのメタな知識は得られないですが,2つ3つといろいろな業界を見ていくと,共通するところだねっていうのが見えてきます。それをベースに考えていくと,新しい業界で話すときも理解が得やすいことがありますね。

マスクド:1つの仕事とか会社に所属したことがないとその視点は身につきませんね。そういったところを埋めていくのがコンサルタントの仕事なのかなと思います。

データサイエンスは総合格闘技

マスクド:人材育成の話から,コンサルタントに必要なのがメタな知識が必要という流れになりました。そうなると,スキルを持った人間を揃えればデータ分析ができるのでしょうか。

ところてん:まず,データ分析に取り組むチームに,組織を動かす/変更できる人がいないと,こういったデータ分析案件は頓挫しますね。データ分析チームを作ったはいいものの,実際に足りない人材リソースがあって前に進めないことが多々あります。今回の書籍でも書きましたが,データ分析チームはデータ分析者だけがいれば回るわけではありません。データインフラを管理するエンジニアであったりとか,現場のアプリケーションに組み込むエンジニアとか。そもそも相手方の理解が必要です。

 各プロセスと必要な人材

プロセスコンサルタントデータサイエンティストアプリケーションエンジニアデータインフラエンジニア
1. 自社の事業分析
2. 改善箇所の特定と費用対効果の検討
3. 現在取れているデータの収集と問題の定義
4. 本番への試験投入
5. データ収集基盤の構築
6. 機械学習のチューニング
7. 運用のための各種システム構築
8. 本番投入

少なくともこちらの話している言葉を理解してもらえないと一緒にお仕事することは極めて厳しいですし,機械学習の精度がどれぐらい出るかわからない話に対して,それを認めてくれないとスタートラインに立てません。

マスクド:誰がやるかとか,誰の責任か,という感じには聞こえませんね。

ところてん:そもそもデータサイエンスは個々のスキルじゃなくて,総合力でバリューが出るという世界になってきています。じゃあその総合力をどうやって出していこうかということになると思います。

マスクド:総合格闘技みたいなところありますよね,色んなスキルや人物を組み合わせて。

ところてん:今回の本はまさに総合格闘技の話なんですよ。

マスクド:そうですね。データを取るだけでも,データ分析者は現場とのコミュニケーションスキルが必要ですよね。以前イベントで聞いたのですが,メルカリさんやサイバーエージェントさんでも,偉い人を説得するためにデータ分析がどれだけ効果があるか立証するそうです。そうやって,データ分析チームに予算や権限を付けてもらう。そのためには,人を動かすスキルが必要になりますね。そこはやっぱり技術力とは違う分野になってきます。技術が劣っていても,そういったスキルで多少カバーできるとか,Aさんがメインだけど,苦手な部分はBさんが補うとか。それができるのは組織の強味だと思いますし,最後は結局人なんですね。

著者プロフィール

中山心太(なかやましんた)

株式会社NextInt 代表取締役

電気通信大学大学院博士前期課程修了後,NTT情報流通プラットフォーム研究所(現ソフトウェアイノベーションセンタ,セキュアプラットフォーム研究所)にて情報セキュリティ・ビッグデータ関連の研究開発に従事。その後,統計分析,機械学習によるウェブサービスやソーシャルゲーム,ECサービスのデータ分析,基盤開発,アーキテクチャ設計などを担当。2017年に株式会社NextIntを創業し,現在は機械学習に関するコンサルティングや,ゲームディレクター,グループウェア開発を行っている。


マスクド・アナライズ

AI(人工知能)・IoT・機械学習・データ分析などを節操なしに手掛ける"自称"AIベンチャーで働くマスクマン。 ただのデータサイエンティストではありません,イキリデータサイエンティストです。「データサイエンス界の東京スポーツ」を目指して,Twitterを中心に日々活動しております。

Twitter:@maskedanl


高屋卓也(たかやたくや)

書籍編集者。2013年より現職。担当作に『データサイエンティスト養成読本』シリーズなど。