書籍概要

最短突破

最短突破
データサイエンティスト検定(リテラシーレベル)公式リファレンスブック

著者
発売日
更新日

概要

「データサイエンティスト検定 リテラシーレベル」の公式リファレンスブックが登場。
試験で問われる計147個のスキル項目について,要点と学習のポイントを基本から一つひとつ解説。
第一線で活躍する執筆陣が具体的なシーンにまで踏み込んで説明しているため,データサイエンティストとしての確かな力が身につきます。
さらに巻末の模擬問題では,実際の試験のイメージをつかむことができます。

「データサイエンティスト検定 リテラシーレベル」とは?

「データサイエンティスト検定 リテラシーレベル」(略称:DS検定)は,一般社団法人データサイエンティスト協会によって,2021年9月に第1回が開催される検定試験です。「リテラシーレベル」では,協会が定めたスキルレベルのうち最も基礎的な内容(見習いレベル)を問われるため,すでにデータサイエンティストとして活躍している方はもちろんのこと,データサイエンスに興味を持つ学生,ビジネスパーソンの方も挑戦することができます。
データサイエンティスト協会HP:https://www.datascientist.or.jp/
検定概要:https://www.datascientist.or.jp/dskentei/

こんな方におすすめ

  • データサイエンティスト検定(リテラシーレベル)に合格したい方
  • データサイエンスの基礎素養を身につけたい大学生やビジネスパーソンの方

著者から一言

「最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック」の刊行に寄せて

「『データサイエンティスト』という新しい職業を,正しくこの国に根付かせよう」
有志のそんなシンプルな思いから,一般社団法人データサイエンティスト協会は始まりました。
当時,ビッグデータ・ブームとともに日本に上陸したこの新しい職業は,「ビッグデータを使いこなす人」という程度の漠然とした認識で受け止められ,その仕事内容や求められるナレッジやスキルは,曖昧模糊としたまま,メディアに言葉だけが踊っていました。
新しい時代の到来を告げ,危機感を煽る記事のためだけであれば,それでもよかったのかもしれません。しかし,絶対的な不足が騒がれるこの新しい職業を目指す人を増やし,その学習の指針となるためには明確な定義が必要,という思いから,本協会は始まり,現在では100を超える法人が,求められるナレッジやスキルを定める活動を筆頭に始まりました。現在では,各種勉強会や研修の企画,実態の調査や組織間の課題の共有といった各種の啓発・普及活動を展開しております。
そんな協会員の尽力もあり,当協会の定めた各種定義は,我が国のスタンダードとなり,データサイエンティストという仕事もバズワードに終わらず,一つの職業としてこの国に定着しつつあります。そんな中で,協会発足以来の唯一にして最大の懸案事項が「検定(資格)事業」でした。協会発足当時から多数の要望を受けつつも,日進月歩で進み変化する技術や業界状況を鑑みると,認定した資格に対して責任をもった運営ができるのか?という思いが先にたち,理事会で何度も議論をしては見送りを繰り返してきました。
しかし,技術の変化の激しさは依然として続くものの,社会の要請がブームを乗り越えて一定の安定を得つつあることに加え,大学でのデータサイエンス教育の必修化が実現した事で,その必要性が一層の高まりを見せていることから,スタンダードを定めた責任から,検定事業の開始の決断に至りました。
この度,その検定のための初の参考書を協会のメンバーが執筆したので,前書きを記しました。本書が,これからの新しい日本を支える職業を目指す皆様のよき一歩目となることを願ってやみません。

2021年6月吉日
一般社団法人データサイエンティスト協会
代表理事 草野隆史

目次

第1章 DS検定とは

  • データサイエンティスト検定TMリテラシーレベルとは
  • データサイエンティスト協会とデータサイエンティストスキルチェックリストとは
  • データサイエンティスト検定TMリテラシーレベル試験概要
  • 出題範囲① スキルチェックリスト
  • 出題範囲② 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム
  • 本検定と,全てのビジネスパーソンが持つべきデジタル時代の共通リテラシー「Di-Lite」
  • 本書の構成

第2章 データサイエンス力

  • DS1 順列や組合せを式nPr, nCrを用いて計算できる
  • DS2 条件付き確率の意味を説明できる
  • DS3 平均(相加平均),中央値,最頻値の算出方法の違いを説明できる
  • DS4 与えられたデータにおける分散と標準偏差が計算できる
  • DS5 母(集団)平均と標本平均,不偏分散と標本分散がそれぞれ異なることを説明できる
  • DS6 標準正規分布の分散と平均の値を知っている
  • DS7 相関関係と因果関係の違いを説明できる
  • DS8 名義尺度,順序尺度,間隔尺度,比例尺度の違いを説明できる
  • DS9 一般的な相関係数(ピアソン)の分母と分子を説明できる
  • DS10 5つ以上の代表的な確率分布を説明できる
  • DS11 二項分布の事象もサンプル数が増えていくとどのような分布に近似されるかを知っている
  • DS12 変数が量的,質的どちらの場合でも関係の強さを算出できる
  • DS13 ベイズの定理を説明できる
  • DS18 ベクトルの内積に関する計算方法を理解し線形式をベクトルの内積で表現できる
  • DS19 行列同士,および行列とベクトルの計算方法を正しく理解し,複数の線形式を行列の積で表現できる
  • DS20 逆行列の定義,および逆行列を求めることにより行列表記された連立方程式を解くことができることを理解している
  • DS21 固有ベクトルおよび固有値の意味を理解している
  • DS22 微分により計算する導関数が傾きを求めるための式であることを理解している
  • DS23 2変数以上の関数における偏微分の計算方法を理解している
  • DS24 積分と面積の関係を理解し,確率密度関数を定積分することで確率が得られることを説明できる
  • DS25 単回帰分析について最小二乗法,回帰係数,標準誤差の説明ができる
  • DS26 重回帰分析において偏回帰係数と標準偏回帰係数,重相関係数について説明できる
  • DS37 ROC曲線,AUC(Area under the curve),を用いてモデルの精度を評価できる
  • DS38 混同行列(正誤分布のクロス表),Accuracy,Precision,Recall,F値といった評価尺度を理解し,精度を評価できる
  • DS39 MSE(Mean Square Error),MAE(Mean Absolute Error)といった評価尺度を理解し,精度を評価できる
  • DS40 ホールドアウト法,交差検証(クロスバリデーション)法の仕組みを理解し,学習データ,パラメータチューニング用の検証データ,テストデータを作成できる
  • DS41 時間の経過とともに構造が変わっていくデータの場合は,学習データを過去のデータとし,テストデータを未来のデータとすることを理解している
  • DS48 点推定と区間推定の違いを説明できる
  • DS49 帰無仮説と対立仮説の違いを説明できる
  • DS50 第1種の過誤,第2種の過誤,p値,有意水準の意味を説明できる
  • DS51 片側検定と両側検定の違いを説明できる
  • DS52 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法を選択し,適用できる
  • DS55 教師あり学習の分類(判別)モデルと教師なし学習のグループ化(クラスタリング)の違いを説明できる
  • DS56 階層クラスター分析と非階層クラスター分析の違いを説明できる
  • DS57 階層クラスター分析において,デンドログラムの見方を理解し,適切に解釈できる
  • DS67 適切なデータ区間設定でヒストグラムを作成し,データのバラつき方を把握できる
  • DS68 適切な軸設定でクロス集計表を作成し,属性間のデータの偏りを把握できる
  • DS69 量的変数の散布図を描き,2変数の関係性を把握できる
  • DS82 標本誤差とは何かを説明できる
  • DS83 実験計画法の概要を説明できる
  • DS87 名義尺度の変数をダミー変数に変換できる
  • DS88 標準化とは何かを知っていて,適切に標準化が行える
  • DS89 外れ値・異常値・欠損値とは何かそれぞれ知っていて,指示のもと適切に検出と除去・変換などの対応ができる
  • DS93 分析要件や各変数の分布などをふまえて,必要に応じて量的変数のカテゴライズやビン化を設計・実行できる
  • DS102 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から,ビッグデータ中の要素間の関連性をダイナミックに表示する場合など)
  • DS105 散布図などの軸だしにおいて,縦軸・横軸の候補を適切に洗い出せる
  • DS106 積み上げ縦棒グラフでの属性の選択など,適切な層化(比較軸)の候補を出せる
  • DS110 サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる
  • DS118 適切な情報濃度を判断できる(データインク比など)
  • DS119 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど)
  • DS120 強調表現がもたらす効果と,明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など)
  • DS121 1~3次元の比較において目的(比較,構成,分布,変化など)に応じ,BIツール,スプレッドシートなどを用いて図表化できる
  • DS122 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど)
  • DS123 データ解析部門以外の方に,データの意味を伝えるサインとしての可視化ができる
  • DS124 ボロノイ図の概念と活用方法を説明できる
  • DS125 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標,散布図行列,テーブルレンズ,ヒートマップなど)
  • DS133 データの性質を理解するために,データを可視化し眺めて考えることの重要性を理解している
  • DS134 外れ値を見出すための適切な表現手法を選択できる
  • DS135 データの可視化における基本的な視点を挙げることができる(特異点,相違性,傾向性,関連性を見出すなど)
  • DS140 スコープ,検討範囲・内容が明快に設定されていれば,必要なデータ,分析手法,可視化などを適切に選択できる
  • DS144 ニュース記事などで統計情報に接したときに,数字やグラフの持つメッセージを理解できる
  • DS147 単独のグラフに対して,集計ミスなどがないかチェックできる
  • DS148 データ項目やデータの量・質について,指示のもと正しく検証し,結果を説明できる
  • DS153 データが生み出された背景を考え,鵜呑みにはしないことの重要性を理解している
  • DS156 データから事実を正しく浮き彫りにするために,集計の切り口や比較対象の設定が重要であることを理解している
  • DS157 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき,また基本統計量を把握している
  • DS158 何のために集計しているか,どのような知見を得たいのか,目的に即して集計できる
  • DS167 分析,図表から直接的な意味合いを抽出できる(バラツキ,有意性,分布傾向,特異性,関連性,変曲点,関連度の高低など)
  • DS168 想定に影響されず,分析結果の数値を客観的に解釈できる
  • DS171 機械学習にあたる解析手法の名称を3つ以上知っており,手法の概要を説明できる
  • DS172 指示を受けて機械学習のモデルを使用したことがあり,どのような問題を解決することができるか理解している
  • DS173 「教師あり学習」「教師なし学習」の違いを理解している
  • DS174 過学習とは何か,それがもたらす問題について説明できる
  • DS175 次元の呪いとは何か,その問題について説明できる
  • DS176 教師あり学習におけるアノテーションの必要性を説明できる
  • DS177 観測されたデータにバイアスが含まれる場合や,学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに,モデルの出力が差別的な振る舞いをしてしまうリスクを理解している
  • DS178 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している
  • DS210 時系列データとは何か,その基礎的な扱いについて説明できる(時系列グラフ,周期性,移動平均など)
  • DS219 テキストデータに対する代表的なクリーニング処理(小文字化,数値置換,半角変換,記号除去,ステミングなど)をタスクに応じて適切に実施できる
  • DS220 形態素解析や係り受け解析の概念を説明できる
  • DS235 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている
  • DS236 画像に対して,目的に応じて適切な色変換や簡単なフィルタ処理などを行うことができる
  • DS237 画像データに対する代表的なクリーニング処理(リサイズ,パディング,標準化など)をタスクに応じて適切に実施できる
  • DS243 動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており,動画から画像を抽出する既存方法を使うことができる
  • DS245 WAVやMP3などの代表的な音声フォーマットを知っている
  • DS251 条件Xと事象Yの関係性をリフト値を用いて評価できる

第3章 データエンジニアリング力

  • DE1 サーバー1~10台規模のシステム構築,システム運用を指示書があれば実行できる
  • DE2 数十万レコードを持つデータベースのバックアップ・アーカイブ作成など定常運用ができる
  • DE8 データベースから何らかのデータ抽出方法を活用し,小規模なExcelのデータセットを作成できる
  • DE9 オープンデータを収集して活用する分析システムの要件を整理できる
  • DE29 対象プラットフォームが提供する機能(SDKやAPIなど)の概要を説明できる
  • DE30 Webクローラー・スクレイピングツールを用いてWebサイト上の静的コンテンツを分析用として収集できる
  • DE35 対象プラットフォームに用意された機能(HTTP,FTP,SSHなど)を用い,データを収集先に格納するための機能を実装できる
  • DE47 扱うデータが,構造化データ(顧客データ,商品データ,在庫データなど)か非構造化データ(雑多なテキスト,音声,画像,動画など)なのかを判断できる
  • DE48 ER図を読んでテーブル間のリレーションシップを理解できる
  • DE51 正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる
  • DE58 DWHアプライアンス(Oracle Exadata,IBM Integrated Analytics System,Teradataなど)に接続し,複数テーブルを結合したデータを抽出できる
  • DE60 Hadoop・Sparkの分散技術の基本的な仕組みと構成を理解している
  • DE61 NoSQLデータストア(HBase,Cassandra,Mongo DB,CouchDB,Redis,Amazon DynamoDB,Cloudant,Azure Cosmos DBなど)にAPIを介してアクセスし,新規データを登録できる
  • DE67 クラウド上のストレージサービス(Amazon S3,Google Cloud Storage,IBM Cloud Object Storageなど)に接続しデータを格納できる
  • DE76 数十万レコードのデータに対して,条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出,特定範囲のデータの抽出,部分文字列の抽出など)
  • DE77 正規表現を活用して条件に合致するデータを抽出できる(メールアドレスの書式を満たしているか判定をするなど)
  • DE78 数十万レコードのデータに対して,レコード間で特定カラムでのソートができ,数千レコードのデータに対して,カラム間でソートできる
  • DE79 数十万レコードのデータに対して,単一条件による内部結合,外部結合,自己結合ができ,UNION処理ができる
  • DE80 数十万レコードのデータに対して,NULL値や想定外・範囲外のデータを持つレコードを取り除く,または既定値に変換できる
  • DE83 数十万レコードのデータに対して,規定されたリストと照合して変換する,都道府県名からジオコードに変換するなど,ある値を規定の別の値で表現できる
  • DE85 数十万レコードのデータに対して,ランダムまたは一定間隔にデータを抽出できる
  • DE86 数十万レコードのデータを集計して,合計や最大値,最小値,レコード数を算出できる
  • DE87 数十万レコードのデータに対する四則演算ができ,数値データを日時データに変換するなど別のデータ型に変換できる
  • DE90 加工・分析処理結果をCSV,XML,JSON,Excelなどの指定フォーマット形式に変換してエクスポートできる
  • DE91 加工・分析処理結果を,接続先DBのテーブル仕様に合わせてレコード挿入できる
  • DE92 データ取得用のWeb API(REST)やWebサービス(SOAP)などを用いて,必要なデータを取得できる
  • DE99 FTPサーバー,ファイル共有サーバーなどから必要なデータファイルをダウンロードして,Excelなどの表計算ソフトに取り込み活用できる
  • DE100 BIツールのレポート編集機能を用いて新規レポートを公開できる
  • DE101 BIツールの自由検索機能を活用し,必要なデータを抽出して,グラフを作成できる
  • DE105 小規模な構造化データ(CSV,RDBなど)を扱うデータ処理(抽出・加工・分析など)を,設計書に基づき,プログラム実装できる
  • DE106 JSON,XMLなど標準的なフォーマットのデータを受け渡すために,APIを使用したプログラムを設計・実装できる
  • DE117 Jupyter NotebookやRStudioなどの対話型の開発環境を用いて,データの分析やレポートの作成ができる
  • DE121 SQLの構文を一通り知っていて,記述・実行できる(DML・DDLの理解,各種JOINの使い分け,集計関数とGROUP BY,CASE文を使用した縦横変換,副問合せやEXISTSの活用など)
  • DE129 セキュリティの3要素(機密性,可用性,完全性)について具体的な事例を用いて説明できる
  • DE131 マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を常に意識している
  • DE132 OS,ネットワーク,アプリケーション,データに対するユーザーごとのアクセスレベルを手順に従い設定できる
  • DE139 暗号化されていないデータは,不正取得された際に容易に不正利用される恐れがあることを理解し,データの機密度合いに応じてソフトウェアを使用した暗号化と復号ができる
  • DE140 なりすましや偽造された文書でないことを証明するために電子署名と公開鍵認証基盤(PKI:public key infrastructure)が必要であることを理解している
  • DE141 ハッシュ関数を用いて,データの改ざんを検出できる

第4章 ビジネス力

  • BIZ1 ビジネスにおける論理とデータの重要性を認識し,分析的でデータドリブンな考え方に基づき行動できる
  • BIZ2 「目的やゴールの設定がないままデータを分析しても,意味合いが出ない」ことを理解している
  • BIZ3 課題や仮説を言語化することの重要性を理解している
  • BIZ4 現場に出向いてヒアリングするなど,一次情報に接することの重要性を理解している
  • BIZ9 データを取り扱う人間として相応しい倫理を身に付けている(データのねつ造,改ざん,盗用を行わないなど)
  • BIZ12 個人情報に関する法令(個人情報保護法,EU一般データ保護規則:GDPRなど)や,匿名加工情報の概要を理解し,守るべきポイントを説明できる
  • BIZ16 請負契約と準委任契約の違いを説明できる
  • BIZ25 データや事象の重複に気づくことができる
  • BIZ29 通常見受けられる現象の場合において,分析結果の意味合いを正しく言語化できる
  • BIZ32 一般的な論文構成について理解している(序論⇒アプローチ⇒検討結果⇒考察や,序論⇒本論⇒結論など)
  • BIZ35 1つの図表〜数枚程度のドキュメントを論理立ててまとめることができる(課題背景,アプローチ,検討結果,意味合い,ネクストステップ)
  • BIZ38 報告に対する論拠不足や論理破綻を指摘された際に,相手の主張をすみやかに理解できる
  • BIZ48 一般的な収益方程式に加え,自らが担当する業務の主要な変数(KPI)を理解している
  • BIZ51 担当する事業領域について,市場規模,主要なプレーヤー,支配的なビジネスモデル課題と機会について説明できる
  • BIZ52 主に担当する事業領域であれば,取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理,CRM課題のRFMでの整理など)
  • BIZ65 仮説や既知の問題が与えられた中で,必要なデータにあたりをつけ,アクセスを確保できる
  • BIZ68 ビジネス観点で仮説を持ってデータをみることの重要性と,仮に仮説と異なる結果となった場合にも,それが重大な知見である可能性を理解している
  • BIZ71 分析結果を元に,起きている事象の背景や意味合い(真実)を見ぬくことができる
  • BIZ81 結果,改善の度合いをモニタリングする重要性を理解している
  • BIZ84 ウォーターフォール開発とアジャイル開発の違いを説明できる
  • BIZ93 指示に従ってスケジュールを守り,チームリーダーに頼まれた自分の仕事を完遂できる
  • BIZ101 担当するタスクの遅延や障害などを発見した場合,迅速かつ適切に報告ができる

第5章 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム

  • 5-1. 数理・データサイエンス・A(I リテラシーレベル)モデルカリキュラム
  • 5-2-1. 社会におけるデータ・AI利活用(導入)で学ぶこと
  • 5-2-2. 社会におけるデータ・AI利活用(導入)で学ぶスキル/知識
  • 5-2-3. 社会におけるデータ・AI利活用(導入)の重要キーワード解説
  • 5-3-1. データリテラシー(基礎)で学ぶこと
  • 5-3-2. データリテラシー(基礎)で学ぶスキル/知識
  • 5-3-3. データリテラシー(基礎)の重要キーワード解説
  • 5-4-1. データ・AI利活用における留意事項(心得)で学ぶこと
  • 5-4-2. データ・AI利活用における留意事項(心得)で学ぶスキル/知識
  • 5-4-3. データ・AI利活用における留意事項(心得)の重要キーワード解説
  • 5-5. 数理・データサイエンス・AI(リテラシーレベル)を詳しく学ぶ
  • データサイエンティスト検定 リテラシーレベル模擬試験 問題
  • データサイエンティスト検定 リテラシーレベル模擬試験 解答例

サポート

正誤表

本書の掲載内容に誤りがございました。ご迷惑をおかけしましたことをお詫び申し上げます。

(2021年9月22日最終更新)

第3刷訂正情報(第4刷で修正予定)
P.95 下の図2点のタイトル

左の図のタイトル:ヒストグラムと外れ値の例
右の図のタイトル:箱ひげ図と外れ値の例

P.136 真ん中あたり

カーディナリティは、例えばEQ図の代表的な記法の1つであるIE記法だと……
カーディナリティは、例えばER図の代表的な記法の1つであるIE記法だと……

P.145 「代表的な正規表現」の表

\d 任意の数字以外……
\D 任意の数字以外……

P.192 1段落目

また、自社の競争優位性を探るために、「業界内での競争」「新規参入者」「代替品」「売り手の競争力」「買い手の競争力」という5つの競争要因から業界構造を分析する、5フォース分析を行うこともあります。
また、自社の競争優位性を探るために、「業界内での競争」「新規参入者の脅威」「代替品の脅威」「売り手の交渉力」「買い手の交渉力」という5つの競争要因から業界構造を分析する、5フォース分析を行うこともあります。

P.192 1つ目の図中(4か所)

新規参入者
新規参入者の脅威
代替品
代替品の脅威
売り手の競争力
売り手の交渉力
買い手の競争力
買い手の交渉力

第1・2刷訂正情報(第3刷では修正済み)
P.39 上から2つ目の式の注釈

P(B):事象Bが起こる確率
P(B):事象Bが起こらない確率

P.56 真ん中の囲み内

TPR(True Positive Rate:真陽性率)=①/(①+③)
FPR(False Positive Rate:偽陽性率)=②/(②+④)
TPR(True Positive Rate:真陽性率)=TP/(TP+FN)
FPR(False Positive Rate:偽陽性率)=FP/(FP+TN)

P.249 Q42の解答

b
c

商品一覧