書籍概要

最短突破

最短突破
データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2

著者
発売日
更新日

概要

「データサイエンティスト検定 リテラシーレベル」の公式リファレンスブック第2版です。

2022年6月の試験から,出題範囲となる「データサイエンティストスキルチェックリスト」がver.3からver.4へ。

それにともなって計185個に増加したスキル項目について,要点と学習のポイントを基本から一つひとつ解説しています。

第一線で活躍する執筆陣が具体的なシーンにまで踏み込んで説明しているため,データサイエンティストとしての確かな力が身につきます。

さらに付録の模擬試験では,試験で出題される問題のイメージをつかむことができます。

「データサイエンティスト検定 リテラシーレベル」とは?

「データサイエンティスト検定 リテラシーレベル」(略称:DS検定)は,一般社団法人データサイエンティスト協会によって,2021年9月に始まった検定試験です。「リテラシーレベル」では,協会が定めたスキルレベルのうち最も基礎的な内容(見習いレベル)を問われるため,すでにデータサイエンティストとして活躍している方はもちろんのこと,データサイエンスに興味がある学生の方,ビジネスパーソンの方も挑戦することができます。

こんな方におすすめ

  • データサイエンティスト検定(リテラシーレベル)に合格したい方
  • データサイエンスの基礎素養を身につけたい大学生やビジネスパーソンの方

サンプル

samplesamplesamplesample

目次

  • はじめに

第1章 DS検定とは

  • データサイエンティスト検定リテラシーレベルとは
  • データサイエンティスト協会とデータサイエンティストスキルチェックリストとは
  • データサイエンティスト検定リテラシーレベル試験概要
  • 出題範囲① スキルチェックリスト
  • 出題範囲② 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム
  • 本検定と,全てのビジネスパーソンが持つべきデジタル時代の共通リテラシー「Di-Lite」
  • 本書の構成

第2章 データサイエンス力

  • DS1 順列や組合せの式nPr, nCrを理解し,適切に使い分けることができる
  • DS2 確率に関する基本的な概念の意味を説明できる(確率,条件付き確率,期待値,独立など)
  • DS3 平均,中央値,最頻値の算出方法の違いを説明できる
  • DS4 与えられたデータにおける分散,標準偏差,四分位,パーセンタイルを理解し,目的に応じて適切に使い分けることができる
  • DS5 母(集団)平均と標本平均,不偏分散と標本分散がそれぞれ異なることを説明できる
  • DS6 標準正規分布の平均と分散の値を知っている
  • DS7 相関関係と因果関係の違いを説明できる
  • DS8 名義尺度,順序尺度,間隔尺度,比例尺度の違いを説明できる
  • DS9 ピアソンの相関係数の分母と分子を説明できる
  • DS10 5つ以上の代表的な確率分布を説明できる
  • DS11 二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている
  • DS12 変数が量的,質的どちらの場合でも関係の強さを算出できる
  • DS13 指数関数とlog関数の関係を理解し,片対数グラフ,両対数グラフ,対数化されていないグラフを適切に使いわけることができる
  • DS14 ベイズの定理を説明できる
  • DS19 ベクトルの内積に関する計算方法を理解し,線形式をベクトルの内積で表現できる
  • DS20 行列同士,および行列とベクトルの計算方法を正しく理解し,複数の線形式を行列の積で表現できる
  • DS21 逆行列の定義,および逆行列を求めることにより行列表記された連立方程式が解けることを理解している
  • DS22 固有ベクトルおよび固有値の意味を理解している
  • DS23 微分により計算する導関数が傾きを求めるための式であることを理解している
  • DS24 2変数以上の関数における偏微分の計算方法を理解している
  • DS25 積分と面積の関係を理解し,確率密度関数を定積分することで確率が得られることを説明できる
  • DS26 和集合,積集合,差集合,対称差集合,補集合についてベン図を用いて説明できる
  • DS27 論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど)
  • DS28 単なるローデータとしての実数だけを見ても判断出来ない事象が大多数であり,母集団に占める割合などの比率的な指標でなければ数字の比較に意味がないことがわかっている
  • DS29 ニュース記事などで統計情報に接したときに,数字やグラフの持つメッセージを理解できる
  • DS32 単独のグラフに対して,集計ミスや記載ミスなどがないかチェックできる
  • DS33 データ項目やデータの量・質について,指示のもと正しく検証し,結果を説明できる
  • DS38 データが生み出された背景を考え,鵜呑みにはしないことの重要性を理解している
  • DS41 どのような知見を得たいのか,目的に即して集計し,データから事実を把握できる
  • DS42 データから事実を正しく浮き彫りにするために,集計の切り口や比較対象の設定が重要であることを理解している
  • DS43 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき,また基本統計量や分布の形状を把握している
  • DS44 時系列データとは何か,その基礎的な扱いについて説明できる(時系列グラフによる周期性やトレンドの確認,移動平均の計算など)
  • DS53 分析,図表から直接的な意味合いを抽出できる(バラツキ,有意性,分布傾向,特異性,関連性,変曲点,関連度の高低など)
  • DS54 想定に影響されず,分析結果の数値を客観的に解釈できる
  • DS56 単回帰分析において最小二乗法,回帰係数,標準誤差,決定係数を理解し,モデルを構築できる
  • DS57 重回帰分析において偏回帰係数と標準偏回帰係数,重相関係数について説明できる
  • DS60 線形回帰分析は量的な変数を予測し,ロジスティック回帰分析は二値の質的な変数を予測する手法であることを説明できる
  • DS70 ROC曲線,AUC(Area under the curve),を用いてモデルの精度を評価できる
  • DS71 混同行列(正誤分布のクロス表),Accuracy,Precision,Recall,F値,macro平均,micro平均,重み付き平均といった評価尺度を理解し,精度を評価できる
  • DS72 RMSE(Root Mean Square Error),MAE(Mean Absolute Error),MAPE(Mean Absolute Percentage Error),決定係数といった評価尺度を理解し,精度を評価できる
  • DS76 点推定と区間推定の違いを説明できる
  • DS77 統計的仮説検定において帰無仮説と対立仮説の違いを説明できる
  • DS78 第1種の過誤,第2種の過誤,p値,有意水準の意味を説明できる
  • DS79 片側検定と両側検定の違いを説明できる
  • DS80 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し,適用できる
  • DS83 教師なし学習のグループ化(クラスター分析)と教師あり学習の分類(判別)モデルの違いを説明できる
  • DS84 階層クラスター分析と非階層クラスター分析の違いを説明できる
  • DS85 階層クラスター分析において,デンドログラムの見方を理解し,適切に解釈できる
  • DS95 適切なデータ区間設定でヒストグラムを作成し,データのバラつき方を把握できる
  • DS96 適切な軸設定でクロス集計表を作成し,属性間のデータの偏りを把握できる
  • DS97 量的変数の散布図を描き,2変数の関係性を把握できる
  • DS112 ある変数が他の変数に与える影響(因果効果)を推定したい場合,その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など)
  • DS113 分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時,欠損データの除外時など)
  • DS117 標本誤差およびサンプリングバイアス,およびそれぞれの違いについて説明できる
  • DS118 実験計画法の基本的な3原則(局所管理化,反復,無作為化)について説明できる
  • DS122 外れ値・異常値・欠損値とは何かを理解し,指示のもと適切に検出と除去・変換などの対応ができる
  • DS124 標準化とは何かを理解し,適切に標準化が行える
  • DS125 名義尺度の変数をダミー変数に変換できる
  • DS128 数値データの特徴量化(二値化/離散化,対数変換,スケーリング/正規化,交互作用特徴量の作成など)を行うことができる
  • DS136 データの性質を理解するために,データを可視化し眺めて考えることの重要性を理解している
  • DS137 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から,ビッグデータ中の要素間の関連性をダイナミックに表示する場合など)
  • DS140 散布図などの軸出しにおいて,目的やデータに応じて縦軸・横軸の候補を適切に洗い出せる
  • DS141 積み上げ縦棒グラフでの属性の選択など,目的やデータに応じて適切な層化(比較軸)の候補を出せる
  • DS145 サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる
  • DS146 読み取りたい特徴を効果的に可視化するために,統計量を使ってデータを加工できる
  • DS153 データ解析部門以外の方に,データの意味を伝えるサインとしての可視化ができる
  • DS154 適切な情報濃度を判断できる(データインク比など)
  • DS155 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど)
  • DS156 強調表現がもたらす効果と,明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など)
  • DS157 1~3次元の比較において目的(比較,構成,分布,変化など)に応じ,BIツール,スプレッドシートなどを用いて図表化できる
  • DS158 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど)
  • DS159 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標,散布図行列,テーブルレンズ,ヒートマップなど)
  • DS168 外れ値を見出すための適切な表現手法を選択できる
  • DS169 データの可視化における基本的な視点を挙げることができる(特異点,相違性,傾向性,関連性を見出すなど)
  • DS174 時系列分析を行う際にもつべき視点を理解している(長期トレンド,季節成分,周期性,ノイズ,定常性など)
  • DS182 機械学習にあたる解析手法の名称を3つ以上知っており,手法の概要を説明できる
  • DS183 機械学習のモデルを使用したことがあり,どのような問題を解決できるか理解している(回帰・分類,クラスター分析の用途など)
  • DS184 「教師あり学習」「教師なし学習」の違いを理解している
  • DS185 過学習とは何か,それがもたらす問題について説明できる
  • DS186 次元の呪いとは何か,その問題について説明できる
  • DS187 教師あり学習におけるアノテーションの必要性を説明できる
  • DS188 観測されたデータにバイアスが含まれる場合や,学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに,モデルの出力が差別的な振る舞いをしてしまうリスクを理解している
  • DS189 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している
  • DS190 ホールドアウト法,交差検証(クロスバリデーション)法の仕組みを理解し,学習データ,パラメータチューニング用の検証データ,テストデータを作成できる
  • DS191 時系列データの場合は,時間軸で学習データとテストデータに分割する理由を理解している
  • DS192 機械学習モデルは,データ構成の変化(データドリフト)により学習完了後から精度が劣化していくため,運用時は精度をモニタリングする必要があることを理解している
  • DS201 ニューラルネットワークの基本的な考え方を理解し,出力される「ダイアグラム」の入力層,隠れ層,出力層の概要と,活性化関数の重要性を理解している
  • DS202 ライブラリを使ってサポートベクターマシンによる分析を実行・評価できる
  • DS203 決定木をベースとしたアンサンブル学習(Random Forest,勾配ブースティング[Gradient Boosting Decision Tree:GBDT],その派生形であるXGBoost,LightGBMなど)による分析を,ライブラリを使って実行でき,その結果を正しく解釈できる
  • DS216 深層学習(ディープラーニング)モデルの活用による主なメリットを理解している(特徴量抽出が可能になるなど)
  • DS231 テキストデータに対する代表的なクリーニング処理(小文字化,数値置換,半角変換,記号除去,ステミングなど)を目的に応じて適切に実施できる
  • DS232 形態素解析や係り受け解析のライブラリを適切に使い,基本的な文書構造解析を行うことができる
  • DS233 自然言語処理を用いて解けるタスクを理解し,各タスクの入出力を説明できる(GLUEタスクや固有表現抽出,機械翻訳など)
  • DS247 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている
  • DS248 画像に対して,目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる
  • DS249 画像データに対する代表的なクリーニング処理(リサイズ,パディング,正規化など)を目的に応じて適切に実施できる
  • DS256 動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており,動画から画像を抽出する既存方法を使うことができる
  • DS259 WAVやMP3などの代表的な音声フォーマットの特徴や用途,基本的な変換処理について説明できる(サンプリングレート,符号化,量子化など)
  • DS260 目的に応じ音声認識関連のAPIを選択し,適用できる(Speech to Text など)
  • DS265 条件Xと事象Yの関係性を信頼度,支持度,リフト値を用いて評価できる

第3章 データエンジニアリング力

  • DE1 オープンデータを収集して活用する分析システムの要件を整理できる
  • DE8 サーバー1~10台規模のシステム構築,システム運用を設計書を元に実行できる
  • DE9 数十万レコードを持つデータベースのバックアップ・アーカイブ作成など定常運用ができる
  • DE18 ノーコード・ローコードツールを組み合わせ,要件に応じたアプリやツールを設計できる
  • DE19 コンテナ技術の概要を理解しており,既存のDockerイメージを活用して効率的に分析環境を構築できる
  • DE20 分析環境を提供するクラウド上のマネージドサービス(Amazon SageMaker,Azure Machine Learning,Google Cloud AI Platform,IBM Watson Studioなど)を利用し,機械学習モデルの開発機能を利用することができる
  • DE31 対象プラットフォームが提供する機能(SDKやAPIなど)の概要を説明できる
  • DE32 Webクローラー・スクレイピングツールを用いてWebサイト上の静的コンテンツを分析用データとして収集できる
  • DE37 対象プラットフォームに用意された通信サービス(HTTP,FTPなど)を用い,データを収集先に格納するための機能を実装できる
  • DE42 データベースから何らかのデータ抽出方法を活用し,小規模なExcelのデータセットを作成できる
  • DE43 既存のサービスやアプリケーションに対して,分析をするためのログ出力の仕様を整理することができる
  • DE50 扱うデータが,構造化データ(顧客データ,商品データ,在庫データなど)か非構造化データ(雑多なテキスト,音声,画像,動画など)なのかを判断できる
  • DE51 ER図を読んでテーブル間のリレーションシップを理解できる
  • DE54 正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる
  • DE61 DWHアプライアンス(Oracle Exadata,IBM Integrated Analytics System,Teradataなど)に接続し,複数テーブルを結合したデータを抽出できる
  • DE63 HadoopやSparkの分散技術の基本的な仕組みと構成を理解している
  • DE64 NoSQLデータストア(HBase,Cassandra,Mongo DB,CouchDB,Redis,Amazon DynamoDB,Cloudant,Azure Cosmos DBなど)にAPIを介してアクセスし,新規データを登録できる
  • DE69 クラウド上のストレージサービス(Amazon S3,Google Cloud Storage,IBM Cloud Object Storageなど)に接続しデータを格納できる
  • DE78 数十万レコードのデータに対して,条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出,特定範囲のデータの抽出,部分文字列の抽出など)
  • DE79 正規表現を活用して条件に合致するデータを抽出できる(メールアドレスの書式を満たしているか判定をするなど)
  • DE80 数十万レコードのデータに対して,目的の並び替えになるように複数キーのソート条件を設定ができる
  • DE81 数十万レコードのデータに対して,単一条件による内部結合,外部結合,自己結合ができ,UNION処理ができる
  • DE82 数十万レコードのデータに対して,NULL値や想定外・範囲外のデータを持つレコードを取り除く,または既定値に変換できる
  • DE85 数十万レコードのデータに対して,規定されたリストと照合して変換する,都道府県名からジオコードに変換するなど,ある値を規定の別の値で表現できる
  • DE87 数十万レコードのデータに対して,ランダムまたは一定間隔にデータを抽出できる
  • DE88 数十万レコードのデータを集計して,合計や最大値,最小値,レコード数を算出できる
  • DE89 数十万レコードのデータに対する四則演算ができ,数値データを日時データに変換するなど別のデータ型に変換できる
  • DE90 変化元データと変換先データの文字コードが異なる場合でも変換処理ができる
  • DE93 加工・分析処理結果をCSV,XML,JSON,Excelなどの指定フォーマット形式に変換してエクスポートできる
  • DE94 加工・分析処理結果を,接続先DBのテーブル仕様に合わせてレコード挿入できる
  • DE95 データ取得用のWeb API(REST)やWebサービス(SOAP)などを用いて,必要なデータを取得できる
  • DE102 FTPサーバー,ファイル共有サーバーなどから必要なデータファイルをダウンロードして,Excelなどの表計算ソフトに取り込み活用できる
  • DE103 BIツールのレポート編集機能を用いて新規レポートを公開できる
  • DE104 BIツールの自由検索機能を活用し,必要なデータを抽出して,グラフを作成できる
  • DE108 小規模な構造化データ(CSV,RDBなど)を扱うデータ処理(抽出・加工・分析など)を,設計書に基づき,プログラム実装できる
  • DE109 プログラム言語や環境によって,変数のデータ型ごとに確保するメモリサイズや自動型変換の仕様が異なることを理解し,プログラムの設計・実装ができる
  • DE110 データ処理プログラミングのため分岐や繰り返しを含んだフローチャートを作成できる
  • DE111 オブジェクト指向言語の基本概念を理解し,スーパークラス(親クラス)を継承して,スーパークラスのプロパティやメソッドを適切に活用できる
  • DE112 ホワイトボックステストとブラックボックステストの違いを理解し,テストケースの作成とテストを実施できる
  • DE113 JSON,XMLなど標準的なフォーマットのデータを受け渡すために,APIを使用したプログラムを設計・実装できる
  • DE114 外部ライブラリが提供する関数の引数や戻り値の型や仕様を調べて,適切に呼び出すことができる
  • DE121 入れ子の繰り返し処理(二重ループ)など計算負荷の高いロジックを特定しアルゴリズムの改善策を検討できる
  • DE124 Jupyter Notebook(Pythonなど)やRStudio(R)などの対話型の開発環境を用いて,データの分析やレポートの作成ができる
  • DE127 SQLの構文を一通り知っていて,記述・実行できる(DML・DDLの理解,各種JOINの使い分け,集計関数とGROUP BY,CASE文を使用した縦横変換,副問合せやEXISTSの活用など)
  • DE131 セキュリティの3要素(機密性,完全性,可用性)について具体的な事例を用いて説明できる
  • DE133 マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を理解している
  • DE134 OS,ネットワーク,アプリケーション,データなどの各レイヤーに対して,ユーザーごとのアクセスレベルを設定する必要性を理解している
  • DE140 暗号化されていないデータは,不正取得された際に容易に不正利用される恐れがあることを理解し,データの機密度合いに応じてソフトウェアを使用した暗号化と復号ができる
  • DE141 なりすましや改ざんされた文書でないことを証明するために,電子署名が用いられることを理解している
  • DE142 公開鍵暗号化方式において,受信者の公開鍵で暗号化されたデータを復号化するためには受信者の秘密鍵が必要であることを知っている
  • DE143 ハッシュ関数を用いて,データの改ざんを検出できる
  • DE145 OAuth認証が求められるデータ提供サービスに対して,認証処理で取得したトークンを付与してデータ取得用のREST APIを呼び出すことができる
  • DE150 GitやSubversionなどのバージョン管理ソフトウェアを活用して,開発した分析プログラムのソースをリポジトリに登録しチームメンバーと共有できる
  • DE151 AutoMLを用いて予測対象を判定するために最適な入力データの組み合わせと予測モデルを抽出できる
  • DE152 MLOpsの概要を理解し,AIモデル性能の維持管理作業の基本的な流れを説明できる
  • DE153 AIシステムのモニタリング項目を理解し,AIモデルの劣化状況や予測対象データの不備,AIシステムの異常を検知できる
  • DE158 ITシステムの運用におけるAIOpsの概要とメリットを説明できる

第4章 ビジネス力

  • BIZ1 ビジネスにおける「論理とデータの重要性」を認識し,分析的でデータドリブンな考え方に基づき行動できる
  • BIZ2 「目的やゴールの設定がないままデータを分析しても,意味合いが出ない」ことを理解している
  • BIZ3 課題や仮説を言語化することの重要性を理解している
  • BIZ4 現場に出向いてヒアリングするなど,一次情報に接することの重要性を理解している
  • BIZ10 データを取り扱う人間として相応しい倫理を身に着けている(データのねつ造,改ざん,盗用を行わないなど)
  • BIZ11 データ,AI,機械学習の意図的な悪用(フェイクニュース,Botの悪用など)があり得ることを勘案し,技術に関する適切な知識と倫理を身につけている
  • BIZ14 直近の個人情報に関する法令(個人情報保護法,EU一般データ保護規則:GDPRなど)や,匿名加工情報の概要を理解し,守るべきポイントを説明できる
  • BIZ17 二者間で交わされる一般的な契約の概念を理解している(請負契約と準委任契約の役務や成果物の違いなど)
  • BIZ25 データや事象の重複に気づくことができる
  • BIZ28 与えられた分析課題に対し,初動として様々な情報を収集し,大まかな構造を把握することの重要性を理解している
  • BIZ30 対象となる事象が通常見受けられる場合において,分析結果の意味合いを正しく言語化できる
  • BIZ33 一般的な論文構成について理解している(序論⇒アプローチ⇒検討結果⇒考察や,序論⇒本論⇒結論など)
  • BIZ36 データの出自や情報の引用元に対する信頼性を適切に判断し,レポートに記載できる
  • BIZ37 1つの図表〜数枚程度のドキュメントを論理立ててまとめることができる(課題背景,アプローチ,検討結果,意味合い,ネクストステップ)
  • BIZ40 報告に対する論拠不足や論理破綻を指摘された際に,相手の主張をすみやかに理解できる
  • BIZ47 弱いAI・強いAI,特化型AI・汎用型AIの違いを説明できる
  • BIZ53 担当する分析プロジェクトにおいて,当該事業の収益モデルと主要な変数(KPI)を理解している
  • BIZ56 担当する事業領域について,市場規模,主要なプレーヤー,支配的なビジネスモデル,課題と機会について説明できる
  • BIZ57 主に担当する事業領域であれば,取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理,CRM課題のRFMでの整理など)
  • BIZ58 既知の事業領域の分析プロジェクトにおいて,分析のスコープが理解できる
  • BIZ64 仮説や既知の問題が与えられた中で,必要なデータにあたりをつけ,アクセスを確保できる
  • BIZ75 スコープ,検討範囲・内容が明確に設定されていれば,必要な分析プロセスが理解できる(データ,分析手法,可視化の方法など)
  • BIZ80 ビジネス観点で仮説を持ってデータをみることの重要性と,仮に仮説と異なる結果となった場合にも,それが重大な知見である可能性を理解している
  • BIZ83 分析結果を元に,起きている事象の背景や意味合い(真実)を見抜くことができる
  • BIZ94 結果,改善の度合いをモニタリングする重要性を理解している
  • BIZ97 プロジェクトにおけるステークホルダーや役割分担,プロジェクト管理・進行に関するツール・方法論が理解できる
  • BIZ109 指示に従ってスケジュールを守り,チームリーダーに頼まれた自分の仕事を完遂できる
  • BIZ117 担当するタスクの遅延や障害などを発見した場合,迅速かつ適切に報告ができる

第5章 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム

  • 5-1. 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム
  • 5-2-1. 社会におけるデータ・AI利活用(導入)で学ぶこと
  • 5-2-2. 社会におけるデータ・AI利活用(導入)で学ぶスキル/知識
  • 5-2-3. 社会におけるデータ・AI利活用(導入)の重要キーワード解説
  • 5-3-1. データリテラシー(基礎)で学ぶこと
  • 5-3-2. データリテラシー(基礎)で学ぶスキル/知識
  • 5-3-3. データリテラシー(基礎)の重要キーワード解説
  • 5-4-1. データ・AI利活用における留意事項(心得)で学ぶこと
  • 5-4-2. データ・AI利活用における留意事項(心得)で学ぶスキル/知識
  • 5-4-3. データ・AI利活用における留意事項(心得)の重要キーワード解説
  • 5-5. 数理・データサイエンス・AI(リテラシーレベル)を詳しく学ぶ

データサイエンティスト検定リテラシーレベル模擬試験 問題

データサイエンティスト検定リテラシーレベル模擬試験 解答例

  • おわりに
  • 索引
  • 執筆者紹介
  • 参考文献

サポート

ダウンロード

(2024年4月30日最終更新)

第2版を購入された皆様へ

データサイエンティスト検定は,2024年6月から始まる第7回検定より,出題範囲が変更となります。2024年5月7日発売の第3版では新しい出題範囲をカバーしておりますが,その前に本書(第2版)を購入された皆様の便宜を図るため,新たに出題範囲となる項目の解説を作成いたしました。期間限定で公開いたしますので,下記フォームよりダウンロードしていただき,受験対策にご活用ください。

データサイエンティスト検定_スキルチェックリストver5_追加項目.pdf(2MB)

「書籍(第2版)掲載の模擬試験」 解説のダウンロード

書籍に掲載した模擬試験につきまして,45問すべての「解説」を追加で公開いたします。ぜひご活用ください。

※『最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2版』に掲載した問題(45問)の解説です。「初版」に掲載した模擬試験の解説ではありませんので,ご注意ください。
ダウンロード
DS検定第2版_書籍収録模擬試験(45問)の解説_1104.pdf

「Web提供の模擬試験(2022年6月9日版)」 問題・解答のダウンロード

本書(第2版)のご購入者様向けの特典として,模擬問題をPDFで提供いたします。新たに作成した(誌面に掲載したものとは異なる)90問の問題と解答を収録していますので,ぜひご活用ください。

本書の下記の場所に記載されている文字を入力し,[ダウンロード]ボタンをクリックしてください。

模擬問題_20220609版.pdf(646KB)

ダウンロードしたPDFを閲覧する際にもパスワードの入力が必要です。ダウンロードの際に入力した6文字を再度入力してください。
※パスワードは大文字と小文字の間違いがないようにご注意ください。

「Web提供の模擬試験(2022年6月9日版)」 解説のダウンロード

読者特典の「Web提供の模擬試験(2022年6月9日版)」につきまして,90問すべての「解説」を追加で提供いたします。

本書の下記の場所に記載されている文字を入力し,[ダウンロード]ボタンをクリックしてください。

模擬問題_20220609版_解説.pdf(625KB)

ご注意ください
PDFファイルについて,一般的な環境においては特に問題のないことを確認しておりますが,万一障害が発生し,その結果いかなる損害が生じたとしても,小社および著者は責任を負いかねます。必ずご自身の判断と責任においてご利用ください。
PDFファイルは,著作権法上の保護を受けています。収録されているファイルの一部,あるいは全部について,いかなる方法においても無断で複写,複製,再配布することは禁じられています。以上のことをご確認,ご了承の上,データをご利用下さい。

正誤表

本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。

(2022年12月26日最終更新)

第2刷訂正情報(第2版 第3刷で訂正予定)

P.106 本文の下から5行目
3つの水準(駅前店、郊外店、郊外店)に対して、「店舗立地:駅前店」と「店舗立地:郊外店」の2つで表現するのは、この考え方に基づいています。3つの水準の変数であれば、2つのダミー変数があれば必要十分であり、2つのダミー変数がともに0のときが「店舗立地:郊外店」に対応することになります。
3つの水準(駅前店、郊外店、住宅街店)に対して、「店舗立地:駅前店」と「店舗立地:郊外店」の2つで表現するのは、この考え方に基づいています。3つの水準の変数であれば、2つのダミー変数があれば必要十分であり、2つのダミー変数がともに0のときが「店舗立地:住宅街店」に対応することになります。
P.123 本文の下から4行目
ひげの下限を「第1四分位数-3×四分位偏差」(下側境界点)、上限を「第3四分位数+3×四分位偏差」(上側境界点)とするグラフです。
ひげの下限(下側境界点)を「第1四分位数-3×四分位偏差」より大きい最小値、ひげの上限(上側境界点)を「第3四分位数+3×四分位偏差」より小さい最大値とするグラフです。
※「箱ひげ図と外れ値の例」の場合
「第1四分位数-3×四分位偏差=58-3×11=25」となり,下側境界点は「25より大きい最小値」です。28という値が該当する場合,28が下側境界点となります。さらにその下に18という値がある場合,外れ値となります。
P.170 一番下の図

p170_誤.png

p170_正.png

第1刷訂正情報(第2版 第2刷で訂正予定)

P.49 一番下の数式

DS21-1.png

DS21-2.png

下の絶対値記号がなくなっています。

P.65 本文7行目
「会員ごとに~描画したグラフとして,以下を受け取りました。
「会員ごとに~描画したグラフとして,以下を受け取りました。
P.75 本文2行目
予測に用いる変数を説明変数(従属変数),予測する変数を目的変数(独立変数)と呼び,
予測に用いる変数を説明変数(独立変数),予測する変数を目的変数(従属変数)と呼び,
P.90 本文下から4行目
デンドログラム(樹形図)を作成する非階層クラスタリング
デンドログラム(樹形図)を作成する階層クラスタリング
P.106 本文の1行目
量的変数(間隔尺度・比尺度)
量的変数(間隔尺度・尺度)
P.123 「箱ひげ図と外れ値の例」の図

DS168-1.png

DS168-2.png

P.125 本文の下から5行目
変動要員
変動要
P.140 本文の下から8行目
損失関数の最小化を行うよう重み更新を繰り返す
損失関数の最小化を行うよう重み更新を繰り返す
P.165 本文の下から7行目
Webクロール
Webクローラー
P.217 本文の上から10行目
バージョン管理ツールの、ドキュメントの格納領域をリポジトリといます。
バージョン管理ツールのドキュメントの格納領域をリポジトリといます。
P.234 本文の上から10行目
その販売を許諾するもので
その販売許諾を得るもので
P.296 Q24の問題文

以下のテストケースの記載が設問文から漏れていました。

テストケース:入力データから何月かを特定するプログラムで、0を入力データとしてテストをした。
P.308 Q11の行
Q11 a データ可視化 方向性定義 DS136 データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している 108
Q11 c 時系列分析 時系列分析 DS174 時系列分析を行う際にもつべき視点を理解している(長期トレンド、季節成分、周期性、ノイズ、定常性など) 125
P.308 Q12の「ページ」
128
123
P.310 Q32の答え
d
b

商品一覧