ML SystemsシリーズData-centric AI入門

2025年1月8日紙版発売
2025年1月8日電子版発売

片岡裕雄　監修，齋藤邦章，清野舜，小林滉河，河原塚健人，宮澤一之，鈴木達哉　執筆

B5変形判／272ページ

定価3,520円（本体3,200円＋税10%）

ISBN 978-4-297-14663-4

電子版

→学校・法人一括購入ご検討の皆様へ

この本の概要

Data-centric AIとは，機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した，モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては，固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し，そのモデルを改善することに関心が寄せられていました。しかし，このモデルを中心としたアプローチでは，データセットへの過度な依存やデータセットが抱える課題への無意味な適合により，実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで，データ拡張，アノテーションの効率化や一貫性の担保，能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では，Data-centric AIの概要を解説したあとに，画像認識，自然言語処理，ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では，企業における実践的な取り組みを紹介します。

こんな方におすすめ

データセットの作成，データの学習方法に興味のある方
基盤モデルに興味がある方

まえがき

第1章　Data-centric AIの概要

1.1　Data-centric AIとは
- 1.1.1　Model-centric AIとData-centric AI
- 1.1.2　ラベルの一貫性
- 1.1.3　データセットサイズとデータ品質との関係
- 1.1.4　MLOpsの役割
- 1.1.5　ビッグデータからグッドデータへ
- 1.1.6　まとめ
1.2　データセットのサイズとモデルの性能の関係
1.3　データの品質の重要性
- 1.3.1　AIシステムにおける品質特性
- 1.3.2　データの品質が与える影響
1.4　おわりに

第2章　画像データ

2.1　画像認識におけるData-Centric AIとは
2.2　画像認識モデルの基礎知識
- 2.2.1　代表的な画像認識タスクとデータセット
- 2.2.2　CNN
- 2.2.3　ViT
- 2.2.4　モデルの評価方法
- 2.2.5　モデルとデータのスケール
2.3　データを拡張，生成する技術
- 2.3.1　データ拡張とその恩恵
- 2.3.2　人工的にデータを生成する技術
2.4　不完全なアノテーションからの学習
- 2.4.1　自己教師学習
- 2.4.2　半教師付き学習
- 2.4.3　モデルベースでのアノテーションデータのクリーニング方法
2.5　画像と言語ペアの関係性を学習した基盤モデル
- 2.5.1　CLIP
- 2.5.2　BLIP
- 2.5.3　Data-CentricなVLデータの評価とデータの安全性
2.6　能動学習
- 2.6.1　予測の不確かさに基づく考え方
- 2.6.2　多様性に基づく考え方
- 2.6.3　予測の不確かさとデータの多様性両方に基づく考え方
2.7　おわりに

第3章　テキストデータの収集と構築

3.1　言語モデルの事前学習
3.2　事前学習データの収集
- 3.2.1　必要な事前学習データの規模
- 3.2.2　データの収集戦略
- 3.2.3　HTMLからの本文抽出
3.3　ノイズ除去のためのフィルタリング
- 3.3.1　なぜフィルタリングが必要か？
- 3.3.2　ルールに基づくフィルタリング
- 3.3.3　機械学習を用いたフィルタリング
3.4　データからの重複除去
- 3.4.1　なぜ重複除去が必要か？
- 3.4.2　URLを用いた重複排除
- 3.4.3　MinHash
3.5　テキストデータ収集の限界
- 3.5.1　複数エポックの利用
- 3.5.2　データセットの多言語化
- 3.5.3　品質の高いデータの利用
3.6　おわりに

第4章　大規模言語モデルのファインチューニングデータ

4.1　ファインチューニングとは
- 4.1.1　ファインチューニングの概要
4.2　Instruction Data
- 4.2.1　よいInstruction Dataとは？
- 4.2.2　既存のデータを活用したデータセット作成
- 4.2.3　人手によるデータセット作成
- 4.2.4　大規模言語モデルによるデータセット作成
4.3　Preference Data
- 4.3.1　Preference Dataの作成方法
- 4.3.2　データセット
4.4　ファインチューニングモデルの評価
- 4.4.1　評価方法
- 4.4.2　定量的な指標による評価
- 4.4.3　人間や大規模言語モデルによる評価
- 4.4.4　評価時の注意点
4.5　日本語における大規模言語モデルのファインチューニング
- 4.5.1　日本語ファインチューニングモデルの構築
- 4.5.2　日本語評価データセット
4.6　おわりに

第5章　ロボットデータ

5.1　はじめに
5.2　RTシリーズの概要
- 5.2.1　RT-1
- 5.2.2　RT-2
- 5.2.3　RT-X
- 5.2.4　その他
5.3　多様なロボット
- 5.3.1　単腕ロボット
- 5.3.2　双腕ロボット
- 5.3.3　台車型ロボット
- 5.3.4　脚型ロボット
- 5.3.5　その他のロボット
5.4　ロボットにおけるデータ収集
- 5.4.1　ユニラテラルなオンライン遠隔教示
- 5.4.2　バイラテラルなオンライン遠隔教示
- 5.4.3　オフライン教示
5.5　データセット
- 5.5.1　QT-Opt
- 5.5.2　RoboNet
- 5.5.3　BridgeData V2
- 5.5.4　BC-Z
- 5.5.5　Interactive Language
- 5.5.6　DROID
- 5.5.7　その他
5.6　データ拡張
- 5.6.1　画像データ拡張
- 5.6.2　言語データ拡張
5.7　おわりに

第6章　Data-centric AIの実践例

6.1　テスラ
6.2　メタ
6.3　チューリング
6.4　LINEヤフー
6.5　GO
6.6　コンペティションとベンチマーク
- 6.6.1　Data-centric AI Competition
- 6.6.2　DataComp
- 6.6.3　DataPerf
- 6.6.4　Kaggle
6.7　Data-centric AI実践のためのサービス
- 6.7.1　Snorkel AI
- 6.7.2　Cleanlab
6.8　おわりに

著者プロフィール

片岡裕雄（かたおかひろかつ）

2014年慶應義塾大学大学院博士（工学）。2024年現在，産業技術総合研究所上級主任研究員，オックスフォード大学 Academic Visitor および cvpaper.challenge 主宰。時空間モデルのベースライン3D ResNetの研究開発，実データ不要の事前学習法数式ドリブン教師あり学習（Formula-Driven Supervised Learning; FDSL）を提案。2019/2022年度AIST Best Paper，2020年 ACCV 2020 Best Paper Honorable Mention Award，2023年 BMVC 2023 Best Industry Paper Finalist。研究はMIT Technology Reviewや日経等メディアにて掲載。本書の監修を担当。

齋藤邦章（さいとうくにあき）

OMRON SINIC X Corporation シニアリサーチャー

2018年に東京大学情報理工学系研究科創造情報学専攻の修士課程を修了し，アメリカBoston UniversityのComputer Science専攻の博士課程に進学。Nvidia, Meta, Googleでリサーチインターンを経験。大学およびインターン先では，ドメイン適合，半教師付き学習，画像生成，Vision-Languageに関する研究を行い，2023年に博士号を取得。2023年より現職。現在は画像と言語両方に関わる研究に従事。本書の2章の執筆を担当。

清野舜（きよのしゅん）

SB Intuitions株式会社シニアリサーチエンジニア

2022年に東北大学大学院情報科学研究科博士後期課程を修了し，博士（情報科学）を取得。2019年より理化学研究所革新知能統合研究センターにて勤務したのち， 2022年にLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職。現在は主に大規模言語モデルの研究開発に従事。本書の3章の執筆を担当。

小林滉河（こばやしこうが）

SB Intuitions株式会社チーフリサーチエンジニア

2021年に筑波大学大学院図書館情報メディア研究科修士課程修了。同年よりLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年より現職にて，大規模言語モデルのファインチューニングに関する研究開発およびチームマネジメントに従事。本書の4章の執筆を担当。

河原塚健人（かわはらづかけんと）

東京大学大学院情報理工学系研究科特任助教

2017年に東京大学工学部機械情報工学科を卒業，2019年・2022年に東京大学大学院情報理工学系研究科知能機械情報学専攻の修士課程・博士課程を修了し，博士（情報理工学）を取得。2022年より現職。筋骨格ヒューマノイドの身体設計と制御, 深層学習に基づく知能ロボットシステムの研究に従事。本書の5章の執筆を担当。

宮澤一之（みやざわかずゆき）

GO株式会社にてコンピュータビジョン技術の研究開発や実装を担うチームのリーダーを務める。2010年に東北大学にて博士号を取得後，三菱電機株式会社に入社し，映像解析や自動外観検査などの研究開発に携わる。2019年より株式会社ディー・エヌ・エーにてモビリティ向けのコンピュータビジョン技術の研究開発およびチームマネジメントに従事し，2020年に同社が関わり設立された株式会社Mobility Technologiesに転籍。2023年4月にGO株式会社へ商号変更。プライベートでは，1,200人以上のメンバーが所属するData-Centric AI Communityを運営し，定期的な勉強会を開催している。本書の1章，6章の執筆を担当。

鈴木達哉（すずきたつや）

2020年に上智大学大学院理工学研究科を修了後，株式会社ディー・エヌ・エーに入社。現在はGO株式会社へ出向し，コンピュータビジョンに関する研究開発に従事。プライベートでは，Data-Centric AI Communityの運営に参加し，定期的な勉強会を開催。本書の6章の執筆を担当。

この本に関連する書籍

大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価

「大規模言語モデル入門」の続編です。「大規模言語モデル入門」は理論と実装のバランスをとって構成しましたが，本書では実装部分で扱い切れなかった話題を取り上げ，...
深層ニューラルネットワークの高速化

本書は深層ニューラルネットワークによる予測を高速化する技法を解説します。巨大なニューラルネットワークを用いた予測には多くの時間と計算コストがかかります。これ...
大規模言語モデル入門

ChatGPTに代表される大規模言語モデルが自然言語処理の幅広いタスクで高い性能を獲得し，大きな話題となっています。大規模言語モデルは，大規模なテキストデータで訓練...

ML SystemsシリーズData-centric AI入門

書籍の概要

この本の概要

こんな方におすすめ

目次

第1章　Data-centric AIの概要

第2章　画像データ

第3章　テキストデータの収集と構築

第4章　大規模言語モデルのファインチューニングデータ

第5章　ロボットデータ

第6章　Data-centric AIの実践例

著者プロフィール

片岡裕雄（かたおかひろかつ）

齋藤邦章（さいとうくにあき）

清野舜（きよのしゅん）

小林滉河（こばやしこうが）

河原塚健人（かわはらづかけんと）

宮澤一之（みやざわかずゆき）

鈴木達哉（すずきたつや）

この本に関連する書籍

大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価

深層ニューラルネットワークの高速化

大規模言語モデル入門

ML SystemsシリーズData-centric AI入門

書籍の概要

この本の概要

こんな方におすすめ

目次

第1章 Data-centric AIの概要

第2章 画像データ

第3章 テキストデータの収集と構築

第4章 大規模言語モデルのファインチューニングデータ

第5章 ロボットデータ

第6章 Data-centric AIの実践例

著者プロフィール

片岡裕雄（かたおかひろかつ）

齋藤邦章（さいとうくにあき）

清野舜（きよのしゅん）

小林滉河（こばやしこうが）

河原塚健人（かわはらづかけんと）

宮澤一之（みやざわかずゆき）

鈴木達哉（すずきたつや）

この本に関連する書籍

第1章　Data-centric AIの概要

第2章　画像データ

第3章　テキストデータの収集と構築

第4章　大規模言語モデルのファインチューニングデータ

第5章　ロボットデータ

第6章　Data-centric AIの実践例