ML SystemsシリーズData-centric AI入門
2025年1月8日紙版発売
片岡裕雄 監修,齋藤邦章,清野舜,小林滉河,河原塚健人,宮澤一之,鈴木達哉 執筆
B5変形判/272ページ
定価3,520円(本体3,200円+税10%)
ISBN 978-4-297-14663-4
書籍の概要
この本の概要
Data-centric AIとは,機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した,モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては,固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し,そのモデルを改善することに関心が寄せられていました。しかし,このモデルを中心としたアプローチでは,データセットへの過度な依存やデータセットが抱える課題への無意味な適合により,実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで,データ拡張,アノテーションの効率化や一貫性の担保,能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では,Data-centric AIの概要を解説したあとに,画像認識,自然言語処理,ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では,企業における実践的な取り組みを紹介します。
こんな方におすすめ
- データセットの作成,データの学習方法に興味のある方
- 基盤モデルに興味がある方
目次
- まえがき
第1章 Data-centric AIの概要
- 1.1 Data-centric AIとは
- 1.1.1 Model-centric AIとData-centric AI
- 1.1.2 ラベルの一貫性
- 1.1.3 データセットサイズとデータ品質との関係
- 1.1.4 MLOpsの役割
- 1.1.5 ビッグデータからグッドデータへ
- 1.1.6 まとめ
- 1.2 データセットのサイズとモデルの性能の関係
- 1.3 データの品質の重要性
- 1.3.1 AIシステムにおける品質特性
- 1.3.2 データの品質が与える影響
- 1.4 おわりに
第2章 画像データ
- 2.1 画像認識におけるData-Centric AIとは
- 2.2 画像認識モデルの基礎知識
- 2.2.1 代表的な画像認識タスクとデータセット
- 2.2.2 CNN
- 2.2.3 ViT
- 2.2.4 モデルの評価方法
- 2.2.5 モデルとデータのスケール
- 2.3 データを拡張,生成する技術
- 2.3.1 データ拡張とその恩恵
- 2.3.2 人工的にデータを生成する技術
- 2.4 不完全なアノテーションからの学習
- 2.4.1 自己教師学習
- 2.4.2 半教師付き学習
- 2.4.3 モデルベースでのアノテーションデータのクリーニング方法
- 2.5 画像と言語ペアの関係性を学習した基盤モデル
- 2.5.1 CLIP
- 2.5.2 BLIP
- 2.5.3 Data-CentricなVLデータの評価とデータの安全性
- 2.6 能動学習
- 2.6.1 予測の不確かさに基づく考え方
- 2.6.2 多様性に基づく考え方
- 2.6.3 予測の不確かさとデータの多様性両方に基づく考え方
- 2.7 おわりに
第3章 テキストデータの収集と構築
- 3.1 言語モデルの事前学習
- 3.2 事前学習データの収集
- 3.2.1 必要な事前学習データの規模
- 3.2.2 データの収集戦略
- 3.2.3 HTMLからの本文抽出
- 3.3 ノイズ除去のためのフィルタリング
- 3.3.1 なぜフィルタリングが必要か?
- 3.3.2 ルールに基づくフィルタリング
- 3.3.3 機械学習を用いたフィルタリング
- 3.4 データからの重複除去
- 3.4.1 なぜ重複除去が必要か?
- 3.4.2 URLを用いた重複排除
- 3.4.3 MinHash
- 3.5 テキストデータ収集の限界
- 3.5.1 複数エポックの利用
- 3.5.2 データセットの多言語化
- 3.5.3 品質の高いデータの利用
- 3.6 おわりに
第4章 大規模言語モデルのファインチューニングデータ
- 4.1 ファインチューニングとは
- 4.1.1 ファインチューニングの概要
- 4.2 Instruction Data
- 4.2.1 よいInstruction Dataとは?
- 4.2.2 既存のデータを活用したデータセット作成
- 4.2.3 人手によるデータセット作成
- 4.2.4 大規模言語モデルによるデータセット作成
- 4.3 Preference Data
- 4.3.1 Preference Dataの作成方法
- 4.3.2 データセット
- 4.4 ファインチューニングモデルの評価
- 4.4.1 評価方法
- 4.4.2 定量的な指標による評価
- 4.4.3 人間や大規模言語モデルによる評価
- 4.4.4 評価時の注意点
- 4.5 日本語における大規模言語モデルのファインチューニング
- 4.5.1 日本語ファインチューニングモデルの構築
- 4.5.2 日本語評価データセット
- 4.6 おわりに
第5章 ロボットデータ
- 5.1 はじめに
- 5.2 RTシリーズの概要
- 5.2.1 RT-1
- 5.2.2 RT-2
- 5.2.3 RT-X
- 5.2.4 その他
- 5.3 多様なロボット
- 5.3.1 単腕ロボット
- 5.3.2 双腕ロボット
- 5.3.3 台車型ロボット
- 5.3.4 脚型ロボット
- 5.3.5 その他のロボット
- 5.4 ロボットにおけるデータ収集
- 5.4.1 ユニラテラルなオンライン遠隔教示
- 5.4.2 バイラテラルなオンライン遠隔教示
- 5.4.3 オフライン教示
- 5.5 データセット
- 5.5.1 QT-Opt
- 5.5.2 RoboNet
- 5.5.3 BridgeData V2
- 5.5.4 BC-Z
- 5.5.5 Interactive Language
- 5.5.6 DROID
- 5.5.7 その他
- 5.6 データ拡張
- 5.6.1 画像データ拡張
- 5.6.2 言語データ拡張
- 5.7 おわりに
第6章 Data-centric AIの実践例
- 6.1 テスラ
- 6.2 メタ
- 6.3 チューリング
- 6.4 LINEヤフー
- 6.5 GO
- 6.6 コンペティションとベンチマーク
- 6.6.1 Data-centric AI Competition
- 6.6.2 DataComp
- 6.6.3 DataPerf
- 6.6.4 Kaggle
- 6.7 Data-centric AI実践のためのサービス
- 6.7.1 Snorkel AI
- 6.7.2 Cleanlab
- 6.8 おわりに
この本に関連する書籍
-
大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価
「大規模言語モデル入門」の続編です。「大規模言語モデル入門」は理論と実装のバランスをとって構成しましたが,本書では実装部分で扱い切れなかった話題を取り上げ,...