Data-Intensive Text Processing with MapReduce

メリーランド大学のJimmy Lin准教授がメインで執筆した、MapReduceに関する英語のテキストがPDFで公開されています。扱っているMapReduceのモデルが、オープンソースのMapReduce実装であるHadoopが前提になっていることが特徴的で、Hadoopを実際に触っていれば用語やしくみなどで理解を早めることができます。

内容は、大量のデータを伴うテキスト処理についてどうMapReduceに適用させるかについて解説しています。Mapper、Reducer、CombinerなどMapReduceの基礎から始まり、「⁠セカンダリソート」や「Pairs and Stripes」など、MapReduce特有のアルゴリズムやデザインパターンの解説を行っています。そして、検索インデックスの作成やグラフアルゴリズム、EMアルゴリズムといった各アルゴリズム実装について、MapReduceをどう適用させるかについて解説しています。

EMアルゴリズムの適用事例として統計的機械翻訳が挙げられていますが、コードレベルの実装について深く書かれておらず、コード例もすべて擬似コードで示されているため、実際のアプリケーションに適用する際は別途考慮する必要があります。

このテキストは、2010年8月頃には紙媒体での出版も予定されているようです。ちなみに、Jimmy Lin准教授はこのほかにもHadoop用ライブラリ「Cloud9」や、Hadoopベースの検索エンジン構築ツールキット「Ivory」などのオープンソースを公開しています。

URL：http://www.umiacs.umd.edu/~jimmylin/book.html