米Amazonの子会社であるAmazon Web Services(AWS)は、2009年4月2日にHadoopを使って分散処理を行う環境「Amazon Elastic MapReduce」のβサービスを開始しました(図1)。AWSが提供している仮想サーバ環境のAmazon EC2やストレージサービスのAmazon S3を組み合わせて、HadoopによるMapReduce処理を行えるようになっています。
これまで、ログ解析などの大量なデータを処理したり、科学計算などの時間がかかる処理を行ったりするには、大容量のストレージや高性能のサーバが必要でした。しかし、頻繁に利用するのでなければ、マシンの購入費や維持費などを考えるとコストパフォーマンスが良くありません。このような課題に対して、Amazon EC2とAmazon S3を組み合わせてHadoopを自前でインストールする事例がありましたが、今回のAmazon Elastic MapReduceの登場により、もっと手軽に構築し実行できるようになりました。また、HadoopStreamingの利用を想定して科学計算処理ライブラリ「SciPy」やHTMLパーサ「BeautifulSoup」などのPythonライブラリがあらかじめインストールされているところもうれしい点です。
実際に使用してみたブログ記事では、「100台を1時間使用しても1,000円程度の値段で済んでしまうのは凄い」とコストパフォーマンスを称賛する一方「ジョブが失敗したときに何が悪かったのかがまったく表示されない」とデバッグ面での不満も挙げています。
URL:http://aws.amazon.com/elasticmapreduce/