この記事を読むのに必要な時間:およそ 0.5 分
データサイエンティストの必須知識を総点検
「ビッグデータ」はデータを扱う人たちにとってはもう聞きたくないくらい耳にしている言葉でしょう。それくらいここ数年でビッグデータに関するアプローチや対策が多くたてられてきました。しかし,みなさん,誤解していませんか?「ビッグデータ」とは単純にサイズが大きいデータという意味だけではなく,最近ではさまざまな種類や形式が含まれる非定型性と日々生成・記録される時系列性の両方の性質をもつデータという意味で使われることがほとんどです。ということは,その非定型や時系列といったデータの性質,扱い方をきちんと知らなければ,大量のデータも宝の持ち腐れになってしまうのです。
本書では,データサイエンティストの基礎知識として,データの取得から浄化,加工,ブラウジング,解析,モデル化・・・というようにデータをトータルで扱っていきます。また,実際のデータを使用して解説しているので,そのときに起こりそうな関心事や問題,注意点にも触れ,データサイエンティストの現場にそった構成になっています。
トータルでデータを駆使する人こそ,本当のデータサイエンティストであり,今後さらに需要が増すと考えられます。
本書では,Rというフリーソフトウェアを使います。さまざまなOS上で無料で,しかもデータの視覚化を通じてデータ分析を対話的に進めることができるというとてもありがたいソフトです。