レポート

データサイエンスの実践に必要な4つの柱とは? ―「PyCon Malaysia 2019」レポート

この記事を読むのに必要な時間:およそ 6 分

キーノート「Practical Python and Jupyter for Data Science and Beyond」―Carol Willing

Carol Willing氏

Carol Willing氏

カンファレンス2日目のキーノートはCarol Willing氏です。Carol氏はPythonの仕様策定を行うPython Steering Councilのメンバーの1人で,US PyConでのCouncilメンバーによるキーノートで初めて知りました。その様子については以下のレポートを参照してください。

参考:
第3回 3日目朝のLT紹介,キーノートはPython仕様策定のキーパーソンによるパネル:世界最大のPythonカンファレンス「US PyCon 2019」レポート

Carol氏はProject JupyterのSteering Councilでもあり,Core開発者としてJupyteHub,BinderHubなどの開発をしているそうです。またnteractというJupyter NotebookのUIやデータ可視化を強化したアプリケーションのコアメンテナーでもあるそうです。

最初に「実践的なデータサイエンス」にはPython,Jupyter,Knowledge,Communityが必要であると述べて,それぞれの要素について深掘りしていきました。

Python

Pythonは成長(Growth)しており,サードパーティーのライブラリを開発する強いコミュニティがあります。Pythonはデータサイエンスだけでなく,Web,科学,DevOps,組み込みシステム,教育などさまざまな分野で使用されています。

言語の運営(Governance)については,PEP 8016によってGuidoがBDFL(最終的な言語策定者)を引退した後に,Steering Councilによる運営が決まりました。現在はCarol,Guidoを含めた5名のCouncilメンバーで運営されています。

Python 3.8は現在beta4がリリースされており,試すことが可能です。位置指定のみ引数,代入演算子,fリテラルの = 記号など新機能についても紹介がありました。

最後にPython 2へのお別れということで,py3readiness.orgというサイトでは最もメジャーな360のパッケージが全てPython 3に対応していること,pythonclock.orgでPython 2.7のサポート期限切れまでがカウントダウンされていることが紹介されました。

Jupyter

Carolさんは2014年にIPython Notebook(Jupyter Notebookの以前の名前です)を使ってPythonを教えていたそうです。そこから5年でGitHub上には500万以上のNotebookファイルが置かれるようになりました。

また,Project Jupyterは2017年にACM Softoware System Awardを受賞しており,そのときのプロジェクトののビデオが紹介されていました。

Knowledge

最初にPythonでデータサイエンスをするための準備(Prepare)が必要であるとの説明がありました。最初はWebブラウザ上でBinderなどを使って試し,次にPythonをインストールして,Python上に必要なライブラリをインストールします。そしてエディタなどのツールを選択しましょうという説明でした。パッケージ管理ではpipconda両方を説明していました。

次にデータの探索(Exploration)について説明がありました。自分が興味ある分野からはじめ,PandasやMatplotlibなどのライブラリのチュートリアルを試し,書籍やカンファレンスのビデオで学び,コミュニティに参加しようという提案がされていました。また,最新の情報を追いかけるために,Talk Python to Meなどが紹介されていました。

そして次にプロトタイプの作成(Prototyping)について説明がありました。実際にシステム化する前にプロトタイプを作成することが説明されていました。さまざまなライブラリを活用して,データをJupyter Notebook上で可視化するサンプルが紹介されていました。

最後は実際にシステムを製造(Production)するフェーズです。データサイエンスのシステムをスケールさせるため,以下のツールが紹介されていました。

  • Papermill:パラメータを指定してNotebookをバッチ実行するツール
  • Scrapbook:Notebookの実行結果を記録するためのツール
  • Bookstore:Notebookファイルを管理するためのツール
  • Commuter:NotebookをWebで共有するためのツール

これらのツールを使用した具体的なデータ分析システムのアーキテクチャーも紹介されていました。

Community

最後にコミュニティについて述べられました。コミュニティによって作成されたプログラミング言語によって,このPyCon Malaysiaのように素晴らしいイベントが開催されていることについて触れられました。コントリビューターが開発などで時間的な貢献をし,スポンサーが金銭的な貢献をすることで,プログラミング言語とコミュニティが継続的に発展しています。そしてPythonの未来はここにいるみんなに依存しているというメッセージがありました。

PythonやJupyterの基本的な情報から,データサイエンスで実際に開発するためのノウハウなど,非常に幅広い内容のキーノートでした。また,このキーノートとは直接関係ありませんが,Carol氏はさまざまなトークに最前列で参加して積極的に質問もしており,非常に前向きにこのイベントに参加していることを感じました。

ちなみに娘さんが日本在住だそうで「日本に来るときはぜひ連絡ください」と伝えておきました。

著者プロフィール

鈴木たかのり(すずきたかのり)

一般社団法人PyCon JP,副代表理事,株式会社ビープラウド所属。

部内のサイトを作るためにZope/Ploneと出会い,その後必要にかられてPythonを使い始める。PyCon JPでは2011年1月のPyCon mini JPからスタッフとして活動し,2014年-2016年のPyCon JP座長。他の主な活動は,Pythonボルダリング部(#kabepy)部長,Python mini Hack-a-thon(#pyhack)主催など。

共著書に『Pythonによるあたらしいデータ分析の教科書(2018 翔泳社刊)』『Pythonプロフェッショナルプログラミング 第3版(2018 秀和システム刊)』『Pythonエンジニア ファーストブック(2017 技術評論社刊)』『いちばんやさしいPythonの教本(2017 インプレス刊)』などがある。

最近の楽しみはPython Boot Campの講師で訪れた土地で,現地のクラフトビールを飲むこと。2019年は世界各国のPyConでの発表に挑戦している。趣味は吹奏楽とボルダリングとレゴとペンシルパズル。

Facebook:takanory.net

Twitter:@takanory

Github:takanory

バックナンバー

2019年

  • データサイエンスの実践に必要な4つの柱とは? ―「PyCon Malaysia 2019」レポート

バックナンバー一覧