レポート

「PyCon DE & PyData Berlin 2019」レポート

この記事を読むのに必要な時間:およそ 4 分

注目セッション

今回の3日間のイベントで100本以上のトークとチュートリアルがありました。筆者が見た中から3つをご紹介します。なお,データサイエンス寄りな筆者の興味に沿って見ていたので,トーク全体のテーマの分布(母集団)に比べてサンプルにバイアスが掛かっていることをお断りしておきます。

Time series modelling with probabilistic programming ―Sean Matthews,Jannes Quer

プロジェクトの課題と解決策の概要

プロジェクトの課題と解決策の概要

短期間の時系列データに基づく売上予測をガウス過程回帰を用いて行なったプロジェクトの課題と解決策,結果を説明していました。ある医薬品の売上が予測の対象だったそうで,同じ業界に身を置く筆者も今後の参考になると思い,トークを聞いていました。

ガウス過程回帰の実装にはPyStanを用いたそうです。この手のテーマはRでStanを使って実装したケースはよく見かけるので,PyStanでも同じようにできるというのは新鮮でした。

会場から「他の手法ではダメなのか?」という質問がありました。スピーカーは「時間の制約が強いプロジェクトだったので,確実と思われる手法を用いて何らかの使える成果を早く出す必要があった」と答えていました。筆者は業務で新旧のさまざまな手法を試したくなることが多いのですが,一方で,このスタンスは重要だと思いました。

Static Typing in Python ―Dustin Ingram

スピーカー:Dustin Ingram氏

スピーカー:Dustin Ingram氏

スピーカーはPyCon JPでも別の内容でトークをしていました。聞くところではPyCon Taiwanでもまた別の内容でトークをしていたそうで,1ヵ月間に3つの異なるトークをするのはすごいですね!

PyCon DEではPythonにおけるstatic typing(ないしtype check)についてのトークでした。Static typingの使用方法を説明した後に,それを使うべき場合と使うべきでない場合について議論していました。筆者はtype checkのあるPythonコードを書くことは普段少ないですが,今後は意識したいと思いました。

Making the complex simple in data viz ―Tania Vasilikioti

ggplot2とその作者(の1人)のHadley Wickham

ggplot2とその作者(の1人)のHadley Wickham

Pythonのデータ可視化ライブラリーを比較しつつ,Grammer of Graphics(Rのggplot2パッケージの基礎となっているデータ可視化の考え方)をPythonでどう実現するか,コード例を交えて説明していました。

前述のコード例に加えて,Pythonの複数のグラフ描画ライブラリの比較を見るだけでも勉強になりました。筆者はPythonでは普段はmatplotlibだけなので,他のライブラリーを試してみようと思いました。

筆者のトーク

Friend or Foe: Comparison of R & Python in Data Wrangling & Visualisation ―Yuta Kanzawa

データ加工と可視化についてRとPythonを比較しました(スライドはこちら⁠。

よく参加する,いくつかのもくもく会で構成を考えたり,スライドを作成したりました。完成後,友人に査読してもらい,加筆修正をしました。また,当日朝にもホテルの部屋で練習をしました。本番は緊張しましたが楽しめました。時間は守れました(はず⁠⁠。ただ,投影されたスライドが思ったより小さくて,コードは読みづらかったかも知れません。

Rが未経験もしくはほとんど使ったことがないという層を対象にしていたのですが,トーク冒頭にRの使用経験を会場に聞いたところ8割くらいの手が上がり,想定よりもレベルが上の人が多い状況だったと思います。一方で,カンファレンス開幕前夜に知り合った人からは「Rの知識はなかったが,わかりやすかった」というコメントをもらいました。

発表後いくつか質疑がありました。⁠Rの処理速度はPythonとどう違うか?」という質問には,⁠経験上は差を感じたことがない。ただし,Rはメモリにデータ全体をロードしようとするので,大きなサイズ(例えば100GB)のデータならPythonの方がよいと思う。」と答えました。

スクリーンのサイズに比べて小さい投影範囲

スクリーンのサイズに比べて小さい投影範囲

著者プロフィール

神沢雄大(かんざわゆうた)

ヤンセンファーマ株式会社(ジョンソン・エンド・ジョンソンの製薬部門)にデータサイエンティストとして勤務。営業組織及びマーケティング部門と協働し,データサイエンスを通じて意思決定をサポートしている。データ分析の経験は7年を超える。業務ではRとPythonを使うことが多い。フリーランスのデータサイエンティスト,Pythonエンジニアとしても活動している。主な使用言語は日本語,英語,ドイツ語,R,Python,SAS,SQLの7つ。

Twitter:@yutakanzawa
LinkedIn:Yuta Kanzawa