レポート

Fluentd,EmbulkなどTreasure Dataの最新技術を総チェック! 「TD Tech Talk 2018」レポート

この記事を読むのに必要な時間:およそ 4 分

Embulk v0.9

EmbulkとはFluentdのバッチ版のようなもので,さまざまなサービスやミドルウェアにあるデータをバルク(一括)で転送し,収集するソフトウェアです。三廻部大(@dmikurube)氏の講演「Embulk v0.9」では,ここ数ヵ月間に追加された新機能や過去バージョンとの互換性について発表されました。

Embulkの新機能を紹介する三廻部大氏

Embulkの新機能を紹介する三廻部大氏

まず,Embulk v0.8.21~v0.8.39での大きな変更点として,以下の変更が紹介されました。

  • Pure-Javaプラグインが動作可能に
  • 起動シーケンスのPure-Java化(Pure-Javaプラグインのみを使う場合は,JRubyを介さないため,起動が高速に)
  • TimestampParserのPure-Java化(タイムスタンプのパースが高速に)

そして,2018年1月末にリリースされたv0.9.0での大きな変更点として,

  • EmbulkのベースがJava 7からJava 8に変更

が報告されました。これにより,プラグイン開発者はJava 8の機能を使って開発できるとのことです。

さらに,今後(v0.9.5以降)は次の2点の対応を予定していることが紹介されました。

  • ログをほかのチャンネルに出力する機能(Reporter Plugins)
  • データタイプとしてバイナリ型を追加

講演の後半では,Embulk v0.9.0以降で,互換性がなくなった機能や非推奨になった機能についても紹介が行われました。

  • いくつかのAPI/SPIのメソッドやクラスが使用不可に(おもにTimestampのデータを扱っているもの,JRubyに近いメソッドを呼んでいるもの)
  • v0.9.0以降はEmbulkのgem形式でのリリースはなし(リリースはjar形式のみ)
  • Bundler(Gemfileの記述)の変更
  • プラグインのインストールディレクトリの変更
  • Timestampフォーマットの変更

Treasure CDPシステムアーキテクチャ

2月19日のイベントからは,古橋貞之(@frsyuki)氏の講演「Treasure CDPシステムアーキテクチャ 10億ユニークデバイスをリアルタイム追跡するシステム構築」を紹介します。

最近のデジタルマーケティング業界では,CDP(Customer Data Platform)というキーワードをよく見かけます。これはさまざまなシステム上の顧客データを集め,同一顧客に関する情報をひもづけて管理し,他システムと連携することにより,さまざまなマーケティング施策に活用することを目的としたシステムです。

トレジャーデータも2017年7月に新サービス「Treasure CDP」をリリースしました。古橋氏の講演では,そのシステムアーキテクチャについて解説が行われました。

デモを交えながらTreasure CDPについて解説する古橋貞之氏

デモを交えながらTreasure CDPについて解説する古橋貞之氏

各企業が持つ顧客データは,データベースやCRM(Customer Relationship Management)システムなどに散在しているだけでなく,そこにセカンドパーティ,サードパーティのデータをくっつけたいという用件が加わったりして,日々複雑化していると言います。それらを統合して,ユーザ企業が有効に活用できるようにするのが,トレジャーデータの役目です。

ユーザ企業からは,顧客のデータをDSP(Demand-Side Platform)につなげたい,SNSにプッシュしたい,データをもとにレコメンデーションしたいといった要求が発生しています。しかも,⁠各システムに散らばった全データを突合して解析したい」⁠⁠できればSQLなしでやりたい」⁠⁠リアルタイムでやりたい」ということも求められます。それがTreasure CDPを開発するにいたった背景だそうです。

先の要求を実現するために,技術的には何を解決しないといけないのかというと,次のようなことが挙げられます。

データスキーマの統合
  • IDの統合,不整合の解決
  • ごちゃごちゃしたスキーマを単純化
  • 複数Cookieドメイン間のデータ結合
  • サードパーティデータの結合
解析
  • SQLの知識なしでも使える解析UI
  • 機械学習の知識がなくても使える推定,最適化
解析結果を実サービスや物理店舗へフィードバック
  • レコメンデーション,パーソナライズ
  • 広告/配信サービスへの連携
リアルタイム処理

Customer Data Platformに求められる技術

Customer Data Platformに求められる技術

これらを実現するためのCDPシステムのアーキテクチャとして次の3つが紹介されました。

  • ① GUI上で定義したAudienceルールをもとにデータセットを作るしくみ
  • ② GUIでデータセットをリアルタイムに解析(セグメンテーション)するしくみ
  • ③ セグメンテーション結果を実サービスにフィードバックするしくみ

Treasure CDPはこの3つのシステムで成り立っており,それぞれシステムにおいて,トレジャーデータのOSSを活用しているとのことです。

Treasure CDPの概要

Treasure CDPの概要