噂の超高速分析データベースを試してみよう~ログ解析,機械学習なんでもござれ~
第3回 あのシステムもビッグデータ分析や機械学習に活用中! 超高速データベース「Vertica」とは?[後編①]
前回のおさらい
前編では,
後編となる今回は,
Hadoopとの連携
ビッグデータ基盤というと,
それでは,
- ① HDFS上のデータをVerticaにロードする
- ② HDFS上のデータを外部表としてアクセスする
- ③ Hadoopのテーブル定義を利用し,
Hiveを通じてHDFS上のデータにアクセスする
これらの3つを図解したものが図1です。
最もシンプルで高速なパフォーマンスを得られるのは①の方法です。図2のように,
図2 Hadoop上のデータをVerticaにインポート
COPY testTable SOURCE Hdfs(url='http://hadoop:50070/webhdfs/v1/test.txt',username='hadoopUser');
一方,
Sparkとの連携
昨今,
- SparkのData FrameのボリュームをVerticaのテーブルに書き込む
- VerticaのデータをSparkのResilient Distributed Datasets
(RDDs) またはData Frameに取り込み, Spark上で処理する
これによって,
29個のクエリ処理が完了するまでの時間を比較したTPC-DSベンチマークテストでは,
半構造化データ活用 (Flex Table)
HadoopやSparkに格納されるログデータや,
たとえばJSONの場合,
それでは,
リスト1 JSONファイル
{ "name":"Everest", "type":"mountain", "height":29029, "hike_safety":34.1 }
{ "name":"Mt St Helens", "type":"volcano", "hike_safety":15.4 }
図4 Flex Tableの作成
CREATE FLEX TABLE mountains();
図5 Flex Tableへのデータロード
COPY mountains FROM '/tmp/sample.json' PARSER fjsonparser();
図6 Flex Tableの参照
SELECT name, type, height, hike_safety FROM mountains; name | type | height | hike_safety --------------+----------+--------+------------- Everest | mountain | 29029 | 34.1 Mt St Helens | volcano | | 15.4
なお,
リアルタイムデータ連携 (Apache Kafkaとの連携)
最近では,
たとえば,
図8 KafkaのメッセージをVerticaにインポート
/opt/vertica/packages/kafka/bin/vkconfig scheduler --add --config-schema kafka_config --username dbadmin --password XXXXX --dbhost 192.168.0.1 --dbport 5433 --frame-duration 00:00:10
このKafka連携と,
今回はHadoopやSpark,
「Vertica技術情報サイト」,
- Vertica事例セミナー
『Verticaで解決したビジネス課題』 - URL:https://
mp. ashisuto. jp/ public/ seminar/ view/ 7464 概要:実際に
「Vertica」 を導入したユーザー3社様にご講演いただきます。生の声をお聴き逃しなく!
本誌最新号をチェック!
WEB+DB PRESS Vol.122
2021年4月24日発売
B5判/168ページ
定価1,628円
(本体1,480円+税10%)
ISBN978-4-297-12119-8
- 特集1
上から下まで全レイヤ解説! 複雑化した世界を体系的に学ぶ
Web技術総整理 - 特集2
新バージョン登場! PythonによるWeb開発の基本
はじめてのDjango - 特集3
Rustで実装!
作って学ぶRDBMSのしくみ
バックナンバー
噂の超高速分析データベースを試してみよう~ログ解析,機械学習なんでもござれ~
- 第4回 あのシステムもビッグデータ分析や機械学習に活用中! 超高速データベース「Vertica」とは?[後編②]
- 第3回 あのシステムもビッグデータ分析や機械学習に活用中! 超高速データベース「Vertica」とは?[後編①]
- 第2回 あのシステムもビッグデータ分析や機械学習に活用中! 超高速データベース「Vertica」とは?[前編②]
- 第1回 あのシステムもビッグデータ分析や機械学習に活用中! 超高速データベース「Vertica」とは?[前編①]