はじめに
今回は,
前回説明したように,
しかし,
今回は,
- ※1)
- HDFSキャッシュの機能を使うことで,
メモリ上によく使うデータなどを配置することは可能です。
Short-Circuit Local ReadsによるI/Oの高効率化
Short-Circuit Local Readsは,
通常,
なお,
- ※2)
- IImpalaはHDFSブロックの位置情報をキャッシュしているため,
Impala外からテーブルのデータファイルを変更された場合など情報が古い場合はShort-Circuit Local Readsを実行できず, HDFSのRemote Readsを実行することになります。ブロックの情報が古い場合は, Invalidate metadataコマンドを実行することで更新できます。
IO ManagerによるI/Oの並列化と先読み
次に,
- I/
O処理の先読み - ディスクごとの専用のスレッドを用いたI/
O処理
I/O処理の先読み
クエリ処理においては,
ImpalaのIO Managerにおいては,
また,
ディスクごとの専用のスレッドを用いたI/O処理
Impalaにおいては,