SyntaxHighlighter

2012年5月13日日曜日

Twitter Ambroseを使ってみた。

GitHubを眺めていたら気になるプロダクトがあったので、
早速使ってみた。

Twitter Ambroseとは、
MapReduceジョブをリアルタイムにビジュアル化してモニタリングするツール。
要は、MapReduceジョブを見える化して最適化のお手伝いをするツールである。

こんな感じ。














Bootstrapを使ったUIで洗練されていてカッコいい。
このグラフの意味するものは、下記の通り。(直訳)

円の上の弧セグメントはそれぞれMapReduceジョブを表わします。
ジョブ同士の依存性は、セグメントを接続する弦によって表わされます。
灰色のジョブはまだ走っていません。明るいグリーン・ジョブは走っています。
また、ライトグリーン仕事は終わります。
ジョブがそれぞれ二分されることに着目してみてください。
弧の2分の1の上の弦は先行ジョブに接続します。その一方で他方の半分上の弦は後継者仕事に接続しています。
例えば、仕事より下の図形では、10と13は前任者を持っていません。
また、仕事8および18はブタ・ワークフローでの最終仕事です。
示された弦図形が私たちの最初であることに注目する、
ワークフローの視覚化で通過する、また、改良の余地があります。
私たちは、ワークフローDAGのグラフのように、同様に他のビジュアル化を支援したい。
改善されたビジュアル化を開発する場合は、必ず私たちに引くことリクエストを送ってください!
(powered by Exceite.翻訳)



で、早速使ってみた。
今回は、Hadoopの疑似分散環境で実行してみる。
また、実行環境はPigを選択した。

テストデータとして以下のような入力データを準備

a A 1
b B 2
c C 3
a AA 11
a AAA 111

実行するPigスクリプトは

one = load 'input/one.txt';
grouped = GROUP one BY $0;
summed = FOREACH grouped GENERATE group, SUM(one.$2);
DUMP summed;


そして、実行してみた。













んー、実にシンプル。疑似分散環境(対象データの量が少ない)だから仕方ない。
でもすんなり導入できそう。

現在、サポートしている実行環境はPigだけで、
今後、サポートする実行環境を増やしていくそう。

Twitter AmbroseをGAEで動かすぞ。と意気込んではみたが、
課題が。(まずはMapReduceをなんとかせんと、そしてPig…orz)

ってまあ僕自身もまだ生まれたてのヒヨッコHadooperなので、
まずは、見た目重視ってことで。

ではでは、次回はGAEのMapReduceの続きでも。



0 件のコメント:

コメントを投稿