Azure HDInsight Spark を試してみた2

JMT西森です。

今回は、話題をAzure HDInsight Sparkに戻して、
前回作成した Azure HDInsight Spark 環境が
どんな状態になっているのか見てみます。

Azure Consoleの画面下にある、「SPARK DASHBOARD」を選択します。
20151112_001

IDとパスワードの入力を求められるため、
前回指定したIDとパスワードを入力してください。
認証に成功すると下記画面が表示されます。
20151112_002
ここでSpark環境の状態確認や、Storage Account上の
データの確認、Hiveを使用したクエリ実行が可能です。
他にもJUPYTER NOTEBOOKやZEPEPLIN NOTEBOOKへのリンクがあり、
Webブラウザ上からPythonやSparkSQLを使ったグラフ化等が可能です。

1. Resource Manager
Spark環境の様々なパラメータを確認、変更することが可能です。
20151112_003

2. Notebooks
Jupyter Notebook 及び Zeppelin Notebook へのリンクがあります。
また Azure Console 画面下にもリンクがあります。
20151112_004

3. File Browser
Spark環境が使用している、Azure Storage Account が表示されます。
アカウントをクリックするとコンテナが表示され、さらにそのコンテナを
クリックすると各フォルダが確認できます。
20151112_005

アカウント名をクリックすると、コンテナが表示されます。
20151112_006

コンテナをクリックすると、各フォルダが表示されます。
20151112_007

4. Hive Editor
Hive(リンク)を使ったSQL(HiveQL)の発行、及び結果の参照が可能です。
デフォルトではサンプルテーブルに対するSelect文が埋め込まれており、
この状態のまま右下の「Submit」をクリックすることで処理が実行されます。
20151112_008

ジョブが完了した(StatusがComplated)ら、「View Details」を選択します。
20151112_009

サンプルデータを確認することができます。
「Job Queue」が発行したHiveQL文になります。
「Job Output」が実行結果になります。
「Job Log」がHiveQL実行ログになります。
20151112_010
なおどちらも、Download Filesボタンで出力をファイルでダウンロード可能となっています。

ちなみにサンプルデータとなる hivesampletable の実体は、Storage Account上にあるテキストファイルです。
先程の「File Browser」から辿っていくことで、実体ファイルを確認することが可能です。
20151112_011

5. Quick Links
各種ドキュメントへのリンク集です。

今回説明したのはWebブラウザ上で出来ることのみ記載しましたが、
中身はWindows Serverなので、RDPでOS環境に接続することも可能です。

次回はサンプルデータを使って、Hiveを使用した解析を行ってみたいと思います。

LINEで送る