Asakusa on Spark Apache Logファイル解析サンプル

このサンプルは、Asakusa Framework で Apacheのログファイルを解析するサンプルです。

本リポジトリにはデータは付属していません。ご自身でご用意いただくか、 WorldCup98 などのデータをご利用ください。データは apache ディレクトリ以下に保存してください。

利用環境

本サンプルはOSX/Linuxにて実行を確認しています。

本サンプルの実行には、hadoop + sparkの実行環境が必要です。 (ローカル実行環境の構築は、sparkドキュメントや、Blog記事などを参照ください。

Apacheログファイルから、CSVへの変換に、Embulk を利用しています。

クラスタでの実行

本サンプルはMicrosoft Azure の、HDInsight で実行を確認しています。ご自身で用意したsparkクラスタ、もしくはAmazon EMR での実行も可能と思われます。

ファイルの準備

embulk run apache.yml embulkを使って、ApacheログファイルをCSVにします。出力ファイルは、logfiles 以下にできます。
ホームディレクトリで下記を行います

hadoop fs -mkdir target/testing/directio/logfiles
(ディレクトリを戻って) mv ./logfiles ~/target/testing/directio/

実行手順

ローカル環境での実行手順を記載します。クラスタ（クラウド）環境での実行については、各サービスのマニュアルをご参照ください。

gradlew sparkCompileBatchApps Spark用にソースファイルをコンパイルします。
cp -rp build/spark-batchapps/spark.example.log $ASAKUSA_HOME/batchapps
$ASAKUSA_HOME/yaess/bin/yaess-batch.sh spark.example.log YAESSによりアプリケーションを起動します。

確認

$HOME/target/testing/directio/logsummaries にステータスコード 200のログファイルの集計が、 $HOME/target/testing/directio/urlsummaries にステータスコード 200以外の集計結果が出ています。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
imgs		imgs
src		src
.gitignore		.gitignore
README.md		README.md
apache.yml		apache.yml
build.gradle		build.gradle
gradlew		gradlew
gradlew.bat		gradlew.bat

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Asakusa on Spark Apache Logファイル解析サンプル

利用環境

クラスタでの実行

ファイルの準備

実行手順

確認

About

Releases

Packages

Contributors 2

Languages

nautilus-sekiguchi/asakusa-apache-example

Folders and files

Latest commit

History

Repository files navigation

Asakusa on Spark Apache Logファイル解析サンプル

利用環境

クラスタでの実行

ファイルの準備

実行手順

確認

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages