PCで作る大規模分散処理ラクスター
Googleの技術から生まれたオープンソースフレームワーク
Googleの技術から生まれたオープンソースフレームワーク
本書はオープンソースの分散処理実行基盤「Hadoop(ハドゥープ)」の解説書です。
Hadoop は、Googleなどの巨大サイトで稼動するシステムを再現したオープンソースソフトで、複数のコンピュータを連携させて実行できます。今まで処理することができなかったバイト~ペタバイト級の巨大ファイルも扱えるようになり、商用規模のアクセスログ解析、We検索の索引作成、POSデータの傾向解析などでの応用が期待されています。また、接続するコンピュータ(ノード)の追加による処理能力の増強や、一部のノードが停止しても縮退運転ができるという特徴を持っています。
本書ではHadoopの導入からシステム構築、JavaによるHadoopアプリケーションの作り方、ノード追加時の省力化、各種の周辺ソフトウェアの連携になどについて詳しく解説します。Hadoopを理解したい初級者の方から、業務への適用を検討している方にも役立てていただけます。
この本で学べること
ノード追加による処理能力向上
縮退運用可能アーキテクチャ
巨大アクセスログの解析
Web検索のインデックス作成
POSデータ分析など、 テラ ~ ベタ バイト級の高速バッチ処理を実現 ほか
Hadoopと周辺プロダクトを充実解説
→ 分散ファイルシステム : HDFS
→ Javaフレームワーク : MapReduce
→ システム可視化ツール : Ganglia
→ Key-Value型データベース : HBase
→ SQL的処理I/F : Hive