はじめてのHadoop ~分散データ処理の基本から実践まで

出版社:技術評論社
ISBN:978-4-7741-5389-6
本体価格:3,800円
発売日:2012年11月27日
著者:田澤孝之,横井浩,松井一比良 著

詳細は技術評論社サイトへ

 

この本の概要

「いままで数千時間かっていた処理が,100分の1以下の時間で終わるようになった」

など,大量/多種のデータを効率よく処理できる手段として注目されているHadoopの仕組みと利用法をやさしく解説。最も現場で利用されているディストリビューション・CDHのバージョン3と,最新のHadoop2.0をベースにしたCDH4に対応,ポイントや注意点を丁寧にフォローしています。

序文はHadoopの生みの親,Doug Cutting氏。
これからHadoopを学びたい方に最適の1冊です。

こんな方におすすめ

 

目次

第1章 Hadoopを知る

1-1 Apache Hadoopとは

1-2 なぜHadoopが必要となるのか

1-3 アーキテクチャを理解する

1-4 さまざま視点から導入を検討する

1-5 Hadoopエコシステムを理解する

第2章 ディストリビューションとインストール

2-1 Hadoopを利用するにあたって

2-2 ディストリビューションを確認する

2-3 Hadoopを使う準備をする

2-4 Hadoopをインストールする

2-5 基本設定をする

2-6 スタンドアローンモードで動作させる

2-7 擬似分散モードでMRv1を起動する(CDH3)

2-8 擬似分散モードでYARNを起動する(CDH4)

2-9 Webユーザーインタフェースを利用する

第3章 アーキテクチャを理解する

3-1 クラスタのしくみ

3-2 HDFSのしくみ

3-3 Hadoop2で追加されたHDFSの機能拡張

3-4 MapReduce 1のしくみ

3-5 次世代MapReduce「YARN」とは

第4章 ファイルシステムを操作する

4-1 HDFSとは

4-2 HDFSを操作する

4-3 ファイルパーミッションを設定する

4-4 HDFSをメンテナンスする

第5章ノンプログラミングでデータを操作する

5-1 Hiveを使ってデータを操作する

5-2 Pigを使ってデータを操作する

第6章 プログラミングでMapReduceを使う

6-1 MapReduceの基礎を知る

6-2 MapReduce ジョブの実装を理解する

6-3 コンパイルから実行までの手順を確認する

6-4 テストの考え方

6-5 MapReduceジョブを操作する

6-6 Hadoop Streamingを利用する

第7章 ランダムアクセスできるデータベースとして使う

7-1 カラム指向データベース「HBase」を活用する

7-2 HBaseのアーキテクチャとは

7-3 HBaseを利用するには

7-4 HBaseシェルとは

7-5 HBase APIを活用する

7-6 ブログアプリケーションを作成する

第8章 クラスタを構成する

8-1 クラスタの構築を検討する

8-2 CDH3でクラスタを構築する

8-3 CDH4でクラスタを構築する

8-4 CDH4で高可用性HDFSを構築する

付録

A-1 Sqoopを利用する

A-2 参考文献

今後の学習のポイント


ページTOPへ