詳解 Apache Spark

出版社:技術評論社
ISBN:978-4-7741-8124-0
本体価格:3,600円
発売日:2016年04月29日
著者:下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門 著

詳細は技術評論社サイトへ

 

この本の概要

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ,バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため,さまざまなシーンのデータ分析を強力にサポートします。

本書では,Sparkの分散処理の基礎であるRDDのしくみ,Sparkを構成する各コンポーネントの機能を理解するところからはじめます。 さらにSparkクラスタの構築と運用,構造化データを処理するためのDataFrame APIとSpark SQL,ストリーミング処理のためのSpark Streaming,機械学習ライブラリMLlib,グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。

また基本機能の解説だけではなく,多くの実践的な利用例を通してSparkを理解し,アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し,実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して,Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して,GraphXアプリケーションの実装方法が学べます。 SparkはScala,Java,Python,Rのプログラミングインタフェースを提供していますが,本書ではScalaで解説をします。

こんな方におすすめ

  • データ分析者,データサイエンティスト,インフラエンジニア

目次

第1章 Sparkの基礎

  • 1.1 Apache Sparkとは?
    • 1.1.1 SparkとMapReduce
    • 1.1.2 Sparkの実行環境
    • 1.1.3 Sparkの歴史
  • 1.2 Sparkのテクノロジースタック
    • 1.2.1 Spark Core
    • 1.2.2 Spark SQL
    • 1.2.3 Spark Streaming
    • 1.2.4 MLlib
    • 1.2.5 GraphX
  • 1.3 Sparkの利用者とそのメリット
    • 1.3.1 データサイエンティスト
    • 1.3.2 データエンジニア
    • 1.3.3 アプリケーションエンジニア
    •  
 

ページTOPへ