前処理大全 [データ分析のためのSQL/R/Python実践テクニック]
この本の概要
データサイエンスの現場において,その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで,予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR,Python,SQLを用いた実装方法を紹介しますので,複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
目次
- はじめに
- 0-1 本書の目的
- 0-2 対象読者
- 0-3 本書の構成
Part1 入門前処理
第1章 前処理とは
- 1-1 データ
- 1-2 前処理の役割
- 1-3 前処理の流れ
- 1-4 3つのプログラミング言語
- 1-5 パッケージ/ライブラリ
- 1-6 データセット
- 1-7 データの読み込み
Part2 データ構造を対象とした前処理
第2章 抽出
- 2-1 データ列指定による抽出
- 2-2 条件指定による抽出
- 2-3 データ値に基づかないサンプリング
- 2-4 サンプリング
- 他