- 在庫状況:在庫あり(1〜2日で出荷)
- 統計的データクリーニングの理論と実践
-
Rによるデータ編集/欠測補完システム
共立出版
マーク・ファン・デル・ロー エドウィン・デ・ヨンゲ 地道正行 橋雅夫 藤野友和- 価格
- 6,380円(本体5,800円+税)
- 発行年月
- 2022年02月
- 判型
- B5
- ISBN
- 9784320114630
この商品をご覧のお客様は、こんな商品もチェックしています。
- 数学ソフトウェアの作り方
-
価格:3,850円(本体3,500円+税)
【2022年10月発売】
- ゾルーゲル法の最新応用と展望《普及版》
-
価格:6,380円(本体5,800円+税)
【2020年12月発売】
- 引用と借景
-
価格:2,420円(本体2,200円+税)
【2018年03月発売】
[BOOKデータベースより]
本書は、数値データやカテゴリデータ、文字列や日付といった様々なタイプのデータを含むファイルをクリーンにするために、公的統計の分野で長年培われてきた技術と理論を幅広くまとめ、汎用的なデータクリーニングシステムをRで構築する方法を紹介する書籍です。Rにおけるデータ表現やデータ構造に関連する技術面についても詳しく解説するとともに、個別のデータ項目に関する知識に基づくルールを用いて統計的にデータを検証し、複数の項目が絡むエラーがある場合に修正すべき最小限の項目を特定し、修正あるいは欠測の補完を行うための様々な方法論も説明しています。
第1章 データクリーニング
[日販商品データベースより]第2章 R入門
第3章 データの技術的な表現
第4章 データ構造
第5章 テキストデータのクリーニング
第6章 データ検証
第7章 データレコード内のエラー局所化
第8章 ルール集合のメンテナンスと単純化
第9章 ドメイン知識のためのモデルベースの方法
第10章 補完と調整
第11章 事例:小規模なデータクリーニングシステム
統計的なデータクリーニングシステムを構築するための包括的なガイド
データクリーニングとは、入手した原データを、分析に耐えうる品質にするために、エラーや矛盾する値を検出・修正し、欠測を補完する作業のことで、データ分析においてしばしば最も時間のかかるプロセスである。公的統計分野において、この分野は「データ編集」とも呼ばれ、この50年余に多くの知見が蓄積されてきたが、一般の統計のコミュニティにおける文献は多くない。
本書は、2013年に開催された世界規模のRユーザーカンファレンスであるuseR!2013において行われたデータクリーニングのチュートリアルがきっかけとなり,オランダ統計局の研究部門に所属する著者によって書かれている。近年のビックデータ時代の到来により、調査集計を行う公的統計部局は行政記録その他の幅広いデータを取り扱うようになるとともに、より広い分野においてもデータの入手が容易になったためにデータクリーニングの要請は広がり、公的統計分野での知見はより多くの分野で役立つ可能性を持っている。
著者は、本書で紹介されるデータ検証やエラーの局所化、エラー修正のための様々な方法や欠測値の補完といった様々なデータクリーニングのためのRのパッケージの多くを開発しており、実際に使用するためのコード例も豊富に掲載され、数値やテキスト、日付等のデータの取り扱いや、数値計算時の留意点など、プログラミングに関する内容も収録されている。
本書の特徴
データ分析を行う際に、しばしば最も手のかかるデータクリーニングに焦点を当て、理論とRによる実装の双方向から解説
アドホックで、データ毎に異なるカスタムメイドのクリーニングシステムではなく、汎用性を重視した構築の方法論も解説
データの矛盾を解消し、欠測を補完するための統計的手法、バッチ処理化やデータ変遷のモニタリングについても解説
〔原著〕Statistical Data Cleaning with Applications in R, Wiley, 2018.