[BOOKデータベースより]
1 確率と確率分布
2 データの統計分析の基本
3 ベイズ分析の基本
4 文書データ分析の基本
5 ユニグラムモデル
6 混合ユニグラムモデル
7 トピックモデル
8 Scikit‐learnライブラリによるトピックモデル
9 Gensimライブラリによるトピックモデル
10 著者トピックモデル
11 画像データセットからのトピック抽出
12 船舶の航跡データからのトピック抽出
【書籍の特徴】
本書は,理論と実践の両方から,ベイズ分析,ひいてはトピックモデルについて解説。トピックモデルとは,自然言語処理の手法として提案されたもので,大量な文書データから潜在的で深層的なトピックを発掘できる確率モデルである。近年その威力は文書データにとどまらず,画像データや軌跡データの解析にも応用できるようになり,ディープラーニングと並んで人工知能(AI)を支える基本技術となっている。
本書では,理論的な基本事項をしっかりと押さえたうえで,できるだけプログラム作成しながら実践的に学習できるように心掛けた。また,読者が無理なく上れるような低めの階段を意識して構成した。
【各章について】
1章:本書の学習に必要な確率と確率分布の知識およびそのプログラム実現を説明。
2章:対比の位置づけとして,従来のデータ分析の基本手法を復習。
3章:ベイズ分析の基本的な考え方を説明。あわせてベイズ分析のプログラム実現に使われるPyMCライブラリの使い方を紹介。
4章:対比の位置づけとして,従来の文書データ分析の基本手法を復習。
5章:ユニグラムモデルを構成して,文書データの分析を行う。また,PyMCライブラリにより,そのプログラム実現を示す。
6章:トピックの考え方を取り入れて,混合ユニグラムモデルを構成する。また,混合ユニグラムモデルを用いた文書解析プログラム例を示す。
7章:混合ユニグラムモデルをさらに発展させて,トピックモデルを構成する。また,トピックモデルを用いた文書解析プログラム例を示す。
8章:Scikit-learnライブラリにあるトピックモデルのモジュールの使い方を説明。それを利用して,20 News Groupsデータセットの英語文書データからトピックを抽出する。
9章:Gensimというトピックモデルに特化したライブラリの使い方を説明。それを利用して,Wikipediaの日本語文書データからトピックを抽出する。
10章:トピックモデルを拡張して,著者トピックモデルを構成する。そのうえで,Gensimライブラリを利用して,Twitterから収集した日本語の投稿データからトピックを抽出する。
11章:トピックモデルを画像データセットに応用する。Gensimライブラリを利用して,Caltech101というデータセットから,小さく分割されたセルで表したトピックを抽出する。
12章:トピックモデルを軌跡データセットに応用する。Gensimライブラリを利用して,船舶のAISデータから,航路(コース)となるようなトピックを抽出する。
【著者からのメッセージ】
実践こそ技術習得の近道である。本書を読むにあたり,繰り返し実践するように心掛けてください。また,実務での応用場面を想定した問題を解決するよう取り組むことができればより効果的である。本書を読んでいただいた皆様が,先進的なデータ分析スキルが向上し,実務の場においてご活躍いただければ幸いである。
この商品をご覧のお客様は、こんな商品もチェックしています。
- 神秘学講義
-
価格:1,276円(本体1,160円+税)
【2023年03月発売】
- 宗教治療・教育・人生
-
価格:4,180円(本体3,800円+税)
【2025年03月発売】
- 実践Pythonによるデータベース入門
-
価格:3,630円(本体3,300円+税)
【2020年08月発売】
- 入門ディープラーニング
-
価格:2,970円(本体2,700円+税)
【2022年06月発売】
- Pythonによるデータマイニングと機械学習
-
価格:3,520円(本体3,200円+税)
【2019年08月発売】