[BOOKデータベースより]
MDPでモデル化するための地力を養う。強化学習・深層強化学習のしくみの理解にも役に立つ。アルゴリズムの徹底詳説×豊富な応用事例。
マルコフ決定過程とは
マルコフ決定過程の基本的な問題設定とアルゴリズム
マルコフ決定過程の基本的な機械学習
真のパラメータが変化するマルコフ決定過程
状態、行動、利得に関する工夫
推薦システムへの適用―基本的な非割引問題
金融工学への適用―基本的な割引問題
ロールプレイングゲームへの適用―複数の情報で構成される状態+複数の独立な試行で構成される状態遷移確率によるモデル
通信工学への適用―複数の情報で構成される状態+少数のパラメータで構成される状態遷移確率によるモデル
ベイズ流の仮説検定への適用―最後の期においてのみ利得が発生するモデル(基礎)
教育工学への適用―最後の期においてのみ利得が発生するモデル(発展)
設備保全、アセットマネジメントとヘルスケア支援への適用―良好な状態維持が目的のモデル
深層強化学習の入口
付録A マルコフ連鎖
付録B 隠れマルコフモデル
付録C ベイズ統計と統計的決定理論
推薦システム,金融工学,RPG,…そして,深層強化学習。
さまざまな応用例を交えながら,マルコフ決定過程の理論とモデル化の基礎が身につく一冊。
マルコフ決定過程は,マルコフ連鎖に制御や意思決定の要素を加えた確率モデルです。本書では,前半で基礎理論とアルゴリズムを,後半で応用事例を学んでいきます。モデル式の工夫のしかたや複雑な計算手順を,モデル化の観点から一貫性をもって理解することができます。
マルコフ決定過程は,深層強化学習のアルゴリズムの基礎でもあります。本書の最終章では,深層強化学習の概要とニューラルネットワークで行われる計算のしくみを,マルコフ決定過程の計算を通して学びます。