ゲスト さん (ログイン)
ゴールデンウイークの営業についてのご案内
オンライン書店【ホンヤクラブ】はお好きな本屋での受け取りで送料無料!新刊予約・通販も。本(書籍)、雑誌、漫画(コミック)、洋書など在庫も充実
理論とアルゴリズム シリーズ 情報科学における確率モデル 4
コロナ社 中出康一
点
第1章 マルコフ決定過程の概要第2章 マルコフ連鎖と再生過程第3章 有限期間総期待利得マルコフ決定過程第4章 総割引期待利得マルコフ決定過程第5章 平均利得マルコフ決定過程第6章 セミマルコフ決定過程第7章 部分観測可能マルコフ決定過程第8章 マルコフ決定過程の展開
本書では,現在の状況を表す状態を観測しながら,ある利益(費用)規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き,最適決定政策を求める際必要となる計算手法に焦点をあて解説した。★主要目次★1. マルコフ決定過程の概要 1.1 ORと確率モデル 1.2 動的計画法 1.3 マルコフ決定過程 1.4 定式化の例 1.5 マルコフ決定過程の拡張と発展2. マルコフ連鎖と再生過程 2.1 離散型確率変数 2.2 連続型確率変数 2.3 離散時間マルコフ連鎖 2.4 周期 2.5 マルコフ連鎖の定常確率と極限確率 2.6 有限マルコフ連鎖 2.7 再生過程 2.8 再生報酬過程 2.9 マルコフ報酬過程 2.10 セミマルコフ過程 2.11 連続時間マルコフ連鎖3. 有限期間総期待利得マルコフ決定過程 3.1 有限期間総期待利得問題 3.2 最適性方程式 3.3 値反復法 3.4 数値例4. 総割引期待利得マルコフ決定過程 4.1 無限期間総割引期待利得 4.2 最適性方程式と理論的性質 4.3 計算アルゴリズム5. 平均利得マルコフ決定過程 5.1 平均利得 5.2 平均利得に関する関係式 5.3 相対値と平均利得 5.4 総割引期待利得と平均利得の関係 5.5 マルコフ決定過程の分類 5.6 計算アルゴリズム(単一連鎖の場合) 5.7 計算アルゴリズム(多重連鎖の場合)6. セミマルコフ決定過程 6.1 セミマルコフ決定過程とは 6.2 総割引期待利得 6.3 平均利得 6.4 連続時間マルコフ決定過程(推移間隔が指数分布に従う場合)7. 部分観測可能マルコフ決定過程 7.1 部分観測可能マルコフ決定過程とは 7.2 信念 7.3 定式化 7.4 値関数の線形性 7.5 ベクトル集合の生成8. マルコフ決定過程の展開 8.1 近似最適化アルゴリズム 8.2 強化学習とマルコフ決定過程 8.3 決定直後の状態を用いた近似アルゴリズム 8.4 最適政策の性質
ページ上部へ戻る
この商品に寄せられたカスタマーレビューはまだありません。
レビューを評価するにはログインが必要です。
この商品に対するあなたのレビューを投稿することができます。
本好きのためのオンライン書店
Honya Club.comは日本出版販売株式会社が運営しているインターネット書店です。ご利用ガイドはこちら
1位
又吉直樹
価格:1,320円(本体1,200円+税)
【2015年03月発売】
一覧を見る
[BOOKデータベースより]
第1章 マルコフ決定過程の概要
[日販商品データベースより]第2章 マルコフ連鎖と再生過程
第3章 有限期間総期待利得マルコフ決定過程
第4章 総割引期待利得マルコフ決定過程
第5章 平均利得マルコフ決定過程
第6章 セミマルコフ決定過程
第7章 部分観測可能マルコフ決定過程
第8章 マルコフ決定過程の展開
本書では,現在の状況を表す状態を観測しながら,ある利益(費用)規範の下で最適な決定を行う確率過程であるマルコフ決定過程の基本理論や実際に問題を定式化して解き,最適決定政策を求める際必要となる計算手法に焦点をあて解説した。
★主要目次★
1. マルコフ決定過程の概要
1.1 ORと確率モデル
1.2 動的計画法
1.3 マルコフ決定過程
1.4 定式化の例
1.5 マルコフ決定過程の拡張と発展
2. マルコフ連鎖と再生過程
2.1 離散型確率変数
2.2 連続型確率変数
2.3 離散時間マルコフ連鎖
2.4 周期
2.5 マルコフ連鎖の定常確率と極限確率
2.6 有限マルコフ連鎖
2.7 再生過程
2.8 再生報酬過程
2.9 マルコフ報酬過程
2.10 セミマルコフ過程
2.11 連続時間マルコフ連鎖
3. 有限期間総期待利得マルコフ決定過程
3.1 有限期間総期待利得問題
3.2 最適性方程式
3.3 値反復法
3.4 数値例
4. 総割引期待利得マルコフ決定過程
4.1 無限期間総割引期待利得
4.2 最適性方程式と理論的性質
4.3 計算アルゴリズム
5. 平均利得マルコフ決定過程
5.1 平均利得
5.2 平均利得に関する関係式
5.3 相対値と平均利得
5.4 総割引期待利得と平均利得の関係
5.5 マルコフ決定過程の分類
5.6 計算アルゴリズム(単一連鎖の場合)
5.7 計算アルゴリズム(多重連鎖の場合)
6. セミマルコフ決定過程
6.1 セミマルコフ決定過程とは
6.2 総割引期待利得
6.3 平均利得
6.4 連続時間マルコフ決定過程(推移間隔が指数分布に従う場合)
7. 部分観測可能マルコフ決定過程
7.1 部分観測可能マルコフ決定過程とは
7.2 信念
7.3 定式化
7.4 値関数の線形性
7.5 ベクトル集合の生成
8. マルコフ決定過程の展開
8.1 近似最適化アルゴリズム
8.2 強化学習とマルコフ決定過程
8.3 決定直後の状態を用いた近似アルゴリズム
8.4 最適政策の性質