本・コミック: Ｖｉｓｉｏｎ　ＡＩ実装プログラミング/チーム・カルポ:オンライン書店Honya Club com

在庫状況：在庫あり（1～2日で出荷）

Ｖｉｓｉｏｎ　ＡＩ実装プログラミング

キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニング入門

価格: 4,180円（本体3,800円＋税）
発行年月: 2026年01月
判型: Ｂ５
ISBN: 9784798075617

内容情報
[BOOKデータベースより]

本書は、キーポイント検出・姿勢制御・画像セグメンテーション・キャプショニングを、Ｔｒａｎｓｆｏｒｍｅｒを軸に横断して学べる実装書です。単なるＡＰＩ呼び出しではなく、いちから（フルスクラッチで）コードを組み立てることを基本に、データ前処理、Ｄａｔａｓｅｔ／Ｃｏｌｌａｔｅ、学習ループ、損失と評価指標、学習率スケジューラまで、内部の仕組みが見える最小実装から丁寧に積み上げていきます。併せて実務での活用を重視し、一部は事前学習済みモデルを用いたファインチューニング（ｔｉｍｍのＶｉＴやＨｕｇｇｉｎｇ　Ｆａｃｅ　Ｈｕｂの重み、凍結・段階的解凍など）も扱います。これにより、「仕組みの理解」と「現場での応用力」を目指します。

１章　開発環境について
２章　キーポイント検出（Ｋｅｒａｓ）
３章　キーポイント検出（ＰｙＴｏｒｃｈ）
４章　ＶｉＴＰｏｓｅスタイルモデルによるキーポイント検出
５章　ＶｉＴＰｏｓｅスタイルモデルによる姿勢推定
６章　セマンティックセグメンテーション（Ｓｅｍａｎｔｉｃ　Ｓｅｇｍｅｎｔａｔｉｏｎ）
７章　インスタンスセグメンテーション（Ｉｎｓｔａｎｃｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ）
８章　パノプティックセグメンテーション（ファインチューニング版）
９章　画像キャプショニング

[日販商品データベースより]

画像認識の分野において、近年急速に発展しているTransformerベースの手法とその派生モデルに焦点を当て、キーポイント検出、物体セグメンテーション、画像キャプショニングの実装方法を詳細に解説したのが本書です。好評の既刊『Vision Transformer/最新CNNアーキテクチャ画像分類入門』、最新刊の『DETR最新・物体検出アーキテクチャ入門』に続く第3弾となります。
本書の特徴を以下となります。
・セグメンテーション実装を本格的に解説する入門書。 PyTorch×timmライブラリでデータ準備→学　習→推論→可視化までをコード中心に一気に学べます。
・4大タスクを網羅。キーポイント検出・姿勢制御・セグメンテーション・キャプショニングにおける共通パターンとタスクごとの差分を整理して理解できます。

姿勢制御、セグメンテーション、キャプショニングにおけるCOCOデータのフルセットを用いた学習は、実務エンジニア／研究者／学生などの読者層におすすめです。

この商品をご覧のお客様は、こんな商品もチェックしています。