ゲスト さん (ログイン)
オンライン書店【ホンヤクラブ】はお好きな本屋での受け取りで送料無料!新刊予約・通販も。本(書籍)、雑誌、漫画(コミック)など在庫も充実
翔泳社 ジュールス・S.タムジ ブルック・ウェニグ タタガタ・ダス デニー・リー 長谷川亮
点
統合型アナリティクスエンジンの仕組みとビッグデータの大規模処理を徹底解説。基本操作からDelta LakeやMLlibを利用したパイプラインの構築まで紹介。
1 Apache Spark入門2 Apache Sparkのダウンロードと入門3 Apache Sparkの構造化API4 Spark SQLとDataFrame:組み込みデータソースの紹介5 Spark SQLとDataFrame:外部データソースとのインタラクション6 Spark SQLとDataset:7 Sparkアプリケーションの最適化およびチューニング8 構造化Streaming9 Apache Sparkを用いた信頼性の高いデータレイクの構築10 MLlibによる機械学習11 Apache Sparkによる機械学習パイプラインの管理、デプロイおよびスケール12 エピローグ:Apache Spark 3.x
Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説
本書は、ビッグデータを主な対象としたデータ分析フレームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。
本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Apache Sparkの導入から解説をはじめ、Spark SQLとデータフレーム、データセットを紹介していきます。そこから、Apache Sparkを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。
・Python、SQL、Scala、またはJavaの高レベルの構造化APIの学習・Spark の操作とSQLエンジンの理解・Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ・JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続・構造化ストリーミングを使用してバッチ データとストリーミング データの分析を実行・オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築・MLlibを使用する機械学習パイプラインの開発、MLflowを使用するモデルの管理、本番化・[日本語版オリジナルコンテンツ]pandas DataFrame、SparkDataFrameに関する各種データフレームの使い分け ・[日本語版オリジナルコンテンツ]LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』の邦訳です。
ページ上部へ戻る
この商品に寄せられたカスタマーレビューはまだありません。
レビューを評価するにはログインが必要です。
この商品に対するあなたのレビューを投稿することができます。
本好きのためのオンライン書店
Honya Club.comは日本出版販売株式会社が運営しているインターネット書店です。ご利用ガイドはこちら
佐々木さいこ
価格:576円(本体524円+税)
【1998年08月発売】
価格:438円(本体398円+税)
【2024年10月発売】
1位
又吉直樹
価格:1,320円(本体1,200円+税)
【2015年03月発売】
一覧を見る
[BOOKデータベースより]
統合型アナリティクスエンジンの仕組みとビッグデータの大規模処理を徹底解説。基本操作からDelta LakeやMLlibを利用したパイプラインの構築まで紹介。
1 Apache Spark入門
[日販商品データベースより]2 Apache Sparkのダウンロードと入門
3 Apache Sparkの構造化API
4 Spark SQLとDataFrame:組み込みデータソースの紹介
5 Spark SQLとDataFrame:外部データソースとのインタラクション
6 Spark SQLとDataset:7 Sparkアプリケーションの最適化およびチューニング
8 構造化Streaming
9 Apache Sparkを用いた信頼性の高いデータレイクの構築
10 MLlibによる機械学習
11 Apache Sparkによる機械学習パイプラインの管理、デプロイおよびスケール
12 エピローグ:Apache Spark 3.x
Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説
本書は、ビッグデータを主な対象としたデータ分析フレームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。
本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Apache Sparkの導入から解説をはじめ、Spark SQLとデータフレーム、データセットを紹介していきます。そこから、Apache Sparkを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。
・Python、SQL、Scala、またはJavaの高レベルの構造化APIの学習
・Spark の操作とSQLエンジンの理解
・Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ
・JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続
・構造化ストリーミングを使用してバッチ データとストリーミング データの分析を実行
・オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築
・MLlibを使用する機械学習パイプラインの開発、MLflowを使用するモデルの管理、本番化
・[日本語版オリジナルコンテンツ]pandas DataFrame、SparkDataFrameに関する各種データフレームの使い分け
・[日本語版オリジナルコンテンツ]LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践
※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』の邦訳です。