深度學習基礎與概念+動手深度學習（PyTorch版）（共2冊）深度學習花書入門與實戰演算法基礎神經網絡框架算法機器人機器學習人工智能教材書籍

深度學習基礎與概念

(英)克里斯多福‧M.畢曉普(Christopher M.Bishop),(英)休‧畢曉普(Hugh Bishop) 著鄒欣等譯

出版社：人民郵電出版社

出版日期：2025/05/01

页数:592

装帧:平装

ISBN:9787115663702

內容簡介

本書全面且深入地呈現了深度學習領域的知識體系，系統梳理了該領域的核心知識，闡述了深度學習的關鍵概念、基礎理論及核心思想，剖析了當代深度學習架構與技術。

全書共20章。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域（如醫療診斷、圖像合成等）產生的深遠影響；繼而深入探討支撐深度學習的數學原理，包括概率、標準分佈等；在網絡模型方面，從單層網絡逐步深入到多層網絡、深度神經網絡，詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用，同時涵蓋卷積網絡、Transformer 等前沿架構及其在計算機視覺、自然語言處理等領域的獨特作用。

本書還對正則化、採樣、潛變量、生成對抗網絡、自編碼器、擴散模型等關鍵技術展開深入分析，闡釋其原理、算法流程及實際應用場景。對於機器學習領域的新手，本書是全面且系統的入門教材，可引領其踏入深度學習的知識殿堂；對於機器學習領域從業者，本書是深化專業知識、緊跟技術前沿的有力工具；對於相關專業學生，本書是學習深度學習課程、開展學術研究的優質參考資料。無論是理論學習、實踐應用還是學術研究，本書都是讀者在深度學習領域探索與前行的重要指引。

作者介紹

克里斯托弗·M. 畢曉普（Christopher M. Bishop）

微軟公司技術研究員、微軟研究院科學智能中心（Microsoft Research AI4Science）負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》（Pattern Recognition and Machine Learning）。

休·畢曉普（Hugh Bishop）

Wayve 公司（倫敦一家基於端到端深度學習的自動駕駛公司）應用科學家，負責設計和訓練深度神經網絡。擁有劍橋大學工程系機器學習和機器智能專業碩士學位、杜倫大學計算機科學工程學碩士學位。

第 1 章深度學習革命 1

1 1 深度學習的影響 2

1 1 1 醫療診斷 2

1 1 2 蛋白質結構預測 3

1 1 3 圖像合成 4

1 1 4 大語言模型 5

1 2 一個教學範例 6

1 2 1 合成數據 7

1 2 2 線性模型 7

1 2 3 誤差函數 8

1 2 4 模型複雜度 8

1 2 5 正則化 11

1 2 6 模型選擇 12

1 3 機器學習簡史 14

1 3 1 單層網絡 15

1 3 2 反向傳播 16

1 3 3 深度網絡 17

第 2 章概率 21

2 1 機率法則 23

2 1 1 醫學篩查範例 23

2 1 2 加和法則與乘積法則 24

2 1 3 貝葉斯定理 26

2 1 4 再看醫學篩查範例 27

2 1 5 先驗機率與後驗機率 28

2 1 6 獨立變數 28

2 2 機率密度 28

2 2 1 分佈的範例 30

2 2 2 期望與協方差 31

2 3 高斯分佈 32

2 3 1 均值與變異數 32

2 3 2 似然函數 33

2 3 3 最大似然的偏差 35

2 3 4 線性回歸 36

2 4 密度變換 37

多元分佈 39

2 5 資訊論 40

2 5 1 熵 40

2 5 2 物理學視角 42

2 5 3 微分熵 43

2 5 4 最大熵 44

2 5 5 Kullback-Leibler 散度 45

2 5 6 條件熵 47

2 5 7 互資訊 47

2 6 貝葉斯機率 47

2 6 1 模型參數 48

2 6 2 正則化 49

2 6 3 貝葉斯機器學習 50

習題 50

第 3 章標準分佈 55

3 1 離散變數 56

3 1 1 伯努利分佈 56

3 1 2 二項分佈 57

3 1 3 多項分佈 58

3 2 多元高斯分佈 59

3 2 1 高斯幾何 60

3 2 2 矩 62

3 2 3 限制 64

3 2 4 條件分佈 64

3 2 5 邊緣分佈 67

3 2 6 貝葉斯定理 70

3 2 7 最大似然 72

3 2 8 序貫估計 73

3 2 9 高斯混合 74

3 3 週期變數 76

馮米塞斯分佈 76

3 4 指數族分佈 80

充分統計量 84

3 5 非參數化方法 85

3 5 1 直方圖 85

3 5 2 核密度 86

3 5 3 最近鄰 88

習題 90

第 4 章單層網：回歸 97

4 1 線性回歸 97

4 1 1 基函數 98

4 1 2 似然函數 100

4 1 3 最大似然 101

4 1 4 最小平方法的幾何表示 102

4 1 5 序貫學習 102

4 1 6 正則化最小平方法 103

4 1 7 多重輸出 104

4 2 決策理論 105

4 3 偏差 - 變異數權衡 108

習題 112

第 5 章單層網：分類 115

5 1 判別函數 116

5 1 1 二分類 116

5 1 2 多分類 117

5 1 3 1-of-K 編碼方案 119

5 1 4 最小平方法分類 119

5 2 決策理論 121

5 2 1 誤分類率 122

5 2 2 預期損失 124

5 2 3 拒絕選項 125

5 2 4 推理與決策 125

5 2 5 分類器精度 128

5 2 6 ROC 曲線 129

5 3 生成分類器 131

5 3 1 連續輸入 132

5 3 2 最大似然解 134

5 3 3 離散特徵 136

5 3 4 指數族分佈 136

5 4 判別分類器 137

5 4 1 激活函數 137

5 4 2 固定基函數 138

5 4 3 邏輯斯諦回歸 139

5 4 4 多類邏輯斯諦回歸 140

5 4 5 probit 回歸 141

5 4 6 規範連接函數 143

習題 144

第 6 章深度神經網絡 149

6 1 固定基函數的限制 150

6 1 1 維度詛咒 150

6 1 2 高維空間 152

6 1 3 數據流形 153

6 1 4 資料依賴的基底函數 155

6 2 多層網絡 156

6 2 1 參數矩陣 157

6 2 2 通用近似 158

6 2 3 隱藏單元激活函數 159

6 2 4 權重空間的對稱性 161

6 3 深度網絡 162

6 3 1 層次化表示 162

6 3 2 分佈式表示 163

6 3 3 表示學習 163

6 3 4 遷移學習 164

6 3 5 對比學習 165

6 3 6 通用網絡結構 168

6 3 7 張量 168

6 4 誤差函數 169

6 4 1 回歸 169

6 4 2 二分類 170

6 4 3 多分類 171

6 5 混合密度網絡 172

6 5 1 機器人運動學範例 172

6 5 2 條件混合分佈 173

6 5 3 梯度優化 175

6 5 4 預測分佈 176

習題 177

第 7 章梯度下降 181

7 1 錯誤平面 182

局部二次近似 183

7 2 梯度下降優化 184

7 2 1 梯度資訊的使用 185

7 2 2 批量梯度下降 185

7 2 3 隨機梯度下降 186

7 2 4 小批量方法 187

7 2 5 參數初始化 188

7 3 收斂 189

7 3 1 動量 190

7 3 2 學習率調度 192

7 3 3 AdaGrad、RMSProp 與 Adam 演算法 193

7 4 正則化 195

7 4 1 數據歸一化 195

7 4 2 批量歸一化 196

7 4 3 層歸一化 197

習題 198

第 8 章反向傳播 201

8 1 梯度計算 202

8 1 1 單層網絡 202

8 1 2 一般前饋網絡 202

8 1 3 簡單範例 205

8 1 4 數值微分法 206

8 1 5 雅可比矩陣 207

8 1 6 黑塞矩陣 209

8 2 自動微分法 211

8 2 1 前向模式自動微分 213

8 2 2 逆模式自動微分 215

習題 217

第 9 章正則化 219

9 1 歸納偏置 220

9 1 1 逆問題 220

9 1 2 無免費午餐定理 221

9 1 3 對稱性與不變性 222

9 1 4 等變性 224

9 2 權重衰減 225

9 2 1 一致性正則化項 226

9 2 2 廣義權重衰減 228

9 3 學習曲線 230

9 3 1 早停法 230

9 3 2 雙重下降 231

9 4 參數共享 234

軟權重共享 234

9 5 殘差連接 236

9 6 模型平均 239

dropout 241

習題 243

第 10 章卷積網絡 247

10 1 計算機視覺 248

圖像數據 248

10 2 卷積濾波器 249

10 2 1 特徵檢測器 250

10 2 2 平移等變性 251

10 2 3 填充 252

10 2 4 跨步卷積 253

10 2 5 多維卷積 253

10 2 6 池化 255

10 2 7 多層卷積 256

10 2 8 網絡架構範例 257

10 3 可視化訓練好的 CNN 259

10 3 1 視覺皮層 259

10 3 2 可視化訓練好的濾波器 260

10 3 3 顯著性圖 262

10 3 4 對抗攻擊 263

10 3 5 合成圖像 264

10 4 目標檢測 265

10 4 1 邊界框 265

10 4 2 交並比 266

10 4 3 滑動視窗 267

10 4 4 跨尺度檢測 268

10 4 5 非最大抑制 269

10 4 6 快速區域卷積神經網絡 270

10 5 圖像分割 270

10 5 1 卷積分割 270

10 5 2 上採樣 271

10 5 3 全卷積網絡 272

10 5 4 U-Net 架構 273

10 6 風格遷移 274

習題 275

第 11 章結構化分佈 279

11 1 機率圖模型 280

11 1 1 有向圖 280

11 1 2 分解 280

11 1 3 離散變數 282

11 1 4 高斯變量 284

11 1 5 二元分類器 286

11 1 6 參數和觀測值 287

11 1 7 貝葉斯定理 288

11 2 條件獨立性 289

11 2 1 3 個範例圖 289

11 2 2 相消解釋 292

11 2 3 d 分離 293

11 2 4 樸素貝葉斯 294

11 2 5 生成式模型 296

11 2 6 馬可夫毯 297

11 2 7 作為過濾器的圖 298

11 3 序列模型 299

潛變量 301

習題 302

第 12 章 Transformer 305

12 1 注意力 306

12 1 1 Transformer 處理 308

12 1 2 注意力係數 308

12 1 3 自註意力 309

12 1 4 網絡參數 310

12 1 5 縮放自註意力 312

12 1 6 多頭注意力 313

12 1 7 Transformer 層 315

12 1 8 計算複雜度 316

12 1 9 位置編碼 317

12 2 自然語言 319

12 2 1 詞嵌入 320

12 2 2 分詞 321

12 2 3 詞袋模型 322

12 2 4 自回歸模型 323

12 2 5 遞歸神經網絡 324

12 2 6 通過時間的反向傳播 325

12 3 Transformer 語言模型 326

12 3 1 解碼器型 Transformer 326

12 3 2 抽樣策略 329

12 3 3 編碼器型 Transformer 330

12 3 4 序列到序列 Transformer 332

12 3 5 大語言模型 333

12 4 多模態 Transformer 336

12 4 1 視覺 Transformer 336

12 4 2 圖像生成 Transformer 337

12 4 3 音頻數據 339

12 4 4 文字語音轉換 340

12 4 5 視覺與語言 Transformer 342

習題 343

第 13 章圖神經網絡 347

13 1 基於圖的機器學習 348

13 1 1 圖的屬性 349

13 1 2 鄰接矩陣 349

13 1 3 排列等變性 350

13 2 神經訊息傳遞 351

13 2 1 卷積濾波器 352

13 2 2 圖卷積網絡 353

13 2 3 聚合算子 354

13 2 4 更新算子 356

13 2 5 節點分類 357

13 2 6 邊分類 358

13 2 7 圖分類 358

13 3 通用圖網絡 359

13 3 1 圖注意力網絡 359

13 3 2 邊嵌入 360

13 3 3 圖嵌入 360

13 3 4 過度平滑 361

13 3 5 正則化 362

13 3 6 幾何深度學習 362

習題 363

第 14 章採樣 365

14 1 基本採樣 366

14 1 1 期望 366

14 1 2 標準分佈 367

14 1 3 拒絕採樣 369

14 1 4 適應性拒絕取樣 370

14 1 5 重要性採樣 371

14 1 6 採樣 - 重要性 - 重採樣 373

14 2 馬爾可夫鏈蒙特卡羅採樣 374

14 2 1 Metropolis 演算法 375

14 2 2 馬可夫鏈 376

14 2 3 Metropolis-Hastings 演算法 378

14 2 4 吉布斯採樣 380

14 2 5 祖先取樣 382

14 3 郎之萬採樣 383

14 3 1 基於能量的模型 384

14 3 2 最大化似然 385

14 3 3 朗之萬動力學 386

習題 388

第 15 章離散潛變數 391

15 1 K 均值聚類 392

圖像分割 395

15 2 高斯混合分佈 397

15 2 1 似然函數 399

15 2 2 最大似然 400

15 3 EM 演算法 404

15 3 1 高斯混合模型 406

15 3 2 EM 演算法與K 均值演算法的關係 408

15 3 3混合伯努利分佈 409

15 4 證據下界 412

15 4 1 EM 算法回顧 413

15 4 2 獨立同分佈數據 415

15 4 3 參數先驗 415

15 4 4 廣義 EM 算法 416

15 4 5 順序 EM 算法 416

習題 417

第 16 章連續潛變量 421

16 1 主成分分析 422

16 1 1 最大方差表述 423

16 1 2 最小誤差表述 424

16 1 3 數據壓縮 427

16 1 4 數據白化 428

16 1 5 高維數據 429

16 2 概率潛變量 430

16 2 1 生成式模型 431

16 2 2 似然函數 432

16 2 3 最大似然法 433

16 2 4 因子分析 436

16 2 5 獨立成分分析 437

16 2 6 卡爾曼濾波器 439

16 3 證據下界 439

16 3 1 EM 算法 441

16 3 2 PCA 的 EM 算法 442

16 3 3 因子分析的 EM 算法 444

16 4 非線性潛變量模型 444

16 4 1 非線性流形 445

16 4 2 似然函數 447

16 4 3 離散數據 448

16 4 4 構建生成式模型的 4 種方法 448

習題 449

第 17 章生成對抗網絡 453

17 1 對抗訓練 454

17 1 1 損失函數 455

17 1 2 實戰中的 GAN 訓練 456

17 2 圖像的生成對抗網絡 458

CycleGAN 459

習題 462

第 18 章標準化流 465

18 1 耦合流 467

18 2 自回歸流 470

18 3 連續流 472

18 3 1 神經 ODE 472

18 3 2 神經 ODE 的反向傳播 473

18 3 3 神經 ODE 流 474

習題 476

第 19 章自編碼器 479

19 1 確定性的自編碼器 480

19 1 1 線性自編碼器 480

19 1 2 深度自編碼器 481

19 1 3 稀疏自編碼器 482

19 1 4 去噪自編碼器 482

19 1 5 掩蔽自編碼器 483

19 2 變分自編碼器 484

19 2 1 攤銷推理 487

19 2 2 重參數化技巧 488

習題 491

第 20 章擴散模型 493

20 1 前向編碼器 494

20 1 1 擴散核 495

20 1 2 條件分佈 496

20 2 反向解碼器 497

20 2 1 訓練解碼器 499

20 2 2 證據下界 499

20 2 3 重寫 ELBO 501

20 2 4 預測噪聲 502

20 2 5 生成新的樣本 504

20 3 得分匹配 505

20 3 1 得分損失函數 506

20 3 2 修改得分損失 506

20 3 3 噪聲方差 508

20 3 4 隨機微分方程 508

20 4 有引導的擴散 509

20 4 1 有分類器的引導 510

20 4 2 無分類器的引導 510

習題 513

附錄 517

附錄 A 線性代數 517

A 1 矩陣恒等式 517

A 2 跡和行列式 518

A 3 矩陣導數 519

A 4 特徵向量 521

附錄 B 變分法 524

附錄 C 拉格朗日乘子 526

參考資料 529

索引 549

動手學深度學習(PyTorch版)

ISBN13：9787115600820

出版社：人民郵電出版社

作者：阿斯頓‧張等

出版日：2025/03/01

裝訂／頁數：平裝／572頁

規格：24cm*17cm (高/寬)

版次：一版

編輯推薦

深度學習領域重磅作品《動手學深度學習》重磅推出PyTorch版本；

李沐、阿斯頓·張等大咖作者強強聯合，精心編撰；

全球400多所大學採用的教科書，提供視頻課程、教學PPT、習題，方便教師授課與學生自學；

能運行、可討論的深度學習入門書，可在線運行源碼並與作譯者實時討論。

內容介紹

本書是《動手學深度學習》的重磅升級版本，選用經典的PyTorch深度學習框架，旨在向讀者交付更為便捷的有關深度學習的交互式學習體驗。

本書重新修訂《動手學深度學習》的所有內容，並針對技術的發展，新增注意力機制、預訓練等內容。本書包含15章，第一部分介紹深度學習的基礎知識和預備知識，並由線性模型引出最簡單的神經網絡――多層感知機；第二部分闡述深度學習計算的關鍵組件、卷積神經網絡、循環神經網絡、注意力機制等大多數現代深度學習應用背後的基本工具；第三部分討論深度學習中常用的優化算法和影響深度學習計算性能的重要因素，並分別列舉深度學習在計算機視覺和自然語言處理中的重要應用。

本書同時覆蓋深度學習的方法和實踐，主要面向在校大學生、技術人員和研究人員。閱讀本書需要讀者瞭解基本的Python編程知識及預備知識中描述的線性代數、微分和概率等基礎知識。

作者簡介

阿斯頓·張（Aston Zhang），亞馬遜資深科學家，美國伊利諾伊大學香檳分校計算機科學博士，統計學和計算機科學雙碩士。他專注於機器學習和自然語言處理的研究，榮獲深度學習國際頂級學術會議ICLR杰出論文獎、ACM UbiComp杰出論文獎以及ACM SenSys最佳論文獎提名。他擔任過EMNLP領域主席和AAAI資深程序委員。

扎卡裡·C. 立頓（Zachary C. Lipton），美國卡內基梅隆大學機器學習和運籌學助理教授，並在海因茨公共政策學院以及軟件和社會系統系擔任禮節性任命。他領導著近似正確機器智能（ACMI）實驗室，研究涉及核心機器學習方法、其社會影響以及包括臨床醫學和自然語言處理在內的各種應用領域。他目前的研究重點包括處理各種因果結構下分布變化的穩健和自適應算法、超越預測為決策提供信息（包括應對已部署模型的戰略響應）、醫學診斷和預後預測、算法公平性和可解釋性的基礎。他是“Approximately Correct”博客的創始人，也是諷刺性漫畫“Superheroes of Deep Learning”的合著者。

李沐（Mu Li），亞馬遜資深首席科學家（Senior Principal Scientist），美國加利福尼亞大學伯克利分校、斯坦福大學客座助理教授，美國卡內基梅隆大學計算機系博士。他曾任機器學習創業公司Marianas Labs的CTO和百度深度學習研究院的主任研發架構師。他專注於機器學習系統和機器學習算法的研究。他在理論與應用、機器學習與操作系統等多個領域的頂級學術會議上發表過論文，被引用上萬次。

亞歷山大·J. 斯莫拉(Alexander J. Smola)，亞馬遜副總裁/杰出科學家，德國柏林工業大學計算機科學博士。他曾在澳大利亞國立大學、美國加利福尼亞大學伯克利分校和卡內基梅隆大學任教。他發表過超過300篇學術論文，並著有5本書，其論文及書被引用超過15萬次。他的研究興趣包括深度學習、貝葉斯非參數、核方法、統計建模和可擴展算法。

對本書的讚譽

前言

譯者簡介

學習環境配置

資源與支持

主要符號表

章　引言　1

1.1　日常生活中的機器學習　2

1.2　機器學習中的關鍵組件　3

1.2.1　資料　3

1.2.2　模型　4

1.2.3　目標函數　4

1.2.4　優化演算法　5

1.3　各種機器學習問題　5

1.3.1　監督學習　5

1.3.2　無監督學習　11

1.3.3　與環境互動　11

1.3.4　強化學習　12

1.4　起源　13

1.5　深度學習的發展　15

1.6　深度學習的成功案例　16

1.7　特點　17

第 2章　預備知識　20

2.1　資料操作　20

2.1.1　入門　21

2.1.2　運算子　22

2.1.3　廣播機制　23

2.1.4　索引和切片　24

2.1.5　節省記憶體　24

2.1.6　轉換為其他Python物件　25

2.2　資料預處理　26

2.2.1　讀取資料集　26

2.2.2　處理缺失值　26

2.2.3　轉換為張量格式　27

2.3　線性代數　27

2.3.1　標量　28

2.3.2　向量　28

2.3.3　矩陣　29

2.3.4　張量　30

2.3.5　張量演算法的基本性質　31

2.3.6　降維　32

2.3.7　點積　33

2.3.8　矩陣-向量積　33

2.3.9　矩陣-矩陣乘法　34

2.3.10　範數　35

2.3.11　關於線性代數的更多資訊　36

2.4　微積分　37

2.4.1　導數和微分　37

2.4.2　偏導數　40

2.4.3　梯度　41

2.4.4　鍊式法則　41

2.5　自動微分　42

2.5.1　一個簡單的例子　42

2.5.2　非標量變數的反向傳播　43

2.5.3　分離計算　43

2.5.4　Python控制流的梯度計算　44

2.6　機率　44

2.6.1　基本機率論　45

2.6.2　處理多個隨機變數　48

2.6.3　期望與變異數　50

2.7　查閱文檔　51

2.7.1　查找模組中的所有函數和類別　51

2.7.2　找出特定函數和類別的用法　52

第3章　線性神經網路　54

3.1　線性迴歸　54

3.1.1　線性迴歸的基本元素　54

3.1.2　向量化加速　57

3.1.3　常態分佈與平方損失　58

3.1.4　從線性迴歸到深度網路　60

3.2　線性迴歸的從零開始實現　61

3.2.1　生成資料集　62

3.2.2　讀取資料集　63

3.2.3　初始化模型參數　63

3.2.4　定義模型　64

3.2.5　定義損失函數　64

3.2.6　定義最佳化演算法　64

3.2.7　訓練　64

3.3　線性迴歸的簡潔實作　66

3.3.1　生成資料集　66

3.3.2　讀取資料集　66

3.3.3　定義模型　67

3.3.4　初始化模型參數　67

3.3.5　定義損失函數　68

3.3.6　定義最佳化演算法　68

3.3.7　訓練　68

3.4　softmax回歸　69

3.4.1　分類問題　69

3.4.2　網路架構　70

3.4.3　全連接層的參數開銷　70

3.4.4　softmax運算　71

3.4.5　小批量樣本的向量化　71

3.4.6　損失函數　72

3.4.7　資訊理論基礎　73

3.4.8　模型預測與評估　74

3.5　影像分類資料集　74

3.5.1　讀取資料集　75

3.5.2　讀取小批量　76

3.5.3　整合所有元件　76

3.6　softmax回歸的從零開始實作　77

3.6.1　初始化模型參數　77

3.6.2　定義softmax操作　78

3.6.3　定義模型　78

3.6.4　定義損失函數　79

3.6.5　分類精度　79

3.6.6　訓練　80

3.6.7　預測　82

3.7　softmax回歸的簡潔實作　83

3.7.1　初始化模型參數　83

3.7.2　重新檢視softmax的實作　84

3.7.3　優化演算法　84

3.7.4　訓練　84

第4章　多層感知機　86

4.1　多層感知機　86

4.2　多層感知機的從零開始實現　92

4.3　多層感知機的簡潔實現　94

模型　94

4.4　模型選擇、欠擬合與過擬合　95

4.5　權重衰減　103

4.6　暫退法　108

4.7　前向傳播、反向傳播與計算圖　112

4.8　數值穩定性與模型初始化　115

4.9　環境與分佈偏移　119

4.10　實戰Kaggle比賽：預測房價　127

第5章　深度學習計算　136

5.1　層和塊　136

5.2　參數管理　141

5.3　延後初始化　145

實例化網路　146

5.4　自訂圖層　146

5.5　讀寫文件　148

5.6　GPU　150

第6章　卷積神經網路　155

6.1　從全連接層到卷積　155

6.2　影像卷積　159

6.3　填充和步幅　164

6.4　多輸入多輸出通道　166

6.5　匯聚層　170

6.6　卷積神經網路（LeNet）　173

第7章　現代卷積神經網路　178

7.1　深度卷積神經網路（AlexNet）　178

7.2　使用區塊的網路（VGG）　184

7.3　網絡中的網絡（NiN）　187

7.4　含並行連接的網路（GoogLeNet）　190

7.5　批量規範化　194

7.6　殘差網路（ResNet）　200

7.7　稠密連接網路（DenseNet）　205

第8章　循環神經網路　209

8.1　序列模型　209

8.2　文本預處理　216

8.3　語言模型與資料集　219

8.4　循環神經網路　226

8.5　循環神經網路的從零開始實現　230

8.6　循環神經網路的簡潔實作　237

8.7　透過時間反向傳播　239

第9章　現代循環神經網路　244

9.1　門控循環單元（GRU）　244

9.2　長短期記憶網絡（LSTM）　249

9.3　深度循環神經網路　254

9.4　雙向循環神經網路　256

9.5　機器翻譯與資料集　260

9.6　編碼器-解碼器架構　265

9.7　序列到序列學習（seq2seq）　267

9.8　束搜尋　275

0章　注意力機制　278

10.1　注意力提示　278

10.2　注意力匯聚：Nadaraya-Watso核回歸　281

10.3　注意力評分函數　287

10.4　Bahdanau 注意力　291

10.5　多頭注意力　295

10.6　自註意力與位置編碼　298

10.7　Transformer　302

1章　優化演算法　311

11.1　優化與深度學習　311

11.2　凸性　315

11.3　梯度下降　322

11.4　隨機梯度下降　329

11.5　小批量隨機梯度下降　334

11.6　動量法　341

11.7　AdaGrad演算法　348

11.8　RMSProp演算法　353

11.9　Adadelta演算法　356

11.10　Adam演算法　358

11.11　學習率調度器　361

2章　計算性能　369

12.1　編譯器和解釋者　369

12.2　異步計算　372

透過後端異步處理　373

12.3　自動並行　375

12.4　硬體　378

12.5　多GPU訓練　388

12.6　多GPU的簡潔實作　394

12.7　參數伺服器　397

3章　計算機視覺　404

13.1　影像增廣　404

13.2　微調　410

13.3　目標偵測與邊界框　415

13.4　錨框　417

13.5　多尺度目標偵測　427

13.6　目標偵測資料集　430

13.7　單發多框偵測（SSD）　433

13.8　區域卷積神經網路（R-CNN）系列　441

13.9　語意分割與資料集　445

13.10　轉置卷積　450

13.11　全卷積網　453

13.12　風格遷移　458

13.13　實戰 Kaggle競賽：影像分類（CIFAR-10）　464

13.14　實戰Kaggle競賽：狗的品種辨識（ImageNet Dogs）　470

4章　自然語言處理：預訓練　476

14.1　詞嵌入（word2vec）　477

14.2　近似訓練　480

14.3　用於預訓練詞嵌入的資料集　482

14.4　預訓練word2vec　488

14.5　全域向量的詞嵌入（GloVe）　491

14.6　子詞嵌入　494

14.7　詞的相似度與類比任務　497

14.8　來自Transformer的雙向編碼器表示（BERT）　500

14.9　用於預訓練BERT的資料集　507

14.10　預訓練BERT　512

5章　自然語言處理：應用　515

15.1　情感分析及資料集　516

15.2　情緒分析：使用循環神經網路　518

15.3　情緒分析：使用卷積神經網路　521

15.4　自然語言推論與資料集　526

15.5　自然語言推論：使用注意力　530

15.6　針對序列級和詞元級應用微調BERT　535

15.7　自然語言推論：微調BERT　538

附錄A　深度學習工具　543

A.1　使用Jupyter記事本　543

A.1.1　在本機編輯與執行程式碼　543

A.1.2　進階選項　545

A.2　使用AmazoSageMaker　546

A.2.1　註冊　547

A.2.2　建立SageMaker實例　547

A.2.3　運轉與停止實例　548

A.2.4　更新Notebook　548

A.3　使用AmazoEC2實例　549

A.3.1　建立與執行EC2實例　549

A.3.2　安裝CUDA　553

A.3.3　安裝庫以運行程式碼　553

A.3.4　遠端運行Jupyter記事本　554

A.3.5　關閉未使用的實例　554

A.4　選擇伺服器和GPU　555

A.4.1　選擇伺服器　555

A.4.2　選擇GPU　556

A.5　為本書做出貢獻　558

A.5.1　提交微小更改　558

A.5.2　大量文字或程式碼修改　559

A.5.3　提交主要更改　559

參考文獻　562

深度學習基礎與概念+動手深度學習（PyTorch版）（共2冊）深度學習花書入門與實戰演算法基礎神經網絡框架算法機器人機器學習人工智能教材書籍

深度學習 基礎與概念+動手深度學習（PyTorch版）（共2冊）深度學習花書 入門與實戰演算法基礎 神經網絡框架算法 機器人機器學習 人工智能教材書籍

深度學習基礎與概念+動手深度學習（PyTorch版）（共2冊）深度學習花書入門與實戰演算法基礎神經網絡框架算法機器人機器學習人工智能教材書籍