深度学习(Deeping Learing)
深度学习(Deeping Learing)中文版pdf仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录致谢数学符号第一章前言1.1本书面向的读者101.2深度学习的历史趋势121神经网络的众多名称和命运变迁121.2.2与日俱增的数据量171.2.3与日俱增的模型规模1.2.4与日俱增的精度、复杂度和对现实世界的冲击22第一部分应用数学与机器学习基础25第二章线性代数272.1标量、向量、矩阵和张量2722矩阵和向量相乘2923单位矩阵和逆矩阵3124线性相关和生成子空间3225范数342.6特殊类型的矩阵和向量.362.7特征分解3728奇异值分解3929 Moore- Penrose伪逆仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chineselV目录2.10迹运算41211行列式42212实例:主成分分析42第三章概率与信息论4731为什么要使用概率?473.2随机变量4933概率分布3.3.1离散型变量和概率质量函数503.3.2连续型变量和概率密度函数34边缘概率5235条件概率.523.6条件概率的链式法则.5337独立性和条件独立性5338期望、方差和协方差5439常用概率分布55391 Bernoulli分布.56392 Multinoulli1分布.56393高斯分布573.94指数分布和 Laplace分布.58395 Dirac分布和经验分布5939.6分布的混合.593.10常用函数的有用性质613.11贝叶斯规则633.12连续型变量的技术细节643.13信653.14结构化概率模型69第四章数值计算724.1上溢和下溢724,2病态条件734.3基于梯度的优化方法744.3.1梯度之上: Jacobian和 Hessian矩阵77仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录44约束优化8245实例:线性最小二乘85第五章机器学习基础875.1学习算法.8751.1任务T85.1.2性能度量P915.1.3经验E9251.4示例:线性回归.945.2容量、过拟合和欠拟合9752.1没有免费午餐定理1025.22正则化.10453超参数和验证集.1055.31交叉验证.1065.4估计、偏差和方差.,,1085.4.1点估计.108542偏差109543方差和标准差111544权衡偏差和方差以最小化均方误差1135.4.5致性.1145.5最大似然估计11555.1条件对数似然和均方误差.1165.52最大似然的性质1175.6贝叶斯统计.11856.1最大后验(MAP)估计1215.7监督学习算法12257.1概率监督学习1225.7.2支持向量机123573其他简单的监督学习算法12558无监督学习算法1285.8.1主成分分析128582k-均值聚类1315.9随机梯度下降.132仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录5.10构建机器学习算法1335.11促使深度学习发展的挑战1345.111维数灾难1355.11.2局部不变性和平滑正则化1355.11.3流形学习.139第二部分深层网络:现代实践143第六章深度前馈网络1456.1实例:学习XOR.1486.2基于梯度的学习15262.1代价函数1536.21.1使用最大似然学习条件分布.1546.2.1.2学习条件统计量.155622输出单元.1566.22.1用于高斯输出分布的线性单元15662.22用于 Bernoulli输出分布的 sigmoid单元1576.22.3用于 Multinoulli输出分布的 softmax单元1596.,2.2.4其他的输出类型1616.3隐藏单元.16563.1整流线性单元及其扩展.166632 logistic sigmoid与双曲正切函数.1686.3.3其他隐藏单元1686.4架构设计1706.4.1万能近似性质和深度1706.4.2其他架构上的考虑.1736.5反向传播和其他的微分算法17565.1计算图176652微积分中的链式法则1766.5.3递归地使用链式法则来实现反向传播1786.5.4仝连接MLP中的反向传播计算180655符号到符号的导数.181仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录V11656一般化的反向传播.1836.57实例:用于MLP训练的反向传播187658复杂化.1906.59深度学习界以外的微分.1916.510高阶微分.1926.6历史小记193第七章深度学习中的正则化1967.1参数范数惩罚1977.1.12参数正则化1987.1.21参数正则化.20172作为约束的范数惩罚20373正则化和欠约束问题2057.4数据集增强2067.5噪声鲁棒性2077.5.1向输出目标注入噪声2087.6半监督学习.2087.7多任务学习20978提前终止2107.9参数绑定和参数共享2167.9.1卷积神经网络2177.10稀疏表示217711 Bagging和其他集成方法..2197.12 Dropout2217.13对抗训练..2297.14切面距离、正切传播和流形正切分类器231第八章深度模型中的优化2348.1学习和纯优化有什么不同2348.1.1经验风险最小化2358.1.2代理损失函数和提前终止2368.1.3批量算法和小批量算法236仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录8.2神经网络优化中的挑战.2402.1病态2418.22局部极小值2428.2.3高原、鞍点和其他平坦区域2438.2.4悬崖和梯度爆炸2458.25长期依赖2468.26非精确梯度247827局部和全局结构间的弱对应2478.28优化的理论限制24983基本算法2508.3.1随机梯度下降250动量2528.3.3 Nesterov动量.2558.4参数初始化策略25585自适应学习率算法2605.1Adagrad2608.5.2 RMSProp.2618.5.3Ada2618.5.4选择正确的优化算法26286二阶近似方法2648.6.1牛顿法.2658.6.2共轭梯度2668.6.3BFGS2698.7优化策略和元算法270871批标准化270872坐标下降27387.3 Polyak平均273874监督预训练2748.7.5设计有助于优化的模型.27687.6延拓法和课程学习277第九章卷积网络2809.1卷积运算281仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录IX9.2动机2849.3池化2899.4卷积与池化作为一种无限强的先验...2949.5基本卷积函数的变体2959.6结构化输出.3059.7数据类型3069.8高效的卷积算法3089.9随机或无监督的特征3099.10卷积网络的神经科学基础.3109.11卷积网络与深度学习的历史316第十章序列建模:循环和递归网络31810.1展开计算图31910.2循环神经网络32210.2.1导师驱动过程和输出循环网络32510.22计算循环神经网络的梯度32710.2.3作为有向图模型的循环网络.3291024基于上下文的RNN序列建模.33310.3双向RNN33510.4基于编码-解码的序列到序列架构.33710.5深度循环网络.33910.6递归神经网络340107长期依赖的挑战34210.8回声状态网络.34410.9渗漏单元和其他多时间尺度的策略.34610.9.1时间维度的跳跃连接.34610.9.2渗漏单元和一系列不同时间尺度...34710.9.3删除连接.34710.10长短期记忆和其他门控RNN.34810.10.1LSTM34810.10.2其他门控RNN,.35010.11优化长期依赖.35110.11.1截断梯度.352仅供学习使用,不得用于商业目的https://github.com/exacity/deeplearningbook-chinese目录10.112引导信息流的正则化35410.12外显记忆354第十一章实践方法论35811.1性能度量..35911.2默认的基准模型36111.3决定是否收集更多数据362114选择超参数36311.4.1手动调整超参数.36311.4.2自动超参数优化算法36611.4.3网格搜索.36711.44随机搜索36811.4.5基于模型的超参数优化36911.5调试策略37011.6示例:多位数字识别.373第十二章应用37612.1大规模深度学习37612.1.1快速的CPU实现37712.1.2GPU实现37712.1.3大规模的分布式实现,.37912.1.4模型压缩38012.1.5动态结构38112.1.6深度网络的专用硬件实现38312.2计算机视觉3841221预处理.384122.1.1对比度归一化.38512.2.2数据集增强.38812.3语音识别38912.4自然语言处理391124.1-gram.39112.4.2神经语言模型393
用户评论