《深度学习调优指南.系统性优化模型》中文版
向AI转型的程序员都关注了这个号
PDF获取地址:
关注微信公众号 datayx 然后回复指南 即可获取。
(相关资料图)
提高模型性能的科学方法机器学习开发的最终目标是最大化模型的效用。尽管不同应用场景的开发流程有所不同(例如时间长度、可用计算资源、模型类型等),基本步骤和原则都是相似的。
接下来的指南中我们做出了这些假设:
已有能运行且得到不错结果的训练工作流。
有足够的计算资源来进行调参实验,至少能够并行发起数个训练流程。
增量调整策略总结:从简单的配置开始,循序渐进,同时进一步了解问题。确保任何改进都有据可循,以避免增加不必要的复杂度。
我们的最终目标是找到一种训练配置来最大化我们模型的性能。
在某些情况下,我们的目标是在固定截止日期(例如提交给竞赛)之前最大限度地改进模型。
在其他情况下,我们希望无限期地改进模型(例如,不断改进生产中使用的模型)。
原则上,我们可以使用算法自动搜索整个配置空间来最大化性能,但实践中这往往不实际。
配置空间可能非常大,目前还没有任何算法可以在没有人工指导的情况下有效地搜索这个空间。
大多数自动搜索算法依赖于人工设计的搜索空间,这些搜索空间往往非常重要。
更有效的方法是从简单的配置开始,逐步添加功能并进行改进,同时深化对问题的理解。
我们在每一轮调整中都使用自动搜索算法,并随着我们理解的深度不断更新我们的搜索空间。
随着我们的探索,我们自然会找到越来越好的配置,因此我们的“最佳”模型将不断改进。
当我们更新我们的最佳配置时,我们称之为上线(这不一定对应线上模型的实际上线)。
对于每次上线,我们必须确保更改是有据可循的——而不仅仅是碰运气找到的配置——以避免给训练工作流增加不必要的复杂性。
综上所述,我们的增量调优策略需要重复以下四个步骤:
为下一轮实验确定适当的目标。
设计并展开实验,朝着这个目标取得进展。
从实验结果中获取经验。
考虑是否上线新的最佳配置。
本节的其余部分将更详细地讲解增量调优策略。
探索与利用总结:大多数时候,我们的目标是更深入地理解问题。
尽管有些人认为我们会花大部分时间来提升验证集的指标,实际上我们把重心放在进一步理解问题上,而不是降低验证集错误率。
也就是说,我们大部分时间都花在了“探索”上,只有一小部分时间花在了“利用”上。
从长远来看,如果我们想最大化我们的最终效果,深入理解问题是至关重要的。将深化理解置于短期收益之上可以帮助我们:
避免仅因历史原因而表现良好的不必要更改。
确定验证集效果对哪些超参数最敏感,哪些超参数交互最多,因此需要一起重新调整,以及哪些超参数对其他变化相对不敏感,因此可以在未来的实验中固定住。
发现潜在的新方向,例如在出现过拟合问题时使用新的正则化器。
确定无效的方向并将其删除,从而降低后续实验的复杂度。
判断超参数的优化空间是否已经饱和。
围绕最佳值缩小我们的搜索空间,以提高调整效率。
最终,我们可以集中提升验证集效果,即便我们无法从新的实验中进一步了解问题的结构了。
选择下一轮实验的目标总结:每轮实验都应该有一个明确的目标,并且范围要足够小,这样实验才能真正朝着目标取得进展。
每轮实验都应该有一个明确的目标,并且范围要足够小,这样实验才能真正朝着目标取得进展:如果我们试图一次添加多个特征或回答多个问题,我们可能无法理清各自的影响。
举个例子,目标可以包括:
尝试对训练流程进行改进(例如,新的正则化器、预处理方法等)。
了解特定模型超参数(例如激活函数)的影响
最大化验证集指标。
设计下一轮实验总结:根据实验目标,将超参数分为三类:目标超参数、冗余超参数和固定超参数。创建一系列研究以比较目标超参数的不同值,同时优化冗余超参数。注意选择冗余超参数的搜索空间,以平衡资源成本与科学价值。
识别目标超参数、冗余超参数和固定超参数对于给定的目标,所有超参数都将是目标超参数、冗余超参数或固定超参数。
因为实验固定了某些超参数,从实验得出的结论可能对固定超参数的其他值无效。换句话说,固定的超参数对我们的实验结论做了限定。
目标超参数是指,我们希望测量出其对于模型由何种影响的参数。
冗余超参数是指,必须优化才能公平比较不同目标超参数值的参数。类似于统计中的冗余参数。
固定超参数是指,在当前轮次实验中取固定值的参数。在比较目标超参数的不同值时,固定超参数的值不需要(或者我们不希望它们)改变。
举个例子,如果我们的目标是“确定更深的模型是否会减少验证集错误”,那么模型层数就是目标超参数。
学习率是一个冗余超参数,如果我们要公平对比不同深度的模型,我们必须分别调整学习率(通常情况下最优学习率和模型结构有关)。
激活函数是一个固定超参数。我们可能通过过去的实验发现最优激活函数和模型深度无关。或者我们接受实验得到的最优深度的仅在某个激活函数上有效。或者我们也可以将激活函数作为一个冗余超参数和深度一起调优。
一个超参数是目标超参数、冗余超参数还是固定超参数是根据实验目标来决定的。
比如,激活函数的选择可以是一个目标超参数(对于当前问题,ReLU 或 tanh 是更好的选择吗?),一个冗余超参数(允许使用不同的激活函数,最好的 5 层模型是否优于最好的 6 层模型?),或一个固定超参数(对于一个由 ReLU 构成的网络,在特定位置添加批标准化是否有帮助?)。
在设计新一轮实验时,我们根据实验目的确定目标超参数。
在此阶段,我们将所有其他超参数视为冗余超参数。
接下来,我们将一些冗余超参数转作为固定超参数。
一个冗余超参数和目标超参数的相互影响越多,固定这个参数所带来的限制就越多。例如,权重衰减强度的最佳值通常取决于模型大小,因此固定权重衰减的强度来比较不同的模型大小,往往得不出有效的结论。
如下文所述,我们可以通过增加计算资源来应对这种风险,但通常我们的最大资源预算低于调整所有非目标超参数所需的计算资源。
如果有无限的计算资源,我们会将所有非目标超参数保留为冗余超参数,这样我们从实验中得出的结论就不会受到固定超参数的限定。
然而,冗余超参数越多,我们没能充分针对每个目标超参数调优冗余超参数的风险就越高,从而我们从实验中得出错误结论的风险也越高。
当我们判断将一个冗余超参数转换为固定超参数所带来的限制少于调优它所需的计算资源时,我们可以进行这种转换。
尽管超参数的类型取决于实验目标,但对于某些类别的超参数,我们有以下经验法则:
例如,网络层数通常是一个目标或固定的超参数,因为它往往会对训练速度和内存使用产生巨大影响。
例如,dropout 增加了代码的复杂性,因此在决定是否包含它时,我们会将“no dropout”与“dropout”作为一个目标超参数,而将 dropout 率作为一个冗余超参数。
如果我们决定根据这个实验将 dropout 添加到我们的训练流程中,那么在未来的实验中,dropout 率将是一个冗余超参数。
如果我们的实验目标涉及在两个或多个不同的优化器之间进行公平比较(例如“确定哪个优化器在给定的步数中产生最低的验证错误”),那么它就是一个目标超参数。
或者,我们可能出于各种原因将其设为固定超参数,包括(1)先前的实验表明最好的优化器和当前的目标超参数无关;(2)当前优化器的训练曲线更容易理解 (3) 当前优化器比其他优化器使用更少的内存。
它们很少是目标超参数,因为像“训练流程的最佳学习率是多少?”这样的目标没有什么意义——最优学习率很容易随着下一次训练流程的改变而改变。
尽管当资源有限或有强力的证据表明它们不影响目标超参数时,我们可能固定其中一些参数,但通常应该假设优化器超参数必须单独调整,以在不同设置之间进行公平比较目标超参数。
此外,我们没有优化器超参数值的先验倾向(例如,它们通常不会以任何方式影响前向传递或梯度的计算成本)。
在各种优化器超参数(例如学习率、动量、学习率调度参数、Adam优化器的beta等)中,至少有一些是冗余超参数,因为它们往往与其他变化相互影响。
相比之下,优化器的选择通常是一个目标超参数或固定超参数。
正则化技术引入的超参数通常是冗余超参数,但是否使用正则化技术往往是目标或固定超参数。
模型结构超参数通常是目标或固定超参数,因为模型结构变化会影响服务和训练成本、延迟和内存需求。
在某些情况下,一个超参数是冗余还是固定超参数将取决于目标超参数的值。
例如,假设我们想知道 Nesterov momentum 和 Adam 中哪个优化器的验证错误率更低。目标超参数是optimizer,它的值是{"Nesterov_momentum", "Adam"}。值optimizer="Nesterov_momentum"引入了冗余/固定超参数{learning_rate, momentum},但值optimizer="Adam"引入了冗余/固定超参数{learning_rate, beta1, beta2, epsilon}。
仅针对目标超参数的某些值存在的超参数称为条件超参数。
我们不应该仅仅因为两个条件超参数具有相同的名称就认为它们是相同的!在上面的示例中,learning_rate对于optimizer="Nesterov_momentum"与optimizer="Adam"是不同的条件超参数. 它在两种算法中的作用相似(尽管不完全相同),但在每个优化器中运行良好的值范围通常相差几个数量级。
机器学习算法AI大数据技术
搜索公众号添加:datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
《深度学习:基于Keras的Python实践》PDF和代码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加:datayx
关键词:
您可能也感兴趣:
为您推荐
全球看点:苏仙区机关幼儿园南园开展“浓浓端午情”主题活动
世界最资讯丨工信部发布5月打击治理“黑广播”“伪基站”情况及典型案例
中山首个集转国“工改”项目三期动工拆除,计划引进超10家高端制造企业 世界热闻
排行
最近更新
- 《深度学习调优指南.系统性优化模型》中文版
- 当前热议!揭西县卫生健康局
- 儿童鼻塞怎么办_缓解鼻塞的方法有哪些
- 海特高新与赛峰航空系统公司合作授权签约仪式顺利举行|世界快播
- 临夏市:“除险保安”护航群众安全出行
- 咸vs甜!粽子之争再度开启!快来答题赢取端午好礼|时讯
- “东数西算”算力产业合作大会线下展览开展 首日迎客近万人
- bt种子手机打不开_bt种子打不开
- 驴肉和牛肉哪个热量高? 报道
- 大雁是什么类动物_大雁属于鸟类吗简介介绍 天天简讯
- 甘肃省乡村工匠和庭院经济工作推进会在岷县召开
- 徽县永宁镇:辣椒制种“映红”致富路
- 茌平:品味端午 传承文明
- 16岁男孩玩具":一场玩具与成长的奇妙旅程-世界热消息
- 视点!青春专属礼物,聆听16岁男孩的心声
- 世界热点!下次还买!曝极氪001定速130km/h撞收费站:人轻伤...
- “粽”要指南!点开查收
- 端午假期 中铁兰州局预计发送旅客110万人次-全球观焦点
- 环球快讯:容声冰箱再掀“嵌入式”新浪潮 双净·平嵌508新品...
- 博雅生命受邀出席2023年浙江省医学会妇产科学与围产医学学术年会
- 速讯:漳州发展:6月21日召开业绩说明会,投资者参与
- 普及未成年人保护法律法规
- 1小时降雨量85.5毫米 海口发布暴雨红色预警 焦点日报
- 日本核污水排放,我国进口海鲜?
- 高台:“人才新政”干货满满支持重点产业发展
- 葵涌社区开展“端午粽飘香 党群心连心”活动|天天最新
- 和润股份(873036):拟10派1元,共派送现金300.00万元 环球资讯
- 十二星座当中,谁就算不会唱歌也要当麦霸,你遇到过吗?_世界...
- 悟性强料事如神的星座,最没有时间观念的星座,最爱教训人的星座
- 迈得医疗(688310):自动化设备龙头 隐形眼镜CDMO迈入新征程
今日要闻
- 和润股份(873036):拟10派1元,共派送现金300.00万元 环球资讯
- 精选!伊莉雅必死_伊莉雅的一百种死法
- 怎么查看华为云存储的内容(华为手机如何查看存储使用情况)-环球视讯
- 山东夏收工作基本结束 粮食收储准备到位-环球速读
- 天天信息:青岛电影学院回应“弃奖”:不会处分女生,一等奖作品意外火了
- 东亚银行(00023.HK)6月21日耗资215.5万港元回购21.32万股 全球聚焦
- 世界视讯!有本领的动物书既聪明机智 又愉快活泼(对于有本领的动物书既聪明机智 又愉快活泼简单介绍)
- 当前热门:宁德时代电池有重大缺陷,已被特斯拉暂停供货?宁德时代:消息不属实
- 今热点:6月21日基金净值:惠升和悦债券A最新净值1.0125,跌0.33%
- 飞图_关于飞图的介绍