图解四个实用的Pandas函数！

发布时间：2021-02-06 14:56:36 所属栏目：动态来源：互联网

导读：神经网络修剪示例。其他方法，例如患者知识提炼(Patient Knowledge Distillation)查找方法，可将大型语言模型压缩为可下载到用户手机上的表单。这是 Google 神经机器翻译(GNMT)系统的做法，该系统为 Google Translate 提供支持，且可以创建可离线访问的高性

〄神经网络修剪示例。

其他方法，例如患者知识提炼(Patient Knowledge Distillation)查找方法，可将大型语言模型压缩为可下载到用户手机上的表单。这是 Google 神经机器翻译(GNMT)系统的做法，该系统为 Google Translate 提供支持，且可以创建可离线访问的高性能翻译服务。

实质上，简化学习围绕以部署为中心的架构设计。这就是为什么大多数简化学习的研究来自公司的研究部门。以部署为中心的设计的一个方面不是盲目遵循数据集的性能指标，而是专注于部署模型时的潜在问题。

例如，前面提到的对抗输入是旨在欺骗网络的恶意输入。在标志上喷上油漆或贴纸会欺骗自动驾驶汽车，使其加速超过极限速度。负责任的简化学习的一部分，不仅是使模型轻巧到足以使用，同时要确保它可以适应数据集中未显示的极端情况。

在深度学习研究中，简化学习可能得到的关注最少，因为我们成功地在可行的架构规模下实现了良好的性能远不如我们通过一个拥有无数参数的架构实现了最先进的性能那么吸引人。

不可避免地，当对更高百分比的追求消失时，正如创新的历史所显示的那样，简化学习(实际上可以认为是实用学习)将得到它应该得到的更多关注。

5小结

混合学习试图跨越监督学习和无监督学习的边界。半监督学习和自监督学习之类的方法能够从未标记的数据中提取有价值的见解。随着无监督数据的数量呈指数级增长，这种方法具有不可思议的价值。

随着任务变得越来越复杂，复合学习将一项任务分解为几个更简单的部分。当这些对应不同部分的模型一起工作或相互对抗时，结果就形成了一个更加强大的模型。

深度学习走入炒作阶段，简化学习并没有引起太多关注，但是很快就会出现足够的实用性以及以部署为中心的网络设计。

这点可能具有很大的争议?并没有。诚然，GPT-3 的功能非常强大，但是人类历史一再证明成功的科学是对人类影响最大的科学。当学术界偏离现实太远时，它通常就会淡出人们的视线。这也是神经网络在 20 世纪后期的一段短暂时间里被遗忘了的原因之一，因为可用的数据太少了，所以无论它的想法多么精巧，都毫无用处。

GPT-3 是另一种语言模型，它可以编写令人信服的文本。它的应用在哪里?它的确可以生成例如查询答案。但是，有更加有效的方法可以做到这一点(例如遍历知识图并使用较小的模型 BERT 来输出答案)。

考虑到计算能力的下降，GPT-3 的庞大规模(更不用说更大的模型)似乎根本不是可行或必要的了。

“摩尔定律有点儿没用了。” — 微软首席执行官 Satya Nadella。

取而代之的是，我们正朝着嵌入式 AI 的世界迈进。在这个世界中，智能冰箱可以自动订购杂货，而无人机则可以自行导航整个城市。强大的机器学习方法应该能够加载到 PC、移动电话和小型芯片上。

这要求轻量级 AI，即在保持性能的同时使神经网络更小。

事实证明，在深度学习研究中，几乎所有的东西都直接或间接地与减少必要数量的参数有关，而这些参数与提高泛化和性能紧密相关。

例如，卷积层的引入大大地减少了神经网络处理图像所需的参数数量。递归层在使用相同权值的同时融入了时间概念，使得神经网络能够以更少的参数更好地处理序列数据。

嵌入层显式地将实体映射到具有物理意义的数值上，从而使得负担不会放在其他参数上。在一种解释中，Dropout 层显式地阻止参数对输入的某些部分进行操作。L1/L2 正则化确保网络利用了所有的参数，确保每个参数都不会太大，并且每个参数都最大化了它们的信息价值。

随着专业层的建立，网络对更复杂、更大数据的要求越来越少，而对于寻求压缩网络的趋势则更加明显了。

神经网络修剪试图去除对网络输出没有价值的突触和神经元。通过修剪，网络可以在几乎完全去除自身的情况下保持其性能。

（编辑：阜阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

简谈局域网即时通信确	将办公桌放进电脑里
用互联网来分配能源，	自动驾驶惯性导航技术