神经元模型

文章转载自微信公众号AI派,版权归原作者及刊载媒体所有。

周志华,毕业于南京大学,欧洲科学院外籍院士,国家杰出青年基金获得者,现任南京大学人工智能学院院长、南京大学计算机软件新技术国家重点实验室常务副主任、机器学习与数据挖掘研究所 (LAMDA)所长、人工智能教研室主任。

2021年8月1日,中国科学院公布2021年中国科学院院士增选初步候选人名单,周志华在列;11月3日,周志华凭借《面向多义性对象的新型机器学习理论与方法》获得2020年度国家自然科学奖二等奖。

1 引言

深度学习已被广泛应用到涉及图像、视频、语音等的诸多任务中并取得巨大成功。如 果我们问“深度学习是什么?”很可能会得到这样的回答:“深度学习就是深度神经网 络”。至少在目前,当“深度学习”作为一个术语时几乎就是“深度神经网络”的同义词, 而当它指向一个技术领域时则如 SIAM News 头版文章所称[1],是“机器学习中使用深度 神经网络的子领域”。关于深度学习有很多问题还不清楚。例如深度神经网络为什么要“深”?它成功背 后的关键因素是什么?深度学习只能是深度神经网络吗?本文将分享一些我们关于深度 学习的粗浅思考。

2 深度神经网络

神经网络并不是“新生事物”,它已经被研究了半个多世纪[2]。传统神经网络通常包 含一个或两个隐层,其中每个“神经元”是非常简单的计算单元。如图 1 所示,神经元 接收来自其他神经元的输入信号,这些信号通过连接权放大,到达神经元之后如果其总 量超过某个阈值,则当前神经元就被“激活”并向外传递其输出信号。实际上每个神经 元就是图 1 中非常简单的计算式,而所谓神经网络就是很多这样的计算式通过嵌套迭代 得到的一个数学系统。

今天的“深度神经网络”是指什么?简单来说,就是有很多隐层的神经网络。例如 2012 年在计算机视觉领域著名的 ImageNet 竞赛夺冠的网络用了 8 层、2015 年是 152 层、 2016 年是 1207 层……这样的网络明显是非常庞大的计算系统,包含了大量参数需要通 过训练来确定。但有一个好消息:神经网络的基本计算单元是连续可微的。例如以往常 用图 2 左边的 Sigmoid 函数作为神经元模型的激活函数,它是连续可微的;现在深度神 经网络里常用图 2 右边这样的 ReLU 激活函数,它也是连续可微的。于是,在整个系统 中可以相对容易地计算出“梯度”,进而就能使用著名的 BP 算法通过梯度下降优化来对 神经网络进行训练。

有人以为深度神经网络的成功主要是因为“算力”有了巨大发展,因为神经网络早 就有了,现在只不过是由于算力强了导致能算得更好了。这是一个误解。没有强大的算 力当然难以训练出很深的网络,但更重要的是,现在人们懂得如何训练这样的模型。事 实上,在 Hinton 等的工作[3]之前,人们一直不知道如何训练出超过五层的神经网络;这并不是由于算力不足,而是由于神经网络在训练中会遭遇“梯度消失”现象:在 BP算法将神经网络输出层误差通过链式反传到远离输出层的部分时,可能会导出“零”调 整量,导致网络远离输出层的部分无法根据输出误差进行调整,从而使得训练失败。这 是从传统神经网络发展到深层神经网络所遇到的巨大技术障碍。Hinton 等通过“逐层训 练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了 后来的研究,使得深度神经网络得以蓬勃发展。事实上,深度神经网络研究的主要内容 之一就是设计有效措施来避免/减缓梯度消失。例如该领域一个重要技术进步就是用图 2 右边的 ReLU 函数来代替以往常用的 Sigmoid 函数,由于前者在零值附近的导数比后者 更“平缓”,使得梯度不会因下降得太快而导致梯度消失。

显然,基本计算单元的“可微性”(differentiability)对深度神经网络模型至关重要, 因为它是梯度计算的基础,而梯度计算是使用 BP 算法训练神经网络的基础。最近有一 些研究尝试在深度神经网络中使用不可微激活函数,但其求解过程是在松弛变换后通过 可微函数逼近,实质上仍依赖于基本计算单元的可微性。

3 为何“深”

虽然深度神经网络取得了巨大成功,但是“为什么必须使用很深的网络”一直没有 清楚的答案。关于这个问题,几年前我们曾经尝试从模型复杂度的角度进行解释。

一般来说,机器学习模型复杂度与其“容量”(capacity)有关,而容量对模型的学 习能力有重大影响,因此,模型的学习能力与其复杂度有关。机器学习界早就知道,如 果能增强一个学习模型的复杂度,那它的学习能力往往能得到提升。怎样提高复杂度呢?对神经网络模型来说,很明显有两个办法:把模型加“深”,或把模型加“宽”。从提升 模型复杂度的角度看,“加深”会更有效,因为简单来说,“加宽”仅是增加了计算单元, 从而增加了基函数的数目;而在“加深”时不仅增加了基函数的数目,还增加了函数嵌 套的层数,于是泛函表达能力会更强。所以,为提升复杂度,应该把网络“加深”。

有人可能会问,既然机器学习界早就知道能通过把神经网络模型加深来提升学习能 力,为什么以往不这样做呢?除了前面提到的“梯度消失”这个技术障碍,这还涉及另外一个问题:因为存在“过 拟合”(overfitting),在机器学习中把模型的学习能力变强未必一定是件好事。过拟合是 机器学习的大敌。简单来说,给定一个数据集,机器学习希望把数据集里所包含的“一 般规律”学出来用于今后的数据对象,但有时候可能会把当前数据集本身的一些“特性” 学出来却错误地当作一般规律去使用了,这就会犯错误,这就是过拟合。产生过拟合的重要因素之一,就是模型的学习能力太强了,把不该学的东西也学到了。所以,以往在 机器学习中都是尽量避免使用太复杂的模型。

现在为什么能使用深度神经网络这样的复杂模型了呢?有好几个重要因素:首先, 现在有大数据了。机器学习中有很多缓解过拟合的策略,例如决策树剪枝、支持向量机 正则化、神经网络提早终止训练等,但最简单有效的就是使用更多的数据。比方说,数 据集中只有三千个样本,从它里面学出来的“特性”不太可能是一般规律,但如果有三 千万,甚至三千万万个样本,那从它里面学出来的“特性”或许就已经是一般规律了。所以,现在有了大数据,我们不必再像以往那样对复杂模型“敬而远之”。第二,今天 有 GPU、CPU 集群等强力计算设备,使我们有足够的算力来训练复杂模型。第三,经过 机器学习界的努力,现在已经有很多有效训练深度神经网络这种复杂模型的技巧(trick), 例如很多缓解神经网络梯度消失的办法。

小结一下,这套对“为什么深”的“复杂度解释”主要强调三点:第一,今天有大 数据;第二,有强力的计算设备;第三,有很多有效的训练技巧。这三点导致现在能够 使用高复杂度模型,而深度神经网络恰是一种便于实现的高复杂度模型。上面这套解释有一定意义,例如它启发我们从复杂度的角度来研究深度学习中的一 些机制如 dropout 等[4]。但这套解释有个重要问题没解决:为什么扁平的(宽的)网络不 如深度神经网络?因为把网络“加宽”也能增加复杂度,虽然效率不如“加深”高。想 象一下,如果增加无限个隐层神经元,那么即便仅使用一个隐层,网络的复杂度也可以 提升非常高,甚至超过很多深度神经网络。然而在实践中人们发现,“宽”的浅层网络性 能比不上相对“窄”的深层网络,这用复杂度难以解释。因此,我们需要更深入一点的 思考。

进一步我们再问:对表示学习来说最关键的是什么?

我们的答案是: 逐层加工处理。如图 4 所示,比方说在输入一幅图像时,在神经网 络最底层看到是一些像素,而一层层往上会逐步出现边缘、轮廓等抽象级别越来越高的 描述。虽然在真实的神经网络中未必有这么清晰的分层,但总体上确有自底向上不断抽 象的趋势。

事实上浅层神经网络几乎能做到深层神经网络所做的别的任何事(例如提升复杂 度),唯有深度的逐层抽象这件事,它由于层数浅而做不了。我们认为,“逐层加工处理” 正是表示学习的关键,也是深度学习成功的关键因素之一。

但是在机器学习领域,逐层加工处理并不新鲜,以前已经有很多技术是在进行逐层 加工处理。例如决策树、Boosting 都是“逐层加工处理”模型,但是与深度神经网络相 比,它们有两个弱点:一是模型复杂度不够。例如决策树,对给定数据集来说其模型深 度是受限的,假设仅考虑离散特征,则树的深度不会超过特征的个数,不像深度神经网 络那样可以任意提升复杂度;二是在学习过程中缺乏特征变换,学习过程始终在同一个 特征空间中进行。我们认为这两个因素对深度神经网络的成功也至关重要。当我们同时考虑“逐层加工处理”和“内置特征变换”时就会发现,深度模型是非 常自然的选择,因为基于深度模型可以容易地同时做到上面这两点。在选用深度模型后,由于模型复杂度高、容易过拟合,所以我们要用大数据;它很 难训练,所以我们要有训练技巧;计算开销大,所以我们要使用强力计算设备 …… 我们发现,这些是我们选择深度模型之后的结果,而不是选用深度模型的原因!这跟以前 的认识不太一样。以前认为因为具备了这些条件而导致我们能使用深度模型,现在看来 因果关系恰是反过来的。事实上,大训练数据、训练技巧,乃至强力计算设备都不仅限 服务于深度模型,同样可以服务于浅层模型,因此,具备了这些条件并不必然导致深度 模型优于浅层模型。

还有一点值得一提:拥有很大的训练数据时,需要使用复杂度高的模型,因为低复 杂度模型无法对大数据进行充分利用。比方说仅使用一个简单的线性模型,那么有两千 万样本还是两亿样本恐怕没有多少区别,因为模型已经“学不进去”了。而要模型有足 够的复杂度,这又给使用深度模型加了一分,因为深度模型可以容易地通过加深层数来 提升复杂度。

小结一下,我们的讨论分析导出的结论是,有三个关键因素:

1.逐层加工处理

2.内置特征变换

3.模型复杂度够

这是我们认为深度神经网络能够成功的关键原因,或者说是我们关于深度神经网络 成功原因的猜想。有意思的是,这三个因素并没有“要求”我们必须使用神经网络模型。只要能同时做到这三点,别的模型应该也能做深度学习。

4 为何有必要探讨 DNN 之外的深度模型

没有任何模型是完美的,深度神经网络模型也不例外。

首先,凡是用过深度神经网络的人都知道,需花费大量的精力来调参。这会带来很 多问题。第一,调参经验很难共享,例如在图像任务上调参的经验很难在做语音任务时 借鉴。第二,今天无论是科学界还是工程技术界都非常关注研究结果的可重复性,而深 度学习恐怕是整个机器学习领域中可重复性问题最严重的子领域。常有这样的情况:一 组研究人员发文章报告的结果,很难被其他研究人员重现,因为即便使用相同的数据、 相同的方法,超参数设置稍有不同就可能使结果有巨大差别。

其次,神经网络的模型结构需要在训练前预设。但是在任务完成前,怎么能知道模 型复杂度应该是多大呢?事实上,我们通常是在使用超过必需复杂度的网络。深度神经 网络的一些最新研究进展,例如网络剪枝、权重二值化、模型压缩等,实质上都是试图 在训练过程中适当减小网络复杂度。显然,使用过高复杂度的模型必然导致不必要地消 耗了更多计算开销、导致对训练样本量不必要的高需求。有没有可能先用一个简单模型, 然后在学习过程中自适应地增加模型复杂度呢?遗憾的是这对神经网络很困难,因为若 网络结构未定,梯度求导对象在变化,那 BP 算法可就麻烦了。深度神经网络的其他缺陷例如小数据上难以使用、黑箱模型、理论分析困难等就不 赘述了。

神经元模型

或许有人会说,学术创新研究可能要考虑上述问题,而对应用实践来说只要性能好 就行,有深度神经网络就足够了……其实即便从应用角度来看,探讨神经网络之外的深 度学习模型也很有必要,因为虽然深度神经网络现在很流行,但在许多任务上(例如 Kaggle 的很多数据分析竞赛中)获胜的并非深度神经网络,而是随机森林、XGBoost 这 些相对比较传统的机器学习模型。事实上,目前深度神经网络做得好的几乎都是涉及图 像、视频、语音等的任务,都是典型的数值建模任务,而在其他涉及符号建模、离散建 模、混合建模的任务上,深度神经网络的性能并没有那么好。机器学习领域有一个著名的“没有免费的午餐”定理[2],它告诉我们,没有任何一 个模型在所有任务上都优于其他模型。实际上,不同模型各有自己的适用任务范畴,深 度神经网络也不例外。因此,有充分的理由去探讨深度神经网络之外的深度学习模型,因 为这样的模型或许能让我们在图像、视频、语音之外的更多任务上获得深度学习的性能 红利。

小结一下,今天我们谈到的深度模型都是深度神经网络,用技术术语来说,它是多 层可参数化可微分的非线性构件组成的模型,可以用 BP 算法来训练。这里有两个问题:一是现实世界中的问题多种多样,其所涉性质并不都是可微的,或能用可微构件最优建 模的;二是机器学习领域几十年的积累,有许多构件能作为复杂模型的基础,其中相当 一部分是不可微的。

能否基于不可微构件来构建新型深度学习模型?这是一个基础性挑战问题。一旦得 到答案,就同时回答了其他一些问题,例如深度模型是否只能是深度神经网络?是否能 不用 BP 算法训练?有没有可能让深度学习在图像、视频、语音之外的更多数据分析任 务上发挥作用?……

我们最近在这方面进行了一些初步探索,提出了“深度森林”这种非神经网络的新型深度学习模型[5,6]。深度森林的基础构件是不可微的决策树,其训练过程不基于 BP 算 法,甚至不依赖于梯度计算。它初步验证了上一节中关于深度学习奏效原因的猜想,即只要能做到逐层加工处理、内置特征变换、模型复杂度够,就能构建出有效的深度学习模型,并非必须使用神经网络。这种技术已经在大规模图像任务(我们认为此类任务的首选技术是深度神经网络)之外的许多任务中显示出优秀性能,包括互联网支付非法套现检测等大规模数据分析任务。在一定程度上验证了,在数值建模之外的任务上,有可能研制出新型深度学习模型来获得更好的性能。需要注意的是,任何一种新技术要取得广泛成功都需经过长期探索。以深度神经网 络中最著名的卷积神经网络为例,经过了三十来年、成千上万研究者和工程师探索和改 进,才取得今天的成功。深度森林还在“婴儿期”,虽然在某些问题上已得以应用,但是 不能期待它在广泛任务上都能够立即发挥作用。

实际上,我们以为深度森林探索的主要价值并不在于立即产生一种应用性能优越的 新算法,而是为深度学习的探索提供一个新思路。以往我们以为深度学习就是深度神经 网络,只能基于可微构件搭建,现在我们知道了这里有更多的可能性。好比说深度学习 是一间黑屋子,里面有什么呢?以前我们都知道有深度神经网络,并以为仅有深度神经 网络。现在深度森林把这个屋子打开了一扇门,今后可能会涌现更多的东西。这或许是 这个探索在学科领域发展上更重要的意义。

参考文献

[1] J. Sirignano. Deep learning models in finance. SIAM News, 2017, 50(5): 1.

[2] 周志华. 机器学习. 北京: 清华大学出版社, 2016.

[3] G. E. Hinton, S. Osindero, and Y.-W. Simon. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

[4] W. Gao and Z.-H. Zhou. Dropout Rademacher complexity of deep neural networks. Science China Information Sciences, 2016, 59(7): 072104: 1-072104: 12.

[6] Z.-H. Zhou and J. Feng. Deep forest. National Science Review, 2019.

内容转载、商务活动、投稿 等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

神经元模型

济南市勘察测绘研究院研发人员招聘公告

实景三维青岛赋能数字城市建设

深圳发出卫星应用征集令

《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,探索企业核心竞争力,传播测绘地理信息文化,为测绘、地信、遥感等相关专业的同学提供日常学习、考研就业一站式服务,旨在打造政产学研用精准对接的平台。

《慧天地》高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章开头显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!

——《慧天地》运营团队

编辑:宋子欣审核:宋元硕

指导:万剑华教授

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#loooy.com)删除。
(0)
上一篇 2022年10月24日 06:25
下一篇 2022年10月24日 06:31

相关推荐

  • 手机芯片天梯图

    750g没在天梯图里的原因可能是一搭载这款处理器的手机仅有红米Note9pro,跑分数据和各项数据不够全面二这款处理器也是刚刚发布,数据方面可能还没有整合好三这款处理器位于中低端,…

    2022年10月25日
  • dota2指令

    1、1首先在电脑中打开steam,如下图所示2然后在打开的软件主页面中,进入库,右键点击dota2,如下图所示3接着在打开的页面中,点击属性,如下图所示4最后在打开的页面中,如下图…

    2022年10月25日
  • 娃娃菜是大白菜剥的心吗(娃娃菜和白菜的区别)(娃娃菜和大白菜是一个品种吗)

    要问北方人冬天离不开什么蔬菜,武汉的大部分日日夜夜都会毫不犹豫地告诉你——大白菜。他们甚至用手推车买白菜,随便囤几百斤都是家常便饭。 但是每次说到大白菜,就不得不提到娃娃菜,也就是…

    2022年8月8日
  • 四级残疾

    1、四级残疾的标准程度如下1颅脑脊髓及周围神经损伤致,中度智力缺损或精神障碍,日常生活能力严重受限,间或需要帮助2头面部损伤致, 一侧眼球缺失,另一眼低视力2级或一侧眼球缺失,另一…

    2022年10月26日
  • 10人圆桌座次安排图

    1、一般情况下,会议座次的安排分成两类方桌会议和圆桌会议在方桌会议中,因较能够体现与会人员的主次,所以应非凡注重座次的安排假如只有一位领导,那么他一般坐在长方形的短边这边,或者是比…

    2022年10月24日
  • Google创始人身价(google创始人)

    谷歌加州新总部正式建成,是人性化与可持续办公设计的全新力作 该园区由丹麦建筑事务所 Bjarke Ingels Group (BIG) 和英国建筑事务所 Heatherwick S…

    2022年9月27日
  • 请问丼饭中的“丼”念jing还是dong?

    丼饭中的“丼”念dong,牛丼(dōng)饭。丼在字典里只有jǐng和dǎn两个读音,就笃定叫做“牛胆饭”,其实是错误的。牛丼饭源于日本,发音DONBURI(丼ぶりどんぶり),丼简…

    2022年11月19日
  • 小红书用户群体分析,小红书数据分析报告2022

    (含美妆、美食、母婴、家居、服饰穿搭、宠物、减肥健身7大行业核心人群) ▪️小红书男性用户比例升至30% 多元化趋势下,小红书上美食、旅行等中性化内容以及科技数码、体育赛事等偏男性…

    2022年12月1日
  • 羽生结弦一个时代的落幕(羽生结弦成长历程)

    北京时间9月4日,在输掉昨天晚上进行的第十三届全运会乒乓球男子单打1/8决赛后,中国乒乓球队队员程靖淇泪洒现场,失声痛哭,让球迷相当心疼。随后,他在个人社交平台上袒露心声:“在我追…

    2022年7月23日
  • 什么莫过于心死

    1释义最大的伤痛莫过于扑灭感情,心湖如一潭死水而心如止水也莫过于一笑置之满不在乎2哀大莫过于心死,心死莫过于一笑出自严歌苓创作的长篇小说陆犯焉识在该书中,严歌苓将知识分子的命运置放…

    2022年10月26日