一秒记住【顶点小说】 dingdian666.com,更新快,无弹窗!
网络结构的重参数化,原理并不复杂,说白了就像是数学上的结合律。</P>
和加法结合律,乘法结合律什么的差不多是一个意思。</P>
属于是小学二年级知识点。</P>
只不过这次结合的并非是3+5这样的简单加法,而是比较复杂的神经网络算子。</P>
哪些算子是线性的可以合并,如何合并比较好,分支怎么设计,还是稍微有一些工作量。</P>
这个结果值得和前面的移动端网络一起,写作两篇论文。</P>
孟繁岐自从签了谷歌之后,基本上不怎么写论文了,没有了很强烈的发文需求,忙了好一阵子创业和捞钱的事情。</P>
这一次参与围棋AI的项目,倒是跟几位高手一同写了不少内容。</P>
席尔瓦,戴密斯,黄士杰和孟繁岐前段时间把阿尔法狗的技术总结了一番,各自详细描述了一下技术内容,目前由席尔瓦在整合当中。</P>
由席尔瓦,黄士杰和孟繁岐共同作为第一作者,戴密斯为通讯作者,投稿阿尔法狗的详细技术内容到《自然》杂志。</P>
这番投稿比原本早了快两年,给编辑以及审稿人的震撼程度势必又能再上一个台阶。</P>
原本是三个月,现在估算下来,可能两个月左右就能刊登。</P>
“我去年年底投的计算机视觉领域的顶会,一审结果还没出呢。”孟繁岐查看了一下邮箱,觉得情况有些好笑。</P>
他公布在arxiv上面的那些论文,虽然质量很高,但其实严格意义上来说,都还在审稿当中。</P>
算不上是正式发表的内容。</P>
arxiv上确实存在没有正式发表,也不准备再正式发表的旷世奇作,重要论文。但毕竟是极少数。</P>
大部分未发表内容还是比较一般的,孟繁岐还在早期阶段,咖位还不够,该发的文章还是得发。</P>
可能再过两年,以他的咖位就不需要继续正式发表什么文章了,懒得发的话,随便arxiv上公布一下也可。</P>
说是这么说,但孟繁岐还是没能想到,自己第一篇正式发表的文章竟然很可能会是一篇一作《自然》正刊,而且根据前世的情况判断,基本板上钉钉,是封面文章。</P>
实在是造化弄人。</P>
《自然》和《科学》的地位有目共睹,可以说是科学出版界的百年老店了。</P>
由于两家都是综合性刊物,所有的科学领域一起竞争每周相当有限的版面,想在上面发表文章可以说是相当的困难。</P>
即便是学术实力很强的大学,院士十来位,杰青和长江学者百来个,一般一整年能出一两篇自然和科学,也已经算不错的了,值得嘉奖。</P>
在国内做研究人员,别的不说,一篇自然、科学正刊,直接立领五十万乃至上百万奖金,不在话下。</P>
后续的奖励和政策协助那更是数不胜数,哇,爆率真的很高。</P>
席尔瓦和戴密斯也觉得特别神奇,孟繁岐从残差网络崭露头角以来四五个月,一轮审稿期还没过完呢,技术倒是生产个不停。</P>
还没有正式录用一篇文章,就已经能和自己几人一起发自然正刊了。</P>
要知道他们都是多少年的积累和努力才有了这个实力。</P>
“你这个重参数化的思想,逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法,属于脑洞文。</P>
想到比较困难,实现上倒没有那么复杂。</P>
只是这个原理,在几位研究者看来,好像不大数学。</P>
“现在的情况就是,你有两个结构,一个用来训练,一个用来推理。训练的比较复杂比较慢,但是推理的则小很多,也很快。”戴密斯简要地总结道。</P>
随即指出了最关键的问题:“但你构建的这两个结构却是等价的,这里存在一个巨大的问题,如果两者本身就是等价的,为什么以复杂的形态训练效果会好,而简单的情况训练效果则会差呢?”</P>
“这不数学。”席尔瓦给孟繁岐的想法下了一个结论。</P>
这里面从数学逻辑上来说,存在一个套娃一样的悖论。</P>
那就是有强烈意义的操作,两个分支数学上就合并不了,至于没用的操作最开始就在数学上等价,没必要拆开。</P>
“网络结构的分支合并是没有办法越过非线性算子的,如果越过,则不能合并对吧。”戴密斯如此抽丝剥茧道。</P>
网络结构的重参数化,最终目的是要得出与合并之前一样的运算结果,因此非线性的激活函数是没法包含在残差里的,否则就没法合并。</P>
比如最常用的激活函数,ReLU,其实说白了就是保留所有大于0的数字,小于0的数字归零。</P>
“这个非线性函数操作必须在分支合并之外,而不可以在分支合并之内。”</P>
这个很好理解,假设一个原本的数字x是1,而他F运算之后得出的结果是-2。</P>
那么ReLU)+x,和ReLU+x)的结果是完全不同的。</P>
前者为0+1,后者为ReLU=0。</P>
所有的可合并分支,必须不含有非线性激活算子,才能够满足结合律和分配率。</P>
但问题又来了,如果构造出来的几个分支都可以等价转换为一个,那为什么不从一开始就只训这一个分支呢?这不是快很多吗?</P>
最后的效果为什么会不一样呢?</P>
这从直觉上和数学上都是不大合理的事情。</P>
这不就相当于小学数学分开算吗?</P>
2x拆成x+x去训练,这怎么会有区别呢?</P>
“我们不能这么去想,残差链接的想法也没有脱离线性变换,也只是加了一个相同形状的张量x而已呀。”孟繁岐自己也不知道具体的原理,这个世界上没人能解释得清楚。</P>
“但是残差链接在你的实际应用当中,是跨越了非线性激活函数的,你的公式看上去很简单,但代码里却很复杂。”戴密斯无情地指出了这个说法的问题所在。</P>
“那理论上说,是不是3x3的卷积核一定好过1x1的卷积?只要九宫格外面的八个数字都是0,那么3x3的卷积核其实就变成了一个1x1的卷积,因为外面8个数字不参与运算。”</P>
孟繁岐想了想,又换了一个例子来尝试证明。</P>
“呃...好像确实是这个道理。”</P>
就好像有某种物品,一定好过没有,因为再不济你也可以把它扔掉嘛,这样你现在就也没有这个东西,大家都一样了。</P>
“那为什么我这里结果显示,同一个位置上面,1x1+3x3的性能却明显好于3x3+3x3,也就是说一个强结构加一个弱结构好于两个强结构相加,这难道不奇怪吗?”</P>
“而且,批归一化虽然推理时是线性的,但训练时其实还是非线性的,也就是说即便没有专门的非线性函数,这种可重构的结构设计,多个分支内在训练的时候仍旧是具备非线性能力的。”</P>
理论很美好,但实验结果很骨感。</P>
即便席尔瓦和戴密斯的数学再扎实,也终究没法解释孟繁岐获得了提升的实验结果。</P>
两个人能做的也只有喃喃自语同一句话。</P>
这特么根本不数学啊!