163. 这特么不数学啊

一秒记住【顶点小说】 dingdian666.com，更新快，无弹窗！ 网络结构的重参数化，原理并不复杂，说白了就像是数学上的结合律。
 和加法结合律，乘法结合律什么的差不多是一个意思。
 属于是小学二年级知识点。
 只不过这次结合的并非是3+5这样的简单加法，而是比较复杂的神经网络算子。
 哪些算子是线性的可以合并，如何合并比较好，分支怎么设计，还是稍微有一些工作量。
 这个结果值得和前面的移动端网络一起，写作两篇论文。
 孟繁岐自从签了谷歌之后，基本上不怎么写论文了，没有了很强烈的发文需求，忙了好一阵子创业和捞钱的事情。
 这一次参与围棋AI的项目，倒是跟几位高手一同写了不少内容。
 席尔瓦，戴密斯，黄士杰和孟繁岐前段时间把阿尔法狗的技术总结了一番，各自详细描述了一下技术内容，目前由席尔瓦在整合当中。
 由席尔瓦，黄士杰和孟繁岐共同作为第一作者，戴密斯为通讯作者，投稿阿尔法狗的详细技术内容到《自然》杂志。
 这番投稿比原本早了快两年，给编辑以及审稿人的震撼程度势必又能再上一个台阶。
 原本是三个月，现在估算下来，可能两个月左右就能刊登。
 “我去年年底投的计算机视觉领域的顶会，一审结果还没出呢。”孟繁岐查看了一下邮箱，觉得情况有些好笑。
 他公布在arxiv上面的那些论文，虽然质量很高，但其实严格意义上来说，都还在审稿当中。
 算不上是正式发表的内容。
 arxiv上确实存在没有正式发表，也不准备再正式发表的旷世奇作，重要论文。但毕竟是极少数。
 大部分未发表内容还是比较一般的，孟繁岐还在早期阶段，咖位还不够，该发的文章还是得发。
 可能再过两年，以他的咖位就不需要继续正式发表什么文章了，懒得发的话，随便arxiv上公布一下也可。
 说是这么说，但孟繁岐还是没能想到，自己第一篇正式发表的文章竟然很可能会是一篇一作《自然》正刊，而且根据前世的情况判断，基本板上钉钉，是封面文章。
 实在是造化弄人。
 《自然》和《科学》的地位有目共睹，可以说是科学出版界的百年老店了。
 由于两家都是综合性刊物，所有的科学领域一起竞争每周相当有限的版面，想在上面发表文章可以说是相当的困难。
 即便是学术实力很强的大学，院士十来位，杰青和长江学者百来个，一般一整年能出一两篇自然和科学，也已经算不错的了，值得嘉奖。
 在国内做研究人员，别的不说，一篇自然、科学正刊，直接立领五十万乃至上百万奖金，不在话下。
 后续的奖励和政策协助那更是数不胜数，哇，爆率真的很高。
 席尔瓦和戴密斯也觉得特别神奇，孟繁岐从残差网络崭露头角以来四五个月，一轮审稿期还没过完呢，技术倒是生产个不停。
 还没有正式录用一篇文章，就已经能和自己几人一起发自然正刊了。
 要知道他们都是多少年的积累和努力才有了这个实力。
 “你这个重参数化的思想，逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法，属于脑洞文。
 想到比较困难，实现上倒没有那么复杂。
 只是这个原理，在几位研究者看来，好像不大数学。
 “现在的情况就是，你有两个结构，一个用来训练，一个用来推理。训练的比较复杂比较慢，但是推理的则小很多，也很快。”戴密斯简要地总结道。
 随即指出了最关键的问题：“但你构建的这两个结构却是等价的，这里存在一个巨大的问题，如果两者本身就是等价的，为什么以复杂的形态训练效果会好，而简单的情况训练效果则会差呢？”
 “这不数学。”席尔瓦给孟繁岐的想法下了一个结论。
 这里面从数学逻辑上来说，存在一个套娃一样的悖论。
 那就是有强烈意义的操作，两个分支数学上就合并不了，至于没用的操作最开始就在数学上等价，没必要拆开。
 “网络结构的分支合并是没有办法越过非线性算子的，如果越过，则不能合并对吧。”戴密斯如此抽丝剥茧道。
 网络结构的重参数化，最终目的是要得出与合并之前一样的运算结果，因此非线性的激活函数是没法包含在残差里的，否则就没法合并。
 比如最常用的激活函数，ReLU，其实说白了就是保留所有大于0的数字，小于0的数字归零。
 “这个非线性函数操作必须在分支合并之外，而不可以在分支合并之内。”
 这个很好理解，假设一个原本的数字x是1，而他F运算之后得出的结果是-2。
 那么ReLU)+x，和ReLU+x)的结果是完全不同的。
 前者为0+1，后者为ReLU=0。
 所有的可合并分支，必须不含有非线性激活算子，才能够满足结合律和分配率。
 但问题又来了，如果构造出来的几个分支都可以等价转换为一个，那为什么不从一开始就只训这一个分支呢？这不是快很多吗？
 最后的效果为什么会不一样呢？
 这从直觉上和数学上都是不大合理的事情。
 这不就相当于小学数学分开算吗？
 2x拆成x+x去训练，这怎么会有区别呢？
 “我们不能这么去想，残差链接的想法也没有脱离线性变换，也只是加了一个相同形状的张量x而已呀。”孟繁岐自己也不知道具体的原理，这个世界上没人能解释得清楚。
 “但是残差链接在你的实际应用当中，是跨越了非线性激活函数的，你的公式看上去很简单，但代码里却很复杂。”戴密斯无情地指出了这个说法的问题所在。
 “那理论上说，是不是3x3的卷积核一定好过1x1的卷积？只要九宫格外面的八个数字都是0，那么3x3的卷积核其实就变成了一个1x1的卷积，因为外面8个数字不参与运算。”
 孟繁岐想了想，又换了一个例子来尝试证明。
 “呃...好像确实是这个道理。”
 就好像有某种物品，一定好过没有，因为再不济你也可以把它扔掉嘛，这样你现在就也没有这个东西，大家都一样了。
 “那为什么我这里结果显示，同一个位置上面，1x1+3x3的性能却明显好于3x3+3x3，也就是说一个强结构加一个弱结构好于两个强结构相加，这难道不奇怪吗？”
 “而且，批归一化虽然推理时是线性的，但训练时其实还是非线性的，也就是说即便没有专门的非线性函数，这种可重构的结构设计，多个分支内在训练的时候仍旧是具备非线性能力的。”
 理论很美好，但实验结果很骨感。
 即便席尔瓦和戴密斯的数学再扎实，也终究没法解释孟繁岐获得了提升的实验结果。
 两个人能做的也只有喃喃自语同一句话。
 这特么根本不数学啊！

章节报错（免登陆）

阅读记录

163. 这特么不数学啊