第163章这特么不数学啊（2/2）

好书推荐：偏心假千金，我断亲成顶流你们哭什么？万物启源都市异能世界凡人之小算盘被气进棺材，她抛夫弃子二嫁京圈大佬人在南韩，大宇集团逆天改命拂缘记三祀红雨行快穿：动物幼崽出击，萌翻全世界去有风的地方等风来

天才一秒记住本站地址：[笔趣阁ok]
https://www.bqgok.net最快更新！无广告！

即便是学术实力很强的大学，院士十来位，杰青和长江学者百来个，一般一整年能出一两篇自然和科学，也已经算不错的了，值得嘉奖。

在国内做研究人员，别的不说，一篇自然、科学正刊，直接立领五十万乃至上百万奖金，不在话下。

后续的奖励和政策协助那更是数不胜数，哇，爆率真的很高。

席尔瓦和戴密斯也觉得特别神奇，孟繁岐从残差网络崭露头角以来四五个月，一轮审稿期还没过完呢，技术倒是生产个不停。

还没有正式录用一篇文章，就已经能和自己几人一起发自然正刊了。

要知道他们都是多少年的积累和努力才有了这个实力。

“你这个重参数化的思想，逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法，属于脑洞文。

想到比较困难，实现上倒没有那么复杂。

只是这个原理，在几位研究者看来，好像不大数学。

“现在的情况就是，你有两个结构，一个用来训练，一个用来推理。训练的比较复杂比较慢，但是推理的则小很多，也很快。”戴密斯简要地总结道。

随即指出了最关键的问题：“但你构建的这两个结构却是等价的，这里存在一个巨大的问题，如果两者本身就是等价的，为什么以复杂的形态训练效果会好，而简单的情况训练效果则会差呢？”

“这不数学。”席尔瓦给孟繁岐的想法下了一个结论。

这里面从数学逻辑上来说，存在一个套娃一样的悖论。

那就是有强烈意义的操作，两个分支数学上就合并不了，至于没用的操作最开始就在数学上等价，没必要拆开。

“网络结构的分支合并是没有办法越过非线性算子的，如果越过，则不能合并对吧。”戴密斯如此抽丝剥茧道。

网络结构的重参数化，最终目的是要得出与合并之前一样的运算结果，因此非线性的激活函数是没法包含在残差里的，否则就没法合并。

比如最常用的激活函数，ReLU，其实说白了就是保留所有大于0的数字，小于0的数字归零。

“这个非线性函数操作必须在分支合并之外，而不可以在分支合并之内。”

这个很好理解，假设一个原本的数字x是1，而他F(x)运算之后得出的结果是-2。

那么ReLU(F(x))+ x，和ReLU(F(x)+ x)的结果是完全不同的。

前者为0+1，后者为ReLU(-2+1)=0。

第163章 这特么不数学啊（2/2）