第163章 这特么不数学啊(2/2)
天才一秒记住本站地址:[笔趣阁ok]
https://www.bqgok.net最快更新!无广告!
即便是学术实力很强的大学,院士十来位,杰青和长江学者百来个,一般一整年能出一两篇自然和科学,也已经算不错的了,值得嘉奖。
在国内做研究人员,别的不说,一篇自然、科学正刊,直接立领五十万乃至上百万奖金,不在话下。
后续的奖励和政策协助那更是数不胜数,哇,爆率真的很高。
席尔瓦和戴密斯也觉得特别神奇,孟繁岐从残差网络崭露头角以来四五个月,一轮审稿期还没过完呢,技术倒是生产个不停。
还没有正式录用一篇文章,就已经能和自己几人一起发自然正刊了。
要知道他们都是多少年的积累和努力才有了这个实力。
“你这个重参数化的思想,逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法,属于脑洞文。
想到比较困难,实现上倒没有那么复杂。
只是这个原理,在几位研究者看来,好像不大数学。
“现在的情况就是,你有两个结构,一个用来训练,一个用来推理。训练的比较复杂比较慢,但是推理的则小很多,也很快。”戴密斯简要地总结道。
随即指出了最关键的问题:“但你构建的这两个结构却是等价的,这里存在一个巨大的问题,如果两者本身就是等价的,为什么以复杂的形态训练效果会好,而简单的情况训练效果则会差呢?”
“这不数学。”席尔瓦给孟繁岐的想法下了一个结论。
这里面从数学逻辑上来说,存在一个套娃一样的悖论。
那就是有强烈意义的操作,两个分支数学上就合并不了,至于没用的操作最开始就在数学上等价,没必要拆开。
“网络结构的分支合并是没有办法越过非线性算子的,如果越过,则不能合并对吧。”戴密斯如此抽丝剥茧道。
网络结构的重参数化,最终目的是要得出与合并之前一样的运算结果,因此非线性的激活函数是没法包含在残差里的,否则就没法合并。
比如最常用的激活函数,ReLU,其实说白了就是保留所有大于0的数字,小于0的数字归零。
“这个非线性函数操作必须在分支合并之外,而不可以在分支合并之内。”
这个很好理解,假设一个原本的数字x是1,而他F(x)运算之后得出的结果是-2。
那么ReLU(F(x))+ x,和ReLU(F(x)+ x)的结果是完全不同的。
前者为0+1,后者为ReLU(-2+1)=0。