第233章 GPT的魅力所在(1/2)
天才一秒记住本站地址:[笔趣阁ok]
https://www.bqgok.net最快更新!无广告!
从模式上说,GPT显然要强很多酷很多。
因为BERT的模式需要对特定的任务做大量的调整工作,仍旧无法摆脱现有人工智能技术的困境。
它更像是一个特定任务上的工具,而非是一个智能。
不过直到ChatGPT出现之前,几乎没有多少人相信过GPT的模式真的能够更强。
因为一直以来,GPT的性能效果都要比BERT方法差了不少。
“即便我将两个方法都做出来之后选择支持GPT,恐怕也不会有多少人跟随我的脚步吧...他们大概只会觉得,我为了完成当年视频中的宣传效果,已经开始不尊重事实,无法正确看待自己的技术了。”
开源了T方法之后,孟繁岐所有的精力就完全扑在了一件事情上,那就是确立T方法后续路线的两种范式,BERT和GPT上。
不过这一次,他倒没有着急着手写代码和论文,而是花了很多时间与辛顿师徒以及其他谷歌大脑的同事讨论其中的模式和原理。
“首先,你的这两个路线,肯定都是基于预训练大语言模型的,只是针对后续具体任务的方式不大一样。”
辛顿还是那么擅长把复杂的问题和区别迅速地归纳总结。
所谓的预训练,并不是什么难懂的概念。
所有的模型都是由大量的参数组成的,最初的模型,所有的参数都是依照一些简易的模式随机生成的,这个模型不具备什么能力。
利用这样白纸一张的模型进行人工智能任务的学习,叫做从头训练。
载入已经学到了知识的参数模型,而不是随机产生的参数,就叫做使用【预训练模型】。
比如孟繁岐最开始参赛千分类任务,就是从头训练。
在语言领域当中,模型通常很大,所需要的文本数据也非常之多。
不是每一个都像孟繁岐这样,拥有成百上千张的泰坦Z来做实验的。
倘若现在有一个人,想使用最新的T方法,在自己的任务上使用,比如他想要一个可以辨别哪些语句说了脏话的T方法模型。
那么他就有两个选择,一是随机生成参数,从头训练一个T方法模型。
二,他可以直接载入孟繁岐开源出来的模型参数,然后在自己的数据和任务上做一些细微的调整,俗称基于【预训练模型】的【微调】。
很显然,后者的效果要比前者要好太多太多。
因为前者是从一个什么都不会什么都不知道的模型,从零开始,T方法可不是什么容易训练的模型。
本章未完,点击下一页继续阅读。