您现在的位置 二罗信息门户网>军事>凤凰娱乐怎么不见了 参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5
凤凰娱乐怎么不见了 参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5
发布时间:2020-01-11 16:48:14 访问量:3686

凤凰娱乐怎么不见了 参数量110亿,附赠750GB数据集,Google提NLP预训练模型T5

凤凰娱乐怎么不见了,整理 | just,夕颜

出品 | ai科技大本营(id:rgznai100)

近日,google 在最新一篇共有 53 页的论文《exploring the limits of transfer learning with a unified text-to-text transformer》中,提出了一个最新的预训练模型 t5(全称 text-to-text transfer transformer),其参数量达到了 110 亿,要知道 bert large 模型的参数量不过才 3.4 亿,是后者的 32 倍多。

google 还放出了源代码:

github 链接:

https://github.com/google-research/text-to-text-transfer-transformer

论文:

https://arxiv.org/abs/1910.10683

尽管文章主题是探索迁移学习的局限性,但其做了大量的预训练模型试验对比。这篇论文太长,亮点可以笼统概括为以下两大部分。

最新预训练模型 t5

t5 库里主要是用于用文本到文本的 transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。

t5 提供了有用的模块来训练和微调 text-to-text 混合任务的模型,可以作为未来模型开发的库。

研究人员通过大规模语料库上训练了几种基于 transformers 的模型,以评估其文本到文本方法的有效性。

t5 登顶 glue 和 superglue

这个最大的模型 t5 包含多达 110 亿个参数,或进行预测时所需的模型内部配置变量。研究人员表示,他们对各种语言任务进行了微调,并在 glue 和阅读理解基准 squad和cnn / daily mail上取得了最新分数为 89.7。他们还在 superglue 上进行了测试,该基准包含了一些比当前 nlp 系统更加困难的任务,得分为 89.8,表现可媲美人类。

关于 t5 的所有测试结果都在论文最后一页。“你说你有足够多的算力?那你把这个表格复现一下?”

t5 模型的成功除了庞大参数量的助力,还包括 google 研究人员开源的一个新数据集 colossal clean crawled corpus,简称 c4。顺便说一句,google 真会起名。

google研究人员称,将 t5 这个有史以来最大的模型之一提交到通用语言理解评估(glue)基准并进行测试后,他们在涵盖问题解答、文本分类等任务上获得了 sota 结果。

据称,t4 数据集源于 common crawl 项目,该项目每个月会从网络上爬取大约 20 tb 的英文文本。为了过滤出乱码、样板菜单和错误消息,它们仅保留以终端标点符号(句点、感叹号、问号或结束引号)结尾的文本行,同时删除带有明显填充文本和重复项的页面。结果,他们宣称得到一个比大多数用于预训练数据集都大一个数量级的 t4 数据集,约为 750 gb。

然而,google 团队坦陈,他们的模型在诸如翻译之类的语言任务中表现不尽人意,将原因归结为特定任务数据相对缺乏和训练规模不足。因此,他们提倡使用较小的模型实现更强性能的方法,让迁移学习发挥最大的效能。

该论文的合著者写道:“我们的研究得出一个令人惊讶但重要的结果,那就是较大的模型往往表现更好。用于运行这些模型的硬件价格越来越低,功能却越来越强大,这一事实表明,扩大规模可能仍然是实现更好性能的有效方法。但是,在某些应用程序和场景中,使用较小或较便宜的模型更有效这一现象总是存在的,例如在执行客户端推断或联合学习时。”

有知乎网友评论称,这篇论文更多是“大力出奇迹”的结果,有钱可以为所欲为,但内容上没有新意,没有惊喜。最大的意义就是为 nlp 预训练领域目前基本所有方法做了一个系统性的综述和实验对比。

另有网友调侃,google的这一篇论文估计半路截杀了好几十篇正在酝酿中的 paper。“google——nlp的灯塔,普通nlper毁灭者。”

你觉得呢?

更多技术详情,还需要你自己啃一遍论文,不,也许需要好几遍。

参考链接:

https://venturebeat.com/2019/10/24/google-achieves-state-of-the-art-nlp-performance-with-an-enormous-language-model-and-data-set/

(*本文为 ai科技大本营整理文章,请微信联系 1092722531)

ballbet贝搏体育


上一篇:《芳华》返璞归真,因为冯小刚已经不需要通过它来讨好谁了
下一篇:87年前的今天,我们永远不能忘记!