企业培训资讯_企业培训干货

当前位置:首页 > 新闻中心

开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类!【亚搏开户网址】

发布时间:2021-01-01    来源:亚搏开户网址67346

【亚搏开户网址】我们知道,Transfromer在处理长序列文本方面比CNN/RNN表现更为出色,因此,最强大的预训练模型,如BERT、GPT均采用的是Transfromer基础架构。而且事实证明,在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时,只需进行微调,即可达到SOTA性能。但是,Transfromer的自监督目标(self-supervised)更偏通用性,与下游语言任务联系性不强,也就是说它不知道下游执行的是机器翻译,还是文本摘要。

亚搏手机版

如果自监督目标能够与下游任务建立紧密联系,那么,微调性能会更好。基于这样的目的,GoogleAI团队研发出了PEGASU(天马)模型。

基于Transfromer编/译码器的天马架构结果出人意料,研究发现“天马”模型不仅表现出了卓越的性能,而且在小样本数据下,能够达到同样的效果,极大地优化了训练效率,降低了数据成本。目前,这项研究的论文《PEGASUS:Pre-trainingwithExtractedGap-sentenceforAbstractiveSummarization》已经发表在预印论文库arXiv上,而且被ICML国际机器学习大会收录。从“间隙句子”到文本摘要,小样本性能更佳研究人员假设,预训练目标越接近下游任务,微调的性能越好。

为此,他们设定下游语言任务为“提取文本摘要”,而预训练目标为“生成间隙句子”(GapSentencesGeneration)。研究人员在输入文档中删除一些完整句子,天马模型的任务就是恢复他们。

亚搏开户网址

如果输出结果中能够呈现被删掉的句子,即表示与下游任务建立了联系,即生成了GSG。如下图所示:这个过程就像我们做填空题一样。研究人员表示,这项看似人类都无法完成的任务真的实现了。而且他们发现越是删除一些“重要”的句子,试验的效果越好。

基于此,他们在12个下游摘要数据集上对模型进行了微调,结果显示预训练后的输出示例与微调摘要非常相似,而且这一结果经过了ROUGE标准测试。ROUGE通过N元语法重叠来计算两个文本的相似度。另外,这些数据集十分丰富,包含文章,科学论文,专利,短篇小说,电子邮件,法律文件和使用说明,等,这说明天马模型在选择文本主题上方面并没有局限性。

更令人惊奇的是,研究人员发现天马模型在小样本数据集中同样表现出了卓越的性能。以下是研究人员选定4个数据集后,ROUGE得分与监督样本数量的关系。(虚线表示具有全监督但没有预训练的Transformer编解码器性能。)可以看出,仅1000个微调示例,天马模型已经有了非常好的性能表现,而且高于未经训练的示例(虚线)。

亚搏开户网址

这一结果,表明天马模型在优化性能的同时,可以极大的降低数据使用的成本,同时提高了训练效率。超越人类的性能表现为了确保实验结果的准确性,除了ROUGE标准的衡量外,研究人员还采取了人工评估的方法。

即将实验后的摘要与人类撰写的摘要进行对比。这类似于图灵测试。研究人员采用了3个不同的数据集,评分者在进行优劣判断时,并不知道哪一个是人类的,最终结果显示评分者并不总是喜欢人类编写的摘要。

而且,从XSum、CNN/DailyMail和RedditTIFU这三个数据集中可以看出,仅训练1000个示例同样达到了超越人类的水平,再次印证天马模型在小样本下的性能优势。不过,虽然经天马模型预训练后的性能表现能够与人类相媲美,它还是会存在失误。比如研究人员就以下文本进行了预训练。XSum数据集中的这篇示例全文没有提到数字“4”,但是在文本提取中,天马能够抽象出文本摘要“NoproposalshavebeensubmittedtopreservefourRoyalNavyfrigatesforreuse,theBBChaslearned.”,而且从2-5都是如此。

亚搏开户网址

但是在第六艘护卫舰时,天马出现了失误,其摘要中显示的是“七”。说明模型在重复文本提取方面还需要进一步优化。为此,研究人员也将该项目公开发布到了Github上。

如果你想了解更多研究内容,可参考:https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.htmlhttps://arxiv.org/abs/1912.08777https://github.com/google-research/pegasus原创文章,未经授权禁止转载。详情见转载须知。。

本文来源:亚搏手机版-www.smartmilhealth.com

分享到:
相关推荐MORE+
01-13 亚搏手机版:《心灵法医》爱奇艺热播 全员演技在线好评不断

亚搏手机版-讯 由爱奇艺、中汇影视牵头出品,龚朝晖导演,戴莹、董俊兼任总制片人,姜杨兼任总编剧,聂远、宋轶等领衔主演的治愈系法医剧《心灵法医》目前正在热播。该剧不仅依赖案件的真实性与话题性引发网友辩论

01-13 国内首部公关题材剧《完美关系》今晚开播 黄轩佟丽娅联手征战危机-亚搏手机版

亚搏手机版|由浙江华策影视股份有限公司和浙江金溪影视有限公司出品,安建导演,黄轩、佟丽娅领衔主演,陈数、高露等主演的国内首部公关题材电视剧《极致关系》今晚(2月18日)月播出,公布了全新预告片和海报,

01-13 《少年的你》累计票房破8亿 助力10月大盘突破80亿大关

【亚搏开户网址】 10月30日周三内地大盘报收9400余万暴跌亿元线,10月大盘斩亿总天数定格在23天,《少年的你》仍以多达六成的份额拉起市场,并顺利助推10月大盘冲破80亿大关。10月也沦为时隔今年

01-13 亚搏手机版-国家新一代AI试验区建设新增四城,范围覆盖东、西、西南地区

注:上图截自消息,2020年3月9日,科技部网站发四函,支持重庆、成都、西安、济南四地建设国家新一代人工智能创新发展试验区(以下简称试验区),范围覆盖我国东、西、西南地区。据悉试验区建设旨在围绕国家重

热水真的能“烫死”癌细胞 连锁药店屡获风投“十二五”规划酝酿行业巨变
热门文章
亚搏手机版:《心灵法医》爱奇艺热播 全员演技在线好评不断
国内首部公关题材剧《完美关系》今晚开播 黄轩佟丽娅联手征战危机-亚搏手机版
《少年的你》累计票房破8亿 助力10月大盘突破80亿大关
亚搏手机版-国家新一代AI试验区建设新增四城,范围覆盖东、西、西南地区
亚搏手机版:iPadmini4和iPadmini3哪个好iPadmini4与iPadmini3对比
亚搏手机版|LPL开展线上赛,LCK停赛,LEC更换场地,皆因一只蝙蝠
亚搏手机版_curse瑟提完美大招,逆天改命!OMG完成大翻盘,以2-1击败LNG
亚搏手机版_联盟情报局:iG夺得S9最后一张门票 全球总决赛LPL代表队集结完成
【亚搏开户网址】詹皇28+12+8JR失绝杀3分 步行者17分逆转骑士2-1
亚搏手机版:战术作风:火箭狂攻遇最坚固盾牌 爵士防卫顶级
亚搏手机版-爆料:森林狼和热火重新谈判 莱利看好巴特勒准备让他接班
亚搏手机版_昆汀新片《好莱坞往事》首曝定妆照 双男主小李和皮特复古造型帅气亮相
亚搏开户网址-周三内地票房《千与千寻》持续领跑 “蜘蛛侠”明日排片超六成
【亚搏手机版】《小丑》华金新片拍什么?再次触及精神疾病题材
首页要大改版!支付宝:明天跟大家公布一个好消息
客户案例
×