谷歌Google研究团队开源了一款文本编辑模型LaserTagger,可推理出一系列编辑操作!

访客1年前AI生活161
比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

2014年,Google提出了Sequence-to-Sequence模型,旨在将语句文本映射到fixed-length向量,其间输入和输出的长度可能会有所不同。Seq2Seq一般运用于NLP范畴的文本生成使命,例如摘要生成、语法纠错、语句兼并等。虽然最新的研讨突得端到端的办法在文本生成上比之前更有优势,但其自身存在的不行解释性,一方面使得该模型需求很多的练习数据才干到达可接受的功用水平,另一方面一般只能逐字生成文字,本质上是很慢的。

近来,Google研讨团队开源了一款文本修正模型LaserTagger,可推理出一系列修正操作,以将源文本转换为方针文本。研讨人员断语,LaserTagger处理文本生成一般不易犯错,且更易于练习和履行。

在此之前,Google现已发布了Meena,一个具有26亿个参数的神经网络,可处理多轮对话。1月初,Google在论文中还提出了Reformer模型,可处理一切小说。

GitHub链接:https://github.com/google-research/lasertagger

LaserTagger规划和功用

关于许多文本生成使命,输入和输出之间存在高度堆叠,LaserTagger正是利用了一点。例如,在检测和纠正语法错误或多个兼并语句时,大多数输入文本能够坚持不变,只需修正一小部分单词。然后,LaserTagger会生成一系列修正操作,而非实践单词。 

现在支撑的四种修正操作:

  • Keep(将单词复制到输出中)
  • Delete(删去单词)
  • Keep-AddX(添加短语X到符号的单词前) 
  • Delete-AddX(删去符号的单词)

下图对LaserTagger在语句兼并中的运用进行了阐明。

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

图注:LaserTagger猜测的修正操作中,删去“Turing”,添加“ and he ”。请注意,输入和输出文本存在的高度堆叠。

一切添加的短语均来自受限制的词汇表。该词汇表是一个优化进程的成果,该优化进程具有两个方针:(1)最小化词汇表的巨细和(2)最大化练习样本的数量,其间添加到方针文本的仅有必要单词仅来自词汇表。短语词汇量受限制会使输出决议计划的空间变小,并避免模型添加恣意词,然后减轻了“错觉”(注:hallucination,模型在所生成的文本中,输入信息中并不存在)的问题。

输入和输出文本的高堆叠性的一个推论是,所需的修正往往是部分的而且互相独立。这在某种程度上预示着修正操作能够高精度地并行推理,与次序履行推理的自回归seq2seq模型比较,可显着提高端到端的速度。

成果

研讨人员评价了LaserTagger在四个使命中的体现,分别是:语句兼并,拆分和改述,笼统总结和语法纠正。成果显现,运用很多练习样本情况下,LaserTagger与根据BERT的seq2seq基线成果适当,而且在练习样本数量有限时显着优于基线。下面显现了WikiSplit数据集上的成果,其间的使命是将一个长语句改写为两个连接的短语句。

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

图注:在100万个样本的完好数据集上练习模型时,LaserTagger和根据BERT的seq2seq基线成果适当,但在10,000个或更少样本的子样本上进行练习时,LaserTagger显着优于基线模型(SARI得分越高越好)。

LaserTagger首要长处

与传统的seq2seq办法比较,LaserTagger具有以下长处:

  1. 操控:经过操控输出短语词汇(也能够手动修正或收拾),LaserTagger比seq2seq基线更不易发生“错觉”问题。
  2. 推理速度:LaserTagger核算推理的速度比seq2seq基线快100倍,能够很好的满意实在的情况下的实时问题。
  3. 数据功率:即便仅运用几百或几千个练习样本进行练习,LaserTagger也会发生合理的输出。试验中,seq2seq基线需求不计其数个样本才干取得相同的功用。

Google团队最终写道:“ LaserTagger的优势在大规模运用时变得更显着,例如,经过缩短呼应时刻并削减重复性,改善了某些服务中语音应对的格局。高推理速度使该模型能够刺进现有技能仓库中,而不会在用户端添加任何显着的推迟,而改善的数据功率能够搜集多种言语的练习数据,然后使来自不同言语布景的用户获益。 ”

相关链接:https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html

本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:362580117!

相关文章

原华为高管李文智加入理想汽车

原华为高管李文智加入理想汽车

小编从多位知情人士处获知,原华为全球HRBP管理部部长李文智近期入职理想汽车,职级M11。在调整后的组织架构上,李文智属于“组织财经群组”下...

又一条地铁无人线开通!霞智科技智能清洁机器人正式“上岗”

又一条地铁无人线开通!霞智科技智能清洁机器人正式“上岗”

2024年9月26日12时,又一条无人线开通运营,这是陕西省首条全自动无人驾驶地铁线路。该线路作为北跨战略的先行工程,是连接主城区与渭北地区的轨道交通快线,对优化城市总体空间布局、推动区域...

ECCV 2022 | 创新奇智提出通过单品示例进行基于原型的分类器学习方法

ECCV 2022 | 创新奇智提出通过单品示例进行基于原型的分类器学习方法

日前,全球计算机视觉顶级会议ECCV(European Conference on Computer Vision)公布了2022年论文接收结...

阿里云黄海清:以数据智能,与各类组织和企业共创数字新世界

阿里云黄海清:以数据智能,与各类组织和企业共创数字新世界

7月23日,由国家互联网信息办公室、国家发展和改革委员会、科技部、工业和信息化部、国务院国有资产监督管理委员会、福建省人民政府共同主办的第五届...

为什么汇智智能“AI商业化应用”走在前列?|GAIR 2023 GPT Pioneer 5

为什么汇智智能“AI商业化应用”走在前列?|GAIR 2023 GPT Pioneer 5

1956年,位于美国东北部的常春藤名校达特茅斯学院,群星闪耀。 这次的达特茅斯会议,一批大师级的人物聚在一起共同研究了两个月,目标是“精确、全...

有温度、更懂你的智能座舱,传祺M8宗师获中国汽车风云盛典“最佳智联车”大奖

有温度、更懂你的智能座舱,传祺M8宗师获中国汽车风云盛典“最佳智联车”大奖

4月7日晚,万众瞩目的中央广播电视总台2023第三届《中国汽车风云盛典》盛大举行,获奖榜单正式揭晓,广汽传祺M8宗师系列凭借超感交互智能座...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。