当前位置: 新濠影汇赌城 > 最新动态
kb0707体育|谷歌BERT遭遇对手,微软UniLM AI突破大量文本处理瓶颈

发布时间:2020-01-10 11:32:11 热度:2668

kb0707体育|谷歌BERT遭遇对手,微软UniLM AI突破大量文本处理瓶颈

kb0707体育,智东西(公众号:zhidxcom)

编 | 云鹏

导语:它已经掌握了28996个词汇,但它还要学习更多。

智东西10月17日消息,去年10月谷歌发布的bert模型已经在阅读理解测试中全面超越人类,今天微软的unilm模型将这一领域的研究推向了新的高度。

据外媒报道,微软近日推出的unilm ai训练模型通过改变传统ai系统学习方式,成功实现单向预测,突破了自然语言处理中大量文本修改的瓶颈。

一、改变双向预测方式

语言模型预训练(language model pretraining)是一种机器语言处理技术,它通过依据文本预测词汇的方式,教会机器学习系统(machine learning systems)如何把文本情景化地表述出来。它代表了自然语言处理(natural language processing)领域的最新突破。

目前,像谷歌的bert模型,是双向预测,也就是根据左右两侧的词汇来预测,因此不适合大量文本的处理。

▲谷歌bert模型

为此,微软科学家们研究出了unilm(unified pre-trained language model)这种新模型。该模型可以完成单向、序列到序列(sequence-to-sequence)和双向预测任务,并且可以针对自然语言的理解和生成进行微调(fine-tuned)。

微软表示它在各类常见的基础测试中都要优于bert,并且在自然语言处理的一些测试项目中取得了该领域的最新突破。

二、“变形金刚”的威力

▲unilm模型概览

unilm模型是一个多层网络,其核心是由transformer ai模型组成的,这些模型针对大量文本进行了共同的预训练,并针对语言建模进行了优化。

跟其他ai系统学习预测方式不同的是,transformer ai将每个输出元素都连接到每个输入元素。它们之间的权重是可以动态调整的。

微软研究人员认为,经过预训练的unilm与bert类似,可以进行微调以适应各种下游任务。但是与bert不同,unilm可以通过一种特殊方式(using different self-attention masks),汇总不同类型语言模型的上下文。

此外,transformer网络可以共享从历史训练中学到的数据,不仅使学习到的文本表示更加通用,也降低了对单一任务的处理难度。

三、学海无涯

微软研究人表示,unilm通过学习英语维基百科(english wikipedia)和开源bookcorpus的文章后,已经拥有高达28996的词汇量。并且在预培训后,unilm的跨语言任务表现也非常好。

团队人员表示,unilm未来发展的空间还很大,例如在“网络规模(web-scale)”的文本语料库上训练较大的模型来突破当前方法的局限性。

他们还希望让unilm在跨语言任务中取得更大突破。

结语:自然语言处理领域的重大突破

自然语言处理,是人工智能界、计算机科学和语言学界所共同关注的重要问题,它对于实现人机间的信息交流起着重要作用。

谷歌bert和微软的unilm是这一领域的开拓者,后者通过单向预测突破了大量文本处理的难题,进而提升了此类ai在实际应用中的价值。

此次谷歌霸主地位被动摇,也势必将在该领域引发更加精彩的ai大战。

澳门新濠天地线上娱乐官网

买自动挡的都是小白,买手动才真懂车?老司机的迷之自信哪里来的

相关新闻

市民投出271.7万票,2019感动上海年度人物揭晓

市民投出271.7万票,2019感动上海年度人物揭晓

最新文章

最热文章