5月26日,百度、中国计算机学会中文信息技术专委会和中国中文信息学会青工委联合举办“2019自然语言处理前沿论坛”。人工智能的本质是让机器像人一样感知世界、认知世界。以语言和知识为研究对象的自然语言处理(NLP)技术是人工智能的核心问题之一。


人工智能的本质是让机器像人一样感知世界、认知世界。以语言和知识为研究对象的自然语言处理(NLP)技术是人工智能的核心问题之一。5月26日,百度、中国计算机学会中文信息技术专委会和中国中文信息学会青工委联合举办“2019自然语言处理前沿论坛”。


百度高级副总裁、ACL Fellow王海峰博士为论坛做开场致辞。他表示,“语言是人类思维和交流的载体,同时也是人类知识凝练和传承的载体。自然语言处理技术不仅仅需要算法、算力和数据,同时也需要不断地凝练知识,需要语言处理跟我们认识世界、改造世界的过程相结合,所以仍然有很多创新突破的空间。”他希望通过本次论坛,青年学者们能够增进交流,碰撞新的火花,一起来推动自然语言处理的发展及产业化的进程,在人工智能时代帮助我们的生活变得更加美好。



本届论坛主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”,包含语义计算、自动问答、语言生成、人机对话和机器翻译5场专题报告,以及围绕上述专题的嘉宾对话环节。本论坛汇集学术界和工业界的青年专家学者,共同探讨NLP领域的最新技术进展、产业应用及发展趋势,旨在促进产学研深度融合,推动自然语言处理技术进步。


“语义计算”研究如何利用计算机对自然语言的语义进行表示、分析和计算,使机器具备语义理解能力。哈工大车万翔教授介绍了动态词向量的技术进展,该技术可以根据上下文更好地处理一词多义现象,大幅提高自然语言处理多个任务的准确率;复旦大学邱锡鹏副教授介绍了表示学习的最新进展,分析和对比了当前主流模型的基本原理和优缺点,探讨了如何更好地融合局部和非局部的语义关系,如何更好地加入先验知识,以及针对目前复杂网络模型的简化和加速。北京大学孙栩研究员开展了关于稀疏化深度学习的研究,提出简单有效的算法来简化神经网络,仅用全梯度的子集来更新模型参数,大幅降低了训练和解码复杂度。百度主任架构师孙宇介绍了百度最近提出的知识增强语义表示模型ERNIE,基于实体、短语等知识进行建模,在语言推断、语义相似度等多个任务上取得了大幅提升。


“自动问答”专题探讨机器的“阅读”能力,让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解可以使机器具备从文本数据中获取知识并运用知识的能力,是问答领域的关键技术之一。中科院自动化所副研究员刘康介绍了文本阅读理解的基本框架和方法。他表示,构建合理的数据集对于阅读理解任务非常重要,而如何更好的融合知识是未来的重要研究方向。百度资深研发工程师刘璟介绍了深度融合文本表示与知识表示的模型KT-NET,以及百度发布的面向真实应用的中文阅读理解数据集DuReader 2.0。基于此数据集,百度、中国计算机学会和中文信息学会连续两年举办了机器阅读理解评测,共同推动中文阅读理解技术的进步。


 “语言生成”专题聚焦如何让计算机像人一样使用自然语言进行表达和创作。北京大学万小军教授介绍了自然语言生成(NLG)技术和应用的最新进展,指出自然语言生成目前面临两大挑战,首先是对生成文本的质量评估,其次是平行数据的缺失。如果这些问题解决了,将极大地推动自然语言生成的发展。他同时也表示,目前的文本生成与人类还有较大差距,尤其是在综合利用知识的方面。百度主任架构师肖欣延介绍了百度在语言生成技术方面的创新和应用,提出了基于规划、基于信息选择、端到端等多种模型,在文章生成、摘要生成、诗歌生成等任务上取得良好效果。此外,百度还推出了智能写作平台,通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。


“人机对话”专题探讨如何让计算机和人类进行对话交流。清华大学副教授黄民烈回顾了人机对话的发展历程,经典的对话系统大多采用强语义方法,而现代神经网络方法则发展了弱语义方法,基于数据驱动和概率统计。语义理解始终是人机对话中需要攻克的难题,如何更好的结合数据和知识,是该领域需要共同努力的方向。百度主任研发架构师孙珂介绍了百度最新发布的智能对话系统训练与服务平台UNIT 3.0,从搭建技能、构建知识、整合技能与知识三方面着眼,发布了多个核心技术和工具,大幅降低了对话系统的定制成本。


“机器翻译”是指利用计算机进行不同语言之间的转换和生成,是自然语言处理领域中填补语言鸿沟的重要技术。清华大学副教授刘洋首先介绍了神经网络机器翻译的基本原理,并指出,尽管该方法取得了较大进步,但是仍然面临许多挑战。刘洋介绍了他们在知识驱动、可解释性、鲁棒性神经网络机器翻译方面的最新进展。百度人工智能技术委员会主席何中军介绍了机器同传的主要挑战和最新进展,指出目前机器同传面临技术、数据、评价三个方面的挑战。结合百度的研究成果,在现场使用了最新研发的百度翻译AI同传。现场听众使用手机扫描会议二维码,可以实时收听译文。


5大专题探讨结束后,车万翔、邱锡鹏、黄民烈、刘洋以及百度高级科学家吕雅娟、百度PaddlePaddle总架构师于佃海就“NLP的未来之路”展开高端对话。在场嘉宾首先回顾了过去5年NLP领域取得的重要进展,过去5年,是深度学习和自然语言处理“深度”结合的5年,NLP的研究方法、模型框架均发生巨大变化,研究和应用上取得了一系列重大突破。


黄民烈在发言中表示,关键是思路的转变,从之前的特征工程到现在神经网络模型,研究思路和方法发生了很大变化。NLP领域的节奏变化十分迅速,需要不断有新的思想,促进发展。吕雅娟结合自身的研究经历也谈到了过去5年,思路转变及拥抱深度学习后带来的巨变。她表示自然语言处理在整个人工智能发展大背景下,结合深度学习与大数据、大算力,在机器翻译、自动问答、智能写作、人机对话等不同领域都取得了系统级应用的巨大突破。车万翔从模型、数据、任务三个方面总结了NLP的进展。模型方面,大部分的NLP研究都基于深度学习模型展开;数据方面,可以更多的利用弱标注甚至无标注数据进行训练;任务方面,阅读理解、文本生成等很多过去比较难的任务,取得了较大突破。


(由左至右:何中军、车万翔、邱锡鹏、黄民烈、刘洋、吕雅娟、于佃海)


同时,嘉宾们一致认为我国的NLP研究与工业化应用处于国际领先水平。国家政策的支持、巨大的市场需求、高技术人才储备为NLP的发展提供了有利的条件。在研究方面,刘洋认为中国NLP在学术界的研究相当靠前,近年来入选领域顶级会议的论文数量急剧增加,论文质量也在不断上升。在工业应用方面,吕雅娟认为,我国人口基数大,NLP需求场景丰富,国家将人工智能作为发展战略,为NLP提供了健康的发展环境。在深度学习方面,我国也走出了自主研发的道路。于佃海认为,深度学习的兴起对NLP领域产生了巨大的影响。


我国NLP工业化应用的领先地位,与中国企业对深度学习技术的研发投入有很大的关系。以百度为例,深度学习底层框架技术的研发建设对百度NLP技术和应用的快速发展起到了重要的支撑和推动作用。依托自主研发的开源深度学习框架PaddlePaddle,百度将NLP积累的算法工作进行整合、优化,进一步建设并开放了PaddleNLP工具包,为开发者提供更多的便利。嘉宾们也同时指出,需要进一步加强产学研的结合,联合高校的人才培养、企业的数据资源、算力资源和框架平台资源,做出更多原创性的、有影响力的工作。


在NLP的长期发展趋势上,融合知识和多模信息、新的学习机制等方面将会是重要的技术方向。刘洋认为,NLP获取知识的方式会在未来发生巨大变化,它将会和更多领域相结合,解决数据缺乏的问题,将更多不同的信息融合在一起。吕雅娟表示,目前的语言理解大部分是基于文本的理解,还处于比较浅层的理解,未来需要结合多模态和更多的知识。黄民烈指出,需要探索更类人的学习机制和学习方法,同时研究更高效、更经济的计算模型和方法。邱锡鹏从两方面阐述了NLP的发展趋势,一方面需要融入更多与AI相关的内容,结合跨学科的知识;另一方面是通过知识迁移、少量标注数据的学习,推动NLP在细分领域应用方面的发展。


近期来看,未来5至10年,嘉宾们认为在计算范式、跨模态通用表示、利用知识及行业应用、对话系统上会有突破性的进展。人工智能的迅速发展为NLP提供了更多可能,相信在众多专家学者的共同助力下,NLP技术将不断精进,促进产业智能化发展,以科技的力量改变人们的生活。 

 

了解更多内容,欢迎扫码进入百度NLP公众号: