3月2日,深度学习技术与应用国家工程实验室揭牌,林元庆任主任。这是中国首个国家级的深度学习实验室,百度也喊出了“做成国内最大深度实验室”口号。李彦宏在会上说,百度要做深度学习“国家队”。国家队要干什么?如何分工?怎么干?林元庆在现场的演讲中做了大体介绍。本文带来现场实录。
林元庆:下面我跟大家分享一下我们深度学习实验室接下来的计划。之前我们跟共建单位清华、北航经过了几轮的讨论,在这里我简要介绍一下我们在这个国家工程实验室到底要做些什么,我们一些初步的计划是什么。下午我们这几个单位还会再进行一下 workshop,未来会讨论这个深度实验室的规划。
更多
人工智能现在不但是百度的战略,应该也是国家的战略。这个图左边我们看到的是去年美国的国家战略。中国政府对这个方向也是高度重视,人工智能现在确实是整个行业,甚至一个国家的战略。
人工智能在过去这几年经历了从量变到质变的一个过程,去年特别热的一个话题是谷歌的 AlphaGo 战胜了围棋冠军。包括右边这张图我们看到的自动驾驶,我还记得在2012年的时候,谷歌第一次发布自动驾驶视频,我还在想这个东西哪一年会实现?当时觉得会非常遥远。但是短短几年,自动驾驶已经是很多公司扎扎实实的目标了。在百度我们希望能实现三年的商用,五年量产的目标。
我想说的是,人工智能其实是一个非常大的系统工程,其实是需要很多方面的因素结合在一起。这里面提到了人工智能的四大要素,可能在座的各位曾经听过人工智能很重要的是深度学习、大数据和大计算,其实大应用也是非常重要的。我想用这张幻灯片来解释一下为什么大应用是非常重要的,有了一些初始的算法,有了一些初始的数据,可以搭建一些初始的技术,然后我们这边发布一些产品或者是服务,有了这些产品和服务的话,我们能够搜集到更多的数据,这样的话,数据跟算法一起迭代,能够演化出更好的算法。
当然有了更好的算法,我们就有更好的技术,有更好的技术,我们就有更好的产品,就会使更多的用户来用,这是一个正循环。也正是因为这个正循环,人工智能演化的轨迹跟普通传统的技术是不一样的。比如我们平常说的精密机床,它可能是几十年非常线性的往上进步。但是人工智能不是这样的,人工智能的技术可能在前期会是线性的慢慢的往上进。但是当这个正循环真正起作用的时候,它的发展是非常快的。因此,不管是技术水平或者是应用的深度和广度都会有一个迅速的体现,这个其实是对于人工智能技术的研发非常重要的。从这个图里面也解释了刚才我们看到,要做人工智能技术,我们这四个大要素都需要有很好的技术,这样的话,我们才能够研发出真正非常强大的人工智能的技术。
基于这样的考虑,去年我们筹备深度学习实验室的时候联合了清华大学、北京航天航空大学还有电子四院,也是希望在这几个方面同时发力。在这个实验室里我们准备搭建七个平台,百度参与深度学习平台,清华会参与生物特征识别平台、视觉感知平台,北航会参与视觉感知平台和新型的人机交互,电信研究院会参与知识产权平台和标准化平台。
标准化平台其实也是非常重要的,我们很多人工智能的技术一定要变成一个标准,让它得到广泛的应用。中间这个是我们通常说的人工智能的基础技术,包括听的、看的还有理解的。最基础的就是我们要搭建我们深度学习的平台。我们在这个深度学习的国家工程实验室,其实基础是PaddlePaddle深度学习平台。但是我们往上面研发的是整个人工智能一系列的技术。
我们列了这个实验室的建设目标,在接下来的两到三年我们要实现的目标,要搭建这七个平台,每个平台要实现的目标都在这里。
深度学习平台,一方面我们要开放我们的PaddlePaddle,这是我们去年9月份就已经做的。我们不单单要开放PaddlePaddle,我们还要开放深度学习的计算模块,这里面会有GPU,还有大机型的CPU。我们希望建成中国最大的深度学习平台。
听觉平台,包括语音识别、语音合成、语义理解,还有后端的一些很多的资源。
视觉感知平台包括的方面比较多,包括我们的检索跟识别,包括清晰度图像识别,我们也正在搭建医学影像分析,比如说我们希望拿到一张CT,来分析这个病人是不是有癌细胞。
生物特征识别平台,我们能够单独拿出来,这是一个非常重要的方式。其实我们应该在两个礼拜之前,我们的人脸识别获得了MIT的十大突破技术之一。我们在这个工程实验室,希望生物特征的识别、人脸识别、声纹识别、虹膜识别等身份特征的识别做成一个能够广泛应用的技术。
新型人机交换平台,这个里面会融合计算机视觉的AR,百度最近也成立了一个事业部,就是纯语音的,用非常自然的这种交互系统,我们最后希望能够把这些系统都放在一起,是一个基于AI的交互系统。包括我们最近这几年基于触摸的,就是在那个基础上,我们想建立的基于AI的方面,这里面包括语音、语义识别和理解能力,还有计算机视觉的能力。
刚才也提到,我们希望把我们研发出来的很多的技术都标准化。因此,我们也会在这个工程实验室里面推进标准化平台的建设,这样的话,希望很多研发出来的技术,当它足够成熟的时候,能够应用在各个行业。
知识产权的保护也是非常重要的,我们希望成为中国甚至是世界上最好的人工智能实验室,我们研发出来的很多技术,我们也需要去做非常好的知识产权的保护。这个里面还包括知识产权的一些分析,比如说能够分析人工智能这个方向的趋势各个方面,对于我们技术的研发提出建议,哪些技术是非常重要的,直到最后知识产权的保护。
这张幻灯片是刚才这些幻灯片里面最重要的,这个里面概括了一下在这里我们国家工程实验室到底做什么。我刚才提到了,人工智能的技术需要从四个大要素一起来发力,我们在这四个大要素上具体是怎么做的?
第一,深度学习的平台。我们把我们的PaddlePaddle去开源,我们争取把PaddlePaddle做成一个非常好的开源系统。
第二,我们会开放大规模的计算资源。因此我们的PaddlePaddle会在这个计算资源的平台上进行深度的优化,这是我们要做的一件非常重要的事情。这个计算资源跟PaddlePaddle我们会向社会开放和科研单位开放,他们只需要一个账号,就可以在这个平台上去做各种各样的实验和人工智能的研发。
第三,大数据。我们会和目前的共建单位,甚至包括我们后面更多的合作单位我们来定义问题,定义问题的方式就是通过数据,或者我们叫Benchmark来定义人工智能,我们会去看哪一些人工智能的方向是人工智能领域一些非常核心的,同时也需要技术突破的。这些方向,我们百度跟合作单位会投入很大的力量,吸引非常多的科研单位到这个平台上我们一起来做研发。我们提供深度学习平台、大计算平台和大数据平台,我们一起研发,希望能够在一些技术上取得非常大的突破。
第四,大应用。假定我们前面的研发取得不错的技术,这样的话,我们希望能在百度很多的应用上很快的用起来,或者是说我们也会把这些应用推到社会上,期望通过百度这个平台,这些研发出来的技术能够获得非常广泛的应用。
收起