百度的深度学习技术最新进展
当天下午的研讨会上,林元庆首先介绍了百度在人工智能上的一些技术布局和方向,以下是文字实录:
上午在百度大厦“深度学习技术及应用国家工程实验室”揭牌了,今天下午我们介绍一下这几个单位在做的一些人工智能的研究。我会第一个发言,之后各位老师都会介绍一下各自的研究方向。我首先来讲一下百度的人工智能。
更多
首先简要介绍一下百度大脑,我会讲一下计算机视觉、增强现实、语音技术和NLP。
百度的人工智能基本上可以从这三个层次上来看,中间的层次我们经常叫做百度大脑,就是人工智能的基础技术。跟人脑一样,百度大脑里面我们需要有听的能力、看的能力,还有对语言的理解能力。
当然在百度特别重要的一个功能是大数据提供的推荐和预测的能力,百度现在的搜索需要去预测哪些网页可能是你真正想看的网页,在百度还有跟无人车相关的决策规划、运动和控制。因此在这个层面上,基本上构成了百度大脑的一些非常核心的基础技术。
最底下是来支持和研发这些技术的,我们叫机器学习平台,特别是深度学习平台。这里面有PaddlePaddle的深度学习平台,有开源的平台,还有大规模计算,包括CPU、GPU、FPGA。当然我们也很需要大数据来做训练。
在这个平台上我们研发这些人工智能的基础技术,有了这些基础技术之后,我们可以有非常多的应用。比如像度秘的应用、图片搜索、人脸闸机,甚至包括自动驾驶。百度大脑主要是几个基础技术,主要是语音、图像、用户画像和大数据。
下面讲一下计算机视觉。这个大部分的工作是在IDL,我下面一个个来讲一下。
首先是人脸识别,人脸识别包括人脸检测和识别。人脸检测在这个图里面我们会看看脸在哪里,脸上的一些主要特征点在什么位置上。识别的话,一个就是来看这是不是同一个人,还是不同的人。百度人脸识别其实做得还是非常好的,我们在2014年、2015年在国际测试集上都是领先的,2016年我们在这个上面有非常大的技术突破。
下面有一些内部的数据给大家说一下这个突破到底有多大。在2015年年底、2016年年初的时候,我们在内部的一个测试集上,把一些很简单的东西去掉了,基本上留下的就是比较难的一些例子。因为我们不想每次看的都是99%以上,我们在内部的测试集是非常难的。在那个测试集上,当时年初的时候还是8%的错误率,在9月份的时候,当时大概是开百度世界大会的时候,我们把错误率降到了大概是2.3%,这是非常大的。平常我们说把错误率降低20%、30%或者是50%,这个其实是几倍的降低,我们现在基本上已经做到了低于1%,在这个测试集上。因此大家能看到,基本上我们在一个已经非常好的系统上,它的性能提高了接近10倍,这是非常大的一个突破。就是因为我们有了这些突破,我们有一些非常有意思的应用。
我们在百度大厦和百度科技园的楼里面都已经置上了这个人脸识别闸机系统,我们已经有20多条线在用这个系统。这里面百度的员工每天进出百度的大厦,现在也都是用这个系统,现在百度总共有5万名员工,主要是在百度大厦和百度科技园有1万多的员工注册了这个系统,每天他们就可以用这个来进出。
我想问大家一个问题,人脸闸机这个技术,我们在2008年奥运会的时候就听说了,当时说2008年的奥运会可以用刷脸来进出这个场馆。为什么我们在过去接近10年的时间都没有看到这个技术真正的落地?包括在乌镇的西栅景区,我们从去年的世界互联网大会上,在乌镇就布了人脸进出乌镇的景区,一直运行了五六个月的时间。
为什么现在这些技术才真正的落地,以前说了十年还没有真正的落地?这对技术的门槛还是要求非常高的。比如我们刚才说的百度进出门的闸机系统,首先要让这个系统几乎是接近于零的误通过率,不是百度的人,就一定不能让他通过,因此要求这个系统非常严格,每一个人来,他都要非常仔细的看,非常的严格。同时是百度的人,你又要放他进去,因此这两个是非常矛盾的。如果是一个百度的人,不能让他等半天就是进不去。因此,这个只有单独的技术做到极致的时候,才有可能发生。
我们现在有很多人工智能技术的落地。百度非常追求的就是以技术为导向,真正把技术做到极致,然后才非常扎实的去落地,我们这个已经做得是非常好了。这是我非常喜欢说的一个例子,今天上午我在百度大厦也给一些朋友们看了,今天下午有很多学生没有参加上午的活动。大家能找出来这个图里面哪一个是我吗?这是我自己的一张高中毕业照,这个其实是挺难的,你们比较一下,这两个人从外表来看差别其实是非常大的。我们的人脸识别的技术,我们做到非常靠前的一种程度。
我举的这个例子跟我们几个月之前在《最强大脑》上面做的那个比赛相比要容易很多,主要是两个方面。一个是《最强大脑》那个比赛看的是小学毕业照,我这里面还是高中毕业照,高中毕业照要容易很多。还有《最强大脑》的比赛里面基本上是30张的照片里面去找,而不是1张,因此这个难度要大很多,但是百度的人脸识别技术依然能做得非常好。
下一个方向是我们的细粒度图像识别。传统的图像识别只需要识别这是一把椅子,这是一张桌子就可以了。但是现在细粒度的图像识别,可能就需要去识别这是哪个厂家、哪个型号的椅子。比如这里面举的例子,传统的可能需要去识别这是狗就行了。细粒度的图像识别,我们就需要去识别这是哪一种狗,这是非常细粒度的。比如我不单单识别这是一只鸟,而且要去识别是这种特别的鸟,百度在这个上面其实投入了非常大的力量在做。
刚才说了,我们在国际上Performance精度做得非常明显,核心就是注意力模型。比如说我们去识别这一只鸟,我们能够自动的去发现哪些特征是非常有用的,比如说头顶的颜色,或者是腹部的一些特征,通过端到端的去训练,能够得出哪些信息是非常重要的。
这里面是一个Demo,我们可以看一下,这是菜品的识别,我们在乌镇落地。这里上了一道菜,打开糯米你可以拍照,能够自动识别这个菜,这个是餐馆里面的鱼香茄子,同时还会告诉你它是多少卡路里。我们菜品识别这一块,应该说是世界上最大规模的细粒度图像识别。
图像搜索,我想在座的很多同学可能都用过百度的图像搜索,这里面可以以图搜图,这个我们索引了超过100亿张的照片,能够快速的在100亿张照片里面找到你想要的照片。
我们现在的检索很重要的就是图片和文本的相似度,很多时候你输入的是文本去找图片,这个里面我们需要很好的去理解这个图片和文本的相似度。
IDL还在做的一个事情就是图片的图像技术,大家可能都知道ImageNet,它大概是1千类,150万张照片,这是一个非常重要的Benchmark。现在百度的类别做的比它大很多,因为百度是希望通过同样的图片识别,系统能够真正的非常有用。因此我们识别的东西,要比ImageNet里面1千类要多得多。我们目前做完的系统是可以识别4万类,这里面的训练集是7千万张照片。
我想给大家说一下,为什么这些数字有这么重要?比如说ImageNet,现在大家训练还是3天到5天,如果是全部的模式的话是5天。这个相比是40倍的区别,相当于原来如果ImageNet要训练5天的话,在我的大数据下要训练半年以上,就得200天,这个明显太慢了。百度为什么能做这个?其实也是因为我们有PaddlePaddle,还有非常大的计算集群。这也是为什么我们希望像这样的技术可以在国家工程实验室平台上开放出来,很多的科研单位,或者是很多的公司都可以来用这样一个平台。
这里面还要提一下,图像的技术里很重要的两个事情,一个是物体的检测,还有一个就是物体的分割。物体的检测就是给你一张照片,如果图像分类的话,只需要知道这里面有一条狗,但是不知道狗在哪里。如果是物体检测的话,还要知道这条狗的位置,用这个框的形式表示。百度在这个上面有非常好的技术,叫做Dense-Box,这个用到了百度非常多的产品线上,这个技术做得非常好。我们现在也在研发图片分割,我们希望能够对图片进行更好的一些理解。其实我下面还会提到一个我们现在在建的非常大的做视频分割的一个团队。
现在还有一个技术是OCR,这个应该比较容易理解。就是拍一张照片,上面如果有文字的话,我们能够把文字检测出来,还要知道这些文字是什么意思。如果是翻译的话,我们还可以直接把英文翻译成中文。百度现在的OCR应该说在国内是做得非常领先的,甚至在国际上也是做得非常领先的。我们其实几年以来都是有5个指标是世界第一。
这里面有两个Demo我们可以看一下,这是拍身份证的,比如说就这么一拍,我们下面的信息就可以直接提取出来了。我们也可以拍银行卡,这个都已经在产品里面了,现在拍银行卡的功能都已经在百度钱包里面了。
我刚才提到百度正在搭建一个非常重要的团队,就是对于视频有比较好的理解。在座的也有很多清华或者各个学校来的学生,如果大家在这个上面有兴趣的话,应该考虑到百度来,我们一起来做这个事情。
我们觉得下一步计算机视觉里面非常重要的一个事情就是视频的理解,当然视频的理解分两部分,一部分是我们叫Low Level的,我们希望这个视频知道这些是路面,这些是车,这些是树,另外是建筑物。我们希望在这个层面得到99%以上的精度,在这个领域里面大家知道这是非常难做的一个事情。
百度现在正在搭建一个非常重要的团队,就是我们希望做医疗图像的分析。比如说CT的图片,进来之后我们希望利用人工智能的方法,或者是图像识别的方法去看这个里面是不是有癌细胞,还是所有的细胞都是正常的。因此,我们认为这个应该会是AI在医疗上面一个非常重要的落地方向。
下面我简要说一下增强现实。增强现实基本上系统就是这样的,前面有各种传感器,这个传感器可能包括摄像头、GPS和MU。之后我们会做场景的理解,包括物体的检测和识别,还有摄像机自己的三维重建,还有姿态的识别。然后,我们把这些放在一起,就是做带有语义理解的三维重建。这样的话,我们可以根据用户看的角度各个方面做图像渲染,然后推送给用户。这个里面我们还可以加入交互的功能。
在这里给大家看一下我们做的一个Case,这个大家能看到,在这个明信片上,我们现在看到的这个图全部是手机的截屏,所有的程序都是在手机上实时Run的。当我们把明信片拿起来的时候,这些花落到明信片上,不管你怎么动,或者是摄像头怎么动的话,我们看到那个花就像黏在这个明信片上。这个里面需要去理解这个明信片3D的姿态,我们需要做很好的跟踪和三维重建。这些就像我刚才说的,全部是在手机上实时完成的。这是我刚才说的互动场景,在手机前面把手掌打开,有一只熊可以坐在手掌上。
刚才我们看到的都是看的能力,百度还有非常强的听的能力,这里面包括语音识别、语音合成、语义理解,还有现在非常重要的语音的唤醒。就是一个设备,你希望跟它一说话,它马上就知道是在跟它说话。这里有一个例子,这是一个韩乔生老师语音合成的,我们用他的声音合成了一段我们想说的话。
现在百度语音这一块,除了度秘,我们会提到一个非常大的应用就是智能客服和金牌销售的例子。这个图里面说了,传统的人工客服需要非常多的人,现在如果要做自动化的话,问题在于客户很多时候就不满意,核心的核心还是技术需要进步,能做到非常好才可以用。
下面我简要介绍一下度秘。度秘我们在两个礼拜之前成立了事业部,将会成为百度人工智能这一块非常重要的一个方向。我们希望搭建这么一个平台,能够让人跟机器非常流畅地,或者是非常自然地进行交流。
这个系统就是我们去年做的一站式的高考解决方案,就是你不要再去到处搜集材料了,你只要进来,告诉我你想问什么问题,我直接给你回答,我自动的在后台把这些资料都找出来,把这个提供给你,就是一站式的,去年我们还做了一个Case是全球的智能篮球解说员。
这里面也有一个例子,我们在度秘这个平台上能够把菜品推荐或者是餐馆的推荐做得更流畅,体验的话就是你不需要到处去找材料,到处去找各种各样的网页,直接打开度秘,你问它问题就行了。
这些很多的功能其实都在线下,现在度秘的功能里面已经是线上的一些功能了。这是一个智能日程管理的例子,我想提醒大家注意的是,这里面能够有很好的多轮的对话,它能够记住之前说过的一些内容。
对于人工智能来说,现在确实是一个非常热的时期,但是其实也刚刚开始。百度在人工智能的四大要素上,早上深度学习实验室揭牌的时候我也提到,我们在这四个要素上,国家工程实验室当中都有非常重要的体现。百度的四大核心能力,图像能力、语音能力、用户画像能力和自然语言处理的能力,确实百度在过去这几年都有非常好的积累。
李彦宏早上也说,人工智能是百度核心的核心,从去年年初开始,他说人工智能是百度的下一幕,一整年下来,我们现在就说人工智能确实是百度核心的核心。我特别要强调的是,百度的人工智能会是非常开放的,我们今天早上揭牌了国家工程实验室,也是一个非常重要的体现。我们的PaddlePaddle会在上面开源,我们会开放计算资源,开放大数据,还会开放其他的产品给大家,因此这个会是一个非常开放的平台。包括我们现在已经做得很好的,给大家展示的做得非常不错的人工智能的技术,你都能在ai.baidu.com上面找到。
就像我刚才说的,其实我们是刚刚开始,非常期待有这个国家工程实验室这个平台,能够跟我们的共建单位一起,后续联合更多的单位,我们一起来把人工智能做成一个非常棒的事情,谢谢大家!
收起