2016.12.22 丨 DoNews
百度云傅徐军:云计算帮助AI寻找落地场景
2016.12.22 丨 DoNews
DoNews12月13日消息(记者 翟继茹)近日,百度云副总经理傅徐军在由麦思博(msup)主办的第五届TOP100summit全球软件案例研究峰会上详细解释了百度在云计算和人工智能方面的结合战略,他表示,“云计算是帮助人工智能寻找场景的方式。”
在人工智能领域,百度被《财富》杂志评为全球四大巨头之一。而在云计算领域,外有亚马逊、微软、谷歌,内有阿里、腾讯,百度云所面临的竞争并不小。
11月30日,百度发布百度云生态“云图计划”,计划未来5年投入100亿建立百度云平台及生态系统,并提出ABC生态圈的概念(A代表AI,人工智能,B代表Big Data,C指Cloud computing,指人工智能、大数据与云计算三位一体)。
在具体实施方面,这涉及了百度内部两大部门,傅徐军告诉DoNews记者,AI和大数据是一个部门,它的负责人是百度首席科学家吴恩达,定位更像一个实验室。百度云的定位是与产业结合提供解决方案。“双方的层次不一样,AI更关注核心技术,比如,其指标是语音识别准确率,而云的目标是服务好客户。可能准确率提高了,但是有一些方面有问题,比如,客户还是不喜欢用,或者说这个东西不方便用,我们就来解决这个问题。”傅徐军解释说。
在傅徐军看来,人工智能是百度云的助力,百度云为人工智能提供好的落地,而未来云计算和大数据、人工智能的联系也将越来越紧密。(完)
以下为现场采访实录:
Q:五年投入100亿打造云生态体系,如何推进,为什么是5年周期?
傅徐军:坦白说,5年、3年或者是8年,没有特别严谨的定义。我们觉得,像国家计划都是5年为目标,我们也模仿了一下,五年目标。总之,我其实想表达的意思是:百度希望长期、持之以恒地在云计算产业不断投入。至于这100亿如何分配?在百度内部有百度的风投和基金,包括有很多政府基金愿意来加入,已经和百度有一些勾兑,还有一些第三方的投资机构。详细的计划现在还没有,但是一定会出一个非常严谨的审核原则。比如,哪些企业可以参与这个计划,这是作为一个补贴方式给出去的,因此要挑一些特别有前瞻性、有潜力的企业一起合作。
Q:百度云和人工智能到底是什么关系?
傅徐军:在百度7月份的战略发布会上,百度的董事长指出人工智能、大数据和云计算是三位一体的关系,最近,我们给“三位一体”取了一个简称“ABC”。它们是什么关系?百度首席科学家吴恩达有一个比喻:如果人工智能是一个火箭,那么大数据是燃料,云计算就是个引擎。有这个引擎,才可以把火箭升空。云计算是基础设施,我们需要一个非常稳定、可靠、高性能的基础平台。在这个平台上,大数据才可以被很好地处理。人工智能很多底层的需求,包括机器学习、深度学习,才可以在这个应用上跑得很好。
从另外一个角度说,人工智能是解决具体问题的,但是在百度这样的企业,有技术、数据、产品、计算能力和解决方案,但是它不知道如何定义问题,说得比较直白一点,360行都有自己的需求,但是你不懂那些行业,或者说百度对那些行业缺乏洞察。
云计算是帮助人工智能寻找场景的方式。当我们和这些企业沟通时,他一定会把问题告诉我,可能中间有些问题靠云计算本身不能解决,人工智能、大数据可以解决。把百度云、百度数据、百度人工智能三个技术内在的耦合,才可以提供一个很好的功能。
Q:这三个技术领域,两个大部门在百度内部怎么协调?
傅徐军:AI和大数据是一个部门,它的负责人是百度的首席科学家吴恩达,它的定位更像一个实验室,而云的定位更像和产业结合做解决方案的。双方的层次不一样,AI更关注核心技术,比如,其指标是语音识别准确率,而云的目标是服务好客户。可能准确率提高了,但是有一些方面有问题,比如,客户还是不喜欢用,或者说这个东西不好用,不方便用。所以,对云而言,可能更重要的是和产业结合,如何全方位满足客户的诉求,而AI和大数据是提供核心,能力。
Q:未来百度云与人工智能还有什么技术创新?
傅徐军:百度云的角色就是打造一个非常靠谱的基础平台,同时为大数据和人工智能提供更好的应用场景。人工智能的责任是把很多核心技术进行攻关,无人车、云识别、智能对话机器等都有很多技术难题。而这些难题,比如,度秘、和微软小冰、Siri有点像,但是一个泛场景的聊天机器人想做到完美很难的。
一个泛需求的事很难做到很好,所以可以看看如何在细分领域做创新。创新也只是一小步,你得先满足客户,真正要做的是不断挖掘客户的需求。让他真正想做什么,就做到120分,这个可能没有创新听起来那么Sexy,但是他可能是切切实实地需要做功课。在某些产品下,可能比创新更重要。
Q:百度云提出的优势有高密度存储,降低成本后如何平衡性能和承受能力?
傅徐军:百度现在是用整机柜技术最多的公司,基本上整机柜和传统的服务器不太一样,包括高密度存储,传统服务器大家都知道,有机箱、风扇、电源、硬盘、主板。整机柜就变成一个机柜里面有40台机器,每台机器就是一个抽屉,拉开来之后看见什么东西?就是一排硬盘。它是一块主板加上8-18块不等的硬盘。通过这样的方式来管理。同时电源和风扇全部外置,放到一边,机箱就直接把它丢弃掉。这样的好处是什么?比如,做一些维护特别方便。
由于风扇和电源统一管理,风扇管理得好,加大散热的效率,电源管理好可以提升用电效率。从这几方面看,又可以降低很多成本。
我们对每一块硬盘都做了状态记录。比如,硬盘有多大,什么时候买的,哪一家厂商买的,什么型号,上面跑的是在线还是离线的应用……这些记录之后,通过机器学习的方式,可以预测硬盘什么时候会坏。因为硬盘其实是一个耗材,百度有50万台服务器,可能一天就得坏很多块,不仅是百度,相信很多大型互联网公司都是同样的情况。这时如何保证寿命?需要提前做预防和数据迁移,在某种程度上也可以提高运维效率,降低成本。百度云用了很多方式保证存储,因为存储的稳定性和可用性是最重要的。
Q:百度云提出在/离线业务混部,如果离线与在线用同一套资源,如何保证这套资源充分利用,又不影响在线业务?
傅徐军:离线和在线应用了混布,当然这和存储没什么关系。一般公司会把离线放在离线的服务器上,比如,做单纯的离线计算。在线需要实时性,这个问题确实切中要害,百度确实在过去几年,在这个方面做了大量实践,踩了很多坑,犯了一些错误。但通过这种方式,确实可以把这件事情做好。但是很难用一句话概括是如何做到的,因为每一个应用不一样,搜索是搜索,地图是地图,视频是视频,外卖是外卖,它都有自己的特点,需要责公司内部存储计算虚拟化,机器需求和硬件加速的基础架构部门上层应用部门坐到一起分析。比如,这个业务是什么类型,高峰期在何时,能不能做调度。
百度内部的分布式计算每天已经有百万级任务量。后来发现还是不够,因为业务部门太多了,资源总是往多了要,永远不会往少了要。所以,每个服务器都加一个Agent,查看它的状况,知道有多少CPU是闲置的。这时如果有计算任务,就自动部署空闲资源,但也因此,这个计算任务的优先级可能会低一些。一旦人家要用了,马上把你的应用给Q掉,再给你找一块新的地。所以对这样的服务,你不能期望有太高,可能会跑得慢一点,但是也可以部分解决问题。这种方式也是一种如何尽量最大化利用空闲资源、降低成本的方式。
原文出处:http://www.donews.com/net/201612/2944568.shtm?mobile