2017CJ|微软中国闫伟:微软和未来智能
手机游戏网讯,2017ChinaJoy将于7月27日至30日在上海新国际博览中心隆重举行,其同期会议——国际智能娱乐硬件展览会及会议(eSMART)也于7月27日在上海举行。此次大会以“同行十五载,共享泛娱乐”为主题,邀请并吸引了众多业内人士前来参与。会上,微软(中国)有限公司开发体验与平台合作事业部开发技术顾问闫伟先生发表了主题演讲。 2017ChinaJoy专题报道>>> 微软 ▍以下为演讲实录 闫伟:这个有点匆忙,本来跟我说,我跟TCL的朋友换了一下,他是要赶飞机,突然说让我上来,还是有点匆忙,我先介绍一下自己,我是闫伟。我现在是微软中国开发体验与合作平台事业部的一名技术顾问,但由于微软的重组,所以我现在新身份是微软大中华区创新技术合作事业部云技术开发顾问。今天的演讲内容跟我的身份没有什么关系,我今天带来的演讲主要是想跟各位交流一下微软和未来智能的话题,也是介绍一下微软在人工智能方面有哪些服务,或者有什么工具可以提供给大家。 今天大家都是游戏玩家,或者是游戏的开发者,其实人工智能这个话题,是非常火的,现在基本每个人都在谈这个话题,AI、人工智能,而且其实人工智能在应用的领域也非常的广,比如说在游戏里面,可以利用人工智能进行一些语音方面的语义方面,或者计算机视觉方面的应用。在其他的一些行业,比如一些教育行业,或者一些交通行业,其实我们都可以用这个人工智能,或者是用一些未来智能的方法,增加更强大的一些功能。其实,人工智能很火,而且现在各大巨头也都在部署这样的一个人工智能的布局。比如微软、谷歌、苹果、facebook,以及国内的阿里、百度、腾讯等等,都有自己的AI的研究院,或者研究团队,以及自己的AI平台。但是呢,从我们个比较高的角度来看,其实每个公司他自己的这样一些对AI的定位,是不一样的,我在这个上面写的是微软对于AI,对于AI这个技术,对于AI这个工具,是如何认识的。 我们认为,AI其实是一个工具,帮助人类更好的完成工作,目的不是打败和消灭人类,统治地球。我们更希望是他是作为一个小助手,帮助我们更好的了解这个世界,更好的体验生活,更好的工作。这个就是微软AI对自己的定位,希望能够最大化的增强人类的智能,帮助人类。其实,谈到这个微软在AI的投入,我们可以拿这个小工具和功能,看一下微软在AI方面的投入,Translator,当年比尔盖茨创立AI研究院的时候是希望让机器感知这个世界,让计算机会看会听会说,并且能够理解这个世界,理解人类的语言,其实,这个Translator也是作为我们消除国际交流之间的障碍的工具,而且微软在这个方面也花了很大的一个力气。比如说在2014年,我们通过不断的把一些理论的成果,把一些学术的论文完善AI技术,完善Translator的功能,我们在14年,在一个大会上正式做了一个DEMO,不像我们现在的大会上简单的展示一个翻译的功能,而是就是放在这个大会里面,进行一个实时的翻译的功能。这样的话,其实就更好的能够全面的展示微软在Translator方面的能力。而微软并不满足于只做一个DEMO,我们更希望把这个技术开放出来,把这个技术做成一个产品,让更多人使用。所以2015年微软把Translator和Skype结合了。说到这里,大家会觉得跟我没什么关系,因为这是微软自己的DEMO是你自己开发的应用程序,跟我有什么关系呢,其他人如何用呢,其他的开发者怎么使用呢,所以2016年,微软把Translator开放成一个API这样大家在自己的开发应用里面使用Translator,把你的翻译的能力集成到你自己的应用里面。但是刚才其实我们只是用这个Translator作为一个例子,简单的给各位介绍一下微软在AI领域的投入。 我们看看除了在语义理解或者翻译方面,微软毕竟已经创建了一个研究院,而且这个研究院其实在好几个地方都会有这样的基地,比如亚洲的北京,有一个亚洲研究院,除了翻译方面,其实人工智能还涉及到会看,就是需要理解这个世界,识别一个图片,了解图片里面的内容,图片里面包含什么信息。在微软方面,微软有什么突破呢,我们可以看一下研究历史,包括我们刚开始的模式识别,到后面的计算机视觉,或者说机器学习,乃至现在比较火的深度学习,其实很多方面,都是在研究Vision,这六十都年,我们在视觉方面一直在寻求突破,到了深度学习的时候,我们是真正做到了这样一个突破,比如说2015年的这个视觉方面的定级比赛,各个团体和研究机构都在这样的一个比赛上寻求一个最好的成绩,微软以152层的深度学习网络结构,获得了这样一个比赛的冠军。而且是首先突破了100层的深度学习网络的架构的搭建。当然了,现在这个深度已经不是一个非常棘手的问题了,现在好多的研究,研究人工智能和计算机视觉的公司,其实都是很轻易的就可以突破一百层,达到一千层的级别。这个其实更能看出微软在这个方面做的一些贡献。除此之外,在语音方面,也就是在Switchboard,在比较嘈杂的环境中,人类要理解和阅读都非常困难,更何况一个机器呢,人冷在Switchboard的识别错误率是5.9%,微软成功的突破了这样一个人类的极限,成功的达到了5.8的准确率。 所以说,前面介绍的这几个例子,都是说微软具有一个非常好的研究背景,这些可能我们觉得很牛,但是跟我们有什么关系,跟我们开发者,跟我们用户有什么关系呢? 我们看下一页,这几个APP或者这几个应用,不知道大家有没有了解过,或者有没有知道的,或者使用过的。这里面比较火的,我个人感觉比较火的,比如这个Howold,这是是别人的年龄、性别的,这是受到用户欢迎的,大家感觉这个很有趣。还有一个是Captionbot,你上传一个图片,他会用一个自然语言的方式描述这个图片是什么内容,这些APP其实只是集成了AI的一个功能点,就可以造成一个比较好的效果,如果我们把更多的这样的点集成进去,是不是能够获得更好的功能效果呢,尤其是在游戏里面,我们需要利用到这种计算机视觉的,需要理解语音,并且希望能够通过语音和玩家进行一个更自然的沟通,同时,我需要理解玩家的语义,这样就可以更好的执行玩家的命令。大家可能会问,我如果只集成一个功能的话,会不会很烦,或者实现起来会比较麻烦?其实也不是这样的,比如说我们拿这个Howold来说,他就是识别年龄和性别的功能,其是不到十行代码,具体来说,我记得是八行代码就可以实现这个核心功能,就是简单的调用了API,就可以完成这样一个功能,不需要你自己了解计算机视觉是什么,不需要你自己训练一个模型,只需要调动一拥API,就可以完成这个功能,非常的方便和简单。这句话就真正的说出来微软究竟想在AI方面做什么,就是我们希望能够让AI技术惠及所有的开发者和用户,所以我们会依托于微软的云平台,推出一系列的跟AI相关的服务,从各个层次,或者各个角度,帮助开发者,给开发者提供一个工具,让他们实现这样的一些AI的能力。比如从这个PPT里面可以看到,我们现在微软Azure提供的跟人工智能相关的服务,我们可以简单的分为三类,比如说我们针对开发者,这些开发者可能不会过多的关注什么是AI,AI的具体的原理是什么,他们更多的是灌注到自己的一些公司业务逻辑,或者自己应用的逻辑,或者游戏中的某一个功能,他们非常在行这个,但是对AI并不了解,他们只知道利用计算机视觉识别图片,但是如何做,他们不知道。这时候其实微软就提供了这样一套服务,就是提供一整套的API,并且在里面分为五个大类,包括视觉、语音、语言、知识、搜索,五大类29个小类的API,帮助开发者和用户更好的使用,去集成AI的一些功能。最后一个是微软的小娜,这个已经开放出来,给其他的开发者使用,你可以把你的应用和微软小娜的服务集成。这是针对开发者的,这是都是微软提供出来的API或者SDK,他的功能和灵活性是比较有限的,如果你想要更灵活一点的,一些数据分析的,我们针对数据分析家提供了这个,你做一些机器学习的工作,比如搭建一些模型,训练一些模型,并且把这个模型发布出来,都可以用这个实现。中间的这个,我们经常听过的分布式相关的,都可以在这个HDInsight里面使用。还有是数据的分析,我们可以使用这个流分析的工具,使用这样一个功能实现。中间的这层,更多是针对这种有机器学习的需求,并且具有一定数据处理和数据科学家的能力,在最上面是针对那些我做深度学习的研究者,这个灵活性是最高的,但是对使用者或者开发者,其实要求也是最高的。适度学习呢,我们经常会听到,就是通过一些深度神经网络,搭建一些模型,微软Azure上提供了什么,微软提供了什么,第一,深度学习要搭建模型,你得有一个工具包,微软开发了一个工具包,以前是叫CNTK,他跟其他的常见的深度学习的工具包都是一样的,都是开源的,是供大家使用的,方便研究者更快速的搭建这样一个模型。而且,你要做深度学习,必然要有硬件的支持。比如GPU、PGA等等这样的硬件支持,我们也可以在VM里面找到,并且更加方便的是及当你创建这样一个DSVM的时候,其实他里面会把你所有的这些需要用到的开发环境都集成进去,这样的话你就不需要,或者不用更多的关注你的这个环境的搭建问题了。 (编辑:二游网_173173游戏网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |