GiveMeFive_商汤五年,从0到N的快速进击

放大字体  缩小字体 发布日期:2019-12-11  来源:来自互联网  作者:来自互联网  浏览次数:179
导读

孙文秀和团队不仅通过AI技术的不断迭代提升了深度估计的精准度,提升了细节部分的虚化质量,在速度表现上,也做到了更加极致的用户体验,实现拍完即出的效果,定义了行业潮流。 “我们做的产品是用在手机上,周…

人工智能,是近十年内智能手机产业变革一个重大机遇。

商汤科技成立五年来,深刻地影响着智能手机这个行业向AI的发展!助力和见证中国智能手机完成了从iPhone跟随者到引领全球创新领导者的蜕变。

作为竞争最激烈、创新速度要求最高的行业,三年前的智能手机中鲜有AI功能。

而如今,从刷脸解锁到人物美颜、超清晰分辨率、自然的背景虚化等每一张拍下的足可媲美专业单反相机的照片,再到相册中按照主体内容智能分类,以及AR增强现实、人脸3D重建等,这一切饱受大众喜爱的创新功能,均经“AI”之手。

商汤科技,正是国内第一家将AI算法落地于手机拍照的企业,背后是商汤的快速进击,也是商汤人思维方式的成熟和转变,和将同理心应用于AI技术落地的实践。

引领创新,要从研究思维走到工程思维

孙文秀是商汤移动智能研究总监。自2015年以来,她与团队陆续开发了双摄虚化、深度感知、实例分割、视频去噪、视频插帧等多种应用于智能手机的AI基础算法,完成超过50个项目交付。

这五年,伴随着商汤的成长和产品、技术的不断迭代,孙文秀也成功从一个学术研究者成长为一名可以用所学,去改变身边的人们生活的技术研发人员。

令她感悟最多的,是自己实现了从“研究思维”、“工程思维”到“产品思维”的切换。

作为一门新兴技术,在商汤创立初期,没有人知道人工智能该如何落地,很多人只能把大部分精力依然放在学术摸索上,期望学术成果可以直接为人所用。

回想起那段岁月,孙文秀和同事们的研究方向,正是将深度学习应用在深度感知(Depth Sensing)上,她们的研究成果成功登顶基准测试KITTI Stereo榜单第一名。

而彼时,用双摄手机拍出可比拟单反“虚化效果”的应用正初见端倪,孙文秀也敏锐地察觉到了这个机会,她和团队立刻就扑到了“AI深度感知是否能够实现更好的双摄虚化效果”这项工作中去了。

尽管有领先的研究成果,但迎接他们的却是巨大挑战——工程化。

孙文秀和团队遇到两只“拦路虎”:速度慢和泛化性能不理想,这两个实际问题在基准测试中都并未涉及过。更难的是,整个行业中够没有先例或经验可循,只能将之前所做的工作翻出来对自己进行灵魂拷问,层层剖析找出问题关键点。

经历半年多的摸索,团队终于打破了这两个难点:通过自主研究的域迁移方式解决了泛化性能问题,并采取网络压缩的方式压缩了近100倍从而提升拍照时的响应速度。

背景虚化

如果将在深度感知的研究看做是从0到1的过程,用算法创新解决了技术能否实现的问题,那么扫除工程化中的各种拦路虎做的就是从1到N,所解决的正是能否被实际应用的问题。

孙文秀认为,这次破冰,让团队实现了从研究思维到工程思维的转变,意义重大。

如今,双摄虚化已成为很多智能手机拍照的基础功能,但背后的演进从未停止。

孙文秀和团队不仅通过AI技术的不断迭代提升了深度估计的精准度,提升了细节部分的虚化质量,在速度表现上,也做到了更加极致的用户体验,实现拍完即出的效果,定义了行业潮流。

做好产品,要有工匠精神和同理心

让研究成果顺利变成大众可以体验得到的好产品,除了工程思维,还有产品思维。

对产品思维的理解,孙文秀认为就是:工匠精神和同理心。

“客户会根据从市场和终端用户那里得到的反馈及需求与我们分享,对于当时的商汤团队来说,有些‘点’真的是无法理解的,与做研究时的思路完全不同”,孙文秀讲述了最开始与客户“亲密接触”的感受。

商汤会接到客户反馈,比如图片在某个场景下表现并不好,如果从研究员既有的思维来看,每个算法都不可能100%完美,这非常正常。

但如果站在客户的角度去思考这个问题,或站在一个真实用户角度来看,每个细小的瑕疵都是巨大的问题,必须用最短时间去完美解决。

“我们做的产品是用在手机上,周围的朋友、亲戚也会用到带有这款产品的手机,所以我们有更大的责任去给他们带来更好的使用体验”,这是五年后的孙文秀做技术研发的日常心态。

“追求完美”的诉求,也让商汤团队和产品都变得越来越强大。从一开始去满足客户的需求和反馈,到后来孙文秀和团队与客户主动研究“我们还应给用户带来怎样的体验?”

比如:用户在拍摄大光圈照片时,对于照片中的人物会特别关注,基于此,算法会分割出场景中的人物Mask,并对人像进行更加细致的处理,让拍照更懂人。这显然是从用户体验角度出发才能发现并解决的问题。

后聚焦

近两年,智能手机展现出惊人的创新速度和创新成果,尤其是影像功能成为很多手机的当家卖点,其很大程度上都源于AI技术的快速演进。

商汤移动智能团队,也完成了从各种基础技术的工程化落地和产品打磨,同时再度发掘新应用场景,反推技术创新的闭环构建,形成了“研究思维-工程思维-产品思维”的紧密连接,将AI人像光照、AI人像留色、AI美颜、AI美体塑形、AI超分辨率等创新影像体验不断带给大众用户。

如果说从无到有体现的是一个人的创新能力,那么从有到好,不断地进行打磨,所体现的就是一种工匠精神。这种精神不仅会带来产品体验上的巨大差异,也会让整个品牌不断地创立起来。

这也是孙文秀和团队,以及整个商汤所坚持的一个信念。

发论文从来不是商汤人的KPI

孙文秀主导和参与发表的顶会论文多达18篇,在底层视觉感知上成绩累累。这些论文大部分都是她和团队从产品开发中抽象出的研究课题。

关注学术研究,可以保持对前沿技术最新的认知,同时结合工业界的实际情况,在合适的时间将学术研究落地;同样地,工业界也有很多在实际应用中发现的未解题可以拿到学术界去研究。

这背后的逻辑正是在商汤这五年,孙文秀依然保持在CVPR、ICCV等国际顶会上高产论文的原因。

孙文秀在NeurIPS 2019大会上

在刚刚过去的ICCV 2019上,孙文秀亦有两篇论文被大会接收,并带领团队斩获ICCV AIM2019 Video Temporal Super-Resolution Challenge比赛冠军。除此之外,还有一篇论文被NeurIPS 2019大会接收。

“发论文并不是商汤团队的主要工作,更不是KPI,只有到了产品落地才算数,大家都是利用业余时间写论文”,孙文秀介绍说:“论文和产品落地即相关又有差别,论文是把做得最好的案例拿出来比较,看的是创新;而产品落地是拿最差的案例来比较,看的是鲁棒性。鲁棒性能做好需要很强的创新来支撑,所以,两者是相辅相成的关系。”

产品落地,早已不仅仅是算法的事情,而是要通过硬件、操作系统等载体,将完整的体验输出给用户。正因如此,除了基础技术的创新,这五年,商汤还在软硬结合上做出了巨大的努力和突破。

从最初用AI技术去弥补硬件上的不足,如“双摄虚化”和“2D上的人脸解锁”产品,到后来用硬件推动AI的创新,如手机上配置深度摄像头所带来的3D人脸解锁、3D人脸重建、AR测量和体感游戏创新应用等。

3D人脸重建

而未来,伴随AI技术的持续发展以及智能手机硬件的升级,AI和硬件发展也将实现更多的联合创新。

孙文秀也希望能够通过更好的技术打磨,建立一个完整的智能手机AI创新软硬结合生态体系,帮助商汤与更多的上下游伙伴合作,一起去打造具备更出色用户体验的手机应用产品。

光阴似苒,物转星移。

五年来,商汤始终致力于推动AI技术在终端设备上的发展并引领行业创新。

截止目前,已有超过5亿台手机采用商汤科技多种成熟的AI产品,包括:3D人脸识别、人脸3D重建及微整形、人脸解锁、AI智慧双摄、超级分辨率、3D人体实时追踪、3D虚化、AI人像光效、Sensemoji、瘦身美体、SLAM、AR相机、AR导航、AR测量等,并在OPPO、vivo、小米、华为、魅族、OnePlus等手机产品中纷纷落地。

也正是以孙文秀为代表的商汤人所具备的坚韧、积极和匠心精神,让商汤科技始终能够对市场需求做到快速响应,为竞争最激烈、变化最快速的智能手机行业长久注入创新力。让商汤深厚的原创技术积累和经验,也快速复制到更多行业和领域中。

 
 
免责声明
• 
本文为会员免费发布,仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们删除处理。