贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

这是2017年以来,继张潼、俞栋之后,又一位加入腾讯的重量级人工智能领域顶级专家。

贾佳亚2004年9月加入香港中文大学(CUHK )计算机科学工程系,2010年升职为副教授,2015年成为教授。贾佳亚教授在大学任职期间发表过逾百篇顶级会议和刊物论文,是前期和中期计算机视觉最著名的专家之一。其中,他和学生发表的Image Smoothing via L0 Gradient Minimization 是 SIGGRAPH Asia 2011 引用最高的论文。他担任计算机视觉和机器学习顶级刊物IEEE Transactions of Pattern Analysis and Machine Intelligence (TPAMI)和International Journal on Computer Vision (IJCV) 的编辑。贾佳亚教授还多次担任国际计算机视觉大会(ICCV)、IEEE国际计算机视觉与模式识别会议(CVPR)的领域主席,以及国际计算影像会议(ICCP) 2013-2017和计算机图形和交互顶级会议(SIGGRAPH)的论文委员会成员。

贾教授在图像分析和处理上相当多的一批技术是独有的或者性能超群,其代表工作包括图像去模糊,滤波,图像稀疏处理,多频段图像信号的融合以及增强,大范围运动估计,基于纹理和结构的分层,语义分割。这些成果都发表在业界最有影响力的会议和刊物上,并在现实中进行了技术实现。它们在已搭建的系统中展现了突出的效能。而且它们绝大部分进行了开源,从而可以被广泛的应用于航空,医疗图像,安全管理,机器人设计,气象分析等领域。其中,图像滤波和逆向视觉问题解法被许多高校教科书、课件和开源视觉代码库(包括OpenCV)收录,同时也在视觉商业系统中得到广泛应用。现阶段,其实验室在语义分割、自然语言和视觉联合系统、人像深度处理和几何深度理解等领域均取得重要成果。

贾佳亚教授表示:“我很荣幸能够加入腾讯优图实验室。经过近几年发展,优图实验室在人工智能多个领域积累了领先的技术实力和解决方案。特别是在人脸识别领域,优图实验室已多次在MegaFace 、LFW等国际人工智能的权威比赛中刷新世界纪录。视觉识别是人工智能的核心和重要入口,而人工智能的研究必须建立在海量数据基础之上,通过大数据训练来优化算法模型。加入优图实验室之后,我期待能够依托于腾讯社交网络大平台产生的海量数据进行研究。我相信新的机会将随之而来,也希望能不断拓展新的应用场景,让人工智能在现实中对大众产生意义。”

贾佳亚对新智元表示,与腾讯优图的结合,几乎是一拍即合,自己会全职加入腾讯。而之所以会选择进入工业界,是因为“ 到了一定年龄阶段,会希望追求些不一样的东西。” 在腾讯,他希望让技术能够促进社会进步,产生更大的影响。

他认为:“很多时候我们的研究思维方式非常靠近应用,所以我的角色转变其实不大。当然做好一个产品会有很大一部分用户和市场因素,但是因为在腾讯有大量开发人员,市场和产品经理去把控用户体验,所以对我而言,最大的挑战更多的是进入公司后,去理解公司文化,建立一支适合这个企业的研发队伍”。

许多人都不知道,贾佳亚与中国AI领域的“黄埔军校”微软研究院也颇有渊源。博士4年,他有3年的时间都是在位于北京的微软研究院度过的。在那儿,他遇到了对他的人生产生重大影响的导师——沈向洋,不仅在知识和技术上得到了最高水平的训练和锤炼,同时,也学到了做研究的专业态度。他当时与孙剑等计算机视觉领域的顶级学者同时在微软共事,做了许多非常前沿的计算机视觉研究。可以说,在微软的三年,奠定了贾佳亚后来成为计算机领域宗师级教授的坚实基础。他在采访中详细地回忆了自己的这一段经历。

贾教授在采访中向新智元介绍了去年在 ImageNet 竞赛场景分类项目中夺冠的技术——“基于上下文语义信息的金字塔场景解析框架PSPNet”,以及传统图像处理皇冠上的明珠:图像去模糊技术。

为什么选择加入腾讯优图:贾佳亚谈在腾讯的梦想

【贾佳亚】选择加入腾讯优图,也是因为我做计算机视觉的研究开发已超过15年了,在图像视频领域留下了许多成果,所以其实工业界一直与我有很紧密联系。比如现在学校里很多的视觉研究项目都是业界主动提供给我们,希望我们找到方法,我们也创造了很多在工业界实用的技术。我在香港中文大学的研究组就是以创造新的方法为主要目标的。这是我要加入企业的一个原因。另外,这两年很多公司寻求AI的前沿技术,在这个需求之上,我们也想把多年培养出来的创造性技术,解决新问题的能力发挥到工业中,转化为生产力。优图与我的研究方向非常吻合,所以,我与腾讯优图几乎是一拍即合。因为他们基于多年的积累,在图像、视频上产生了非常大的优势。而且基于腾讯的平台,优图已经走出自己的商业路线,有很多不错的产品和技术转化。腾讯拥有庞大的平台和客户群体,并且提供了几乎所有可以想象的应用场景。记得有人说过,把腾讯拿掉之后,中国就剩不了多少IT了,所以腾讯是非常强大的。因此,我决定全职加入腾讯优图。我的base主要在深圳和香港,也经常会去上海和北京。我十分欢迎在深圳和香港等地的科研人员能够加入我们。

【贾佳亚】当然。比如优图实验室的图像识别,人脸识别等技术一直处于国际领先的地位,并且已经实现了鉴黄、寻亲、金融等多个领域的产品落地。团队依托以社交为核心的丰富应用场景,海量的大数据和强大的云计算能力,能够在技术的研发上有更多的发展空间。 

【贾佳亚】腾讯优图和我是有非常好的优势互补效应的。优图很强的技术主要包括人脸识别、 图像分类、鉴黄、OCR等。音频上也有音乐分类、哼唱检索等。优图在这些方向上能做到产品在各个移动和云平台落地。而我之前和最近的研究侧重于自然图像视频的各种智能产生,理解,和增强新技术,比如图像去模糊、图像增强、语义分割,物体检测识别等。我希望能把第一线研究创新的基因在腾讯平台上强化和扩大。我的目标是在团队里提供给尖端视觉科学家和一流研究人员所需的研发环境。我希望这些技术能够产生论文,专利,能够让更多人知道我们创造的技术。我今后会侧重将新技术与工程人员、商业人员的配合,将自研 AI 技术系统化,放到产品里面,让用户看到这些产品,增强用户体验,丰富生活。

【贾佳亚】不会直接采用,因为涉及专利问题。我的目标是建立一个新的团队,研发新的技术,对应公司内外的需求。比如,我们最近研发了人的整体分割,在CVPR等也有发表的论文,能够自动把一个人的分割出来。这些新技术会被整合到各种平台上去。我们甚至会提供SDK,开放代码。我希望系统化地去建立视觉系统,就像一个拼图,每一个形状都不一样,希望把这些组件拼起来,拼成一个大的图像。我希望在公司内部建立系统化工程,把新技术开放出来。比如我几次在国际各大会议上给大家介绍的一种信号滤波技术(rolling guidance filter),就是一张图像很快处理一下就能直接去除把上面的一些小的纹理或其他不想要的小结构。这个技术不需要深度学习,一行代码就给出非常酷的结果,而且非常快。实际上我们有许多很有趣的新技术和想法,我会花精力在公司内部把这些新技术都整合起来。

【新智元】加入腾讯后的梦想是什么?

从计算机视觉的三大特点谈角色转换:如鱼得水

【贾佳亚】这是一个非常好的问题。我觉得很多人,包括媒体、工业界、学术界,都会认为从学术研究走到企业是一个很大的转变,这是一个非常有意思的论点。其实,我不是这么认为的。我做的方向叫计算机视觉,虽然在AI时代大家都叫AI,但我们一直就是研究计算机视觉。与其他人工智能方向相比,计算机视觉在AI发展过程中有很多的特点,我想总结一下,以此说明为什么很多时候从学术界到工业界的角色转换并不是一个难题。

举另外一个例子,最近很多手机从一个摄像头变成两个摄像头了,这就可以产生更多的应用。两个摄像头可以实现背景拉近拉远,可以去改变前景和背景结构得到有趣的效果。因为硬件进步出现了这样新的成像装置,计算机视觉就可以被推动,然后科学家研究新的问题,并在过程中产生新的方法。最后研究结果再反馈回整个业界提高成像效果。这是一种有效的正向反馈。这种正反馈极大地推动了整个计算机视觉领域和其它AI的发展,也是AI现在能迅速前进的内在推动力。

第三个特点,计算机视觉既是一种表达方式,又能产生其他很多功能。这种多样性、可变性,扩展性是令人着迷的。首先它是一种表达方式,比如电影就是这样一种媒介。它可以表达的东西太多。我们甚至观看默片就能知道故事,了解人物表演。视觉是感官里一种非常重要的接收方式。当视觉的AI能力发展之后,它又被赋予了更强大的功能。它可以作为一种工具实现对一个事件的抽象或者提取。比如,交通事故可以通过计算机视觉去自动检测,自动驾驶也需要计算机视觉理解车的周围环境,来实现后一步的判断。因此,计算机视觉除了是一种表达方式之外,在内容上可以产生判别、理解或者抽象提取的能力。

基于计算机视觉的3个特点,我们组里很多的研究成果加上一定的工程化之后,在工业界的各个的领域几乎都可以直接应用。比如,我们之前做过非常快速的图像放大。一张图像分辨率很小的时候,在网络上传输速度很快,然后到了本地端用户又能够迅速将其放大,在手机上看到足够多的细节。

最后我想总结一下,因为很多时候我们的研究思维方式非常靠近应用,所以我的角色转变其实不大。当然做好一个产品会很大一部分取决于用户和市场因素,但是因为在腾讯有大量开发人员,市场和产品经理去把控用户体验,所以对我而言,最大的挑战更多的是进入公司后,去理解公司文化,建立一支适合这个企业的研发队伍。

【新智元】现在很多人从学术界来到了企业界,特别是AI火了以后,就出现了大量的顶级人才加入创业公司和大公司的情况,您怎么看?

另外,大量的学术大师进入企业界也是好事情。在10年前或者15年前,大部分企业对学术发展现状并不了解,现在AI时代使新技术变成推动生产力或者产品发展的核心内容。但是,我认为任何专家去企业界一定要合理匹配。举个例子,有的科学家一直做理论推导,这在研究领域是很重要的,但是如果公司希望他们的加入直接推动产品应用发展,这就可能产生不适应。一个科学家开始从事以前没做过的事情,这样去公司一定非常艰难。再比如,很多学术人员是做中长期的研究需要3到5年时间。但是,可能在这几年时间内,一个估值1000万的企业都已经变成10亿或者是100亿了,这也是时间上的不匹配。我觉得大家如果在匹配这方面做好功课,企业肯定是能够适应的。

【贾佳亚】不仅仅是腾讯,全球各大企业都在进行非常大的投入。 对于高科技人才的引进也十分重视,这说明绝大部分企业都看准这一时机扩张,在AI的投入也是有理由的。这我就不多讲了,主要是基于大量科学家的正反馈和公司应用层面上的投入产出的比较,再综合技术层面和经济层面的分析。接下来几年,AI不仅可以产生新的效果,新的应用,也使得流程被自动化,减少公司的支出。如果现在不投入,任何一个企业以后很有可能会受制于人。

计算机视觉大师养成记:微软那三年及影响一生的导师沈向洋

【贾佳亚】你说得很好。不是不热门,当时计算机视觉是一个非常冷的行业,几乎没有人知道计算机视觉是干什么的。我本科在复旦,2000年通过国家教育部计划来到香港。选专业的时候也没想太多,当时最热门的专业我记得是网络和数据库。我之所以会选择视觉,其实原因很简单,就是喜欢看到直观结果。数据库类的研究结果是图表或者曲线表示的。这对我而言,不直接,看完这样的结果我不觉得有趣。

我后来四年就博士毕业,其中三年都在微软,就是现在在北京的微软亚洲研究院。在很长一段时间,微软亚洲研究院基本上就是一个做研究的圣地。当时我跟着Harry(沈向洋博士),他是我在微软的直接导师,后来也是我博士论文答辩委员会成员。当时也和孙剑博士一起探讨问题,出了一系列论文。

【新智元】当时没有想过留在微软吗?

【新智元】在您个人的学术生涯里面有没有一个印象深刻的人,或者是对你影响比较大的?

我觉得在当时的情况下,做一篇论文,不会比做产品轻松。我们在最后几天,一天可能只睡5个小时。每天几乎时时刻刻都在写code、跑code,然后再测试各种环境,一天4,5顿饭,因为有夜宵。如果有些同学感冒了,休息几天,这个项目可能就坚持不下去了。当年这种打硬仗的作风确实很了不起,出了很多令人惊叹的成果。我记得当时沈向洋博士跟我们一起做项目。他作为一个主管,很忙,但是坚持和我们探讨项目改论文,经常跟我们一起忙到晚上很晚才回家。第二天早上起来,就和跟我们继续讨论。当时我作为一个学生,看到导师做事态度极其认真,受了很大触动,知道了就叫做专业。所以后来我到了港中大以后,我就秉承了这个习惯——做事情态度要认真。2007年,我做大手术住进了医院。第三天我就开始帮我学生改论文,因为当时离CVPR截稿日期很近了。我觉得能有今天学术上的积累,首先就是依靠自身的能力想问题,做研究,和解决困难。第二个是态度。其实不管是做学问也好,做产品也好,这第二点都很重要。

【新智元】您在港中大也培养了很多优秀的人才,这其中有没有你觉得特别让你印象深刻的学生?

看到这封信我非常惊讶。真的,我觉得有的时候培养一个学生不仅仅是论文。最重要的是培养他们对问题的理解、对问题的看法,能够独立解决问题的能力。当他们学会这几点,在任何时候他们都能给你一些惊喜。Wayne能够在十年之后和团队合作做出这么一篇高质量的文章,让我觉得这么多年做教授真值了:这十多年在港中文大学做教授真正的回报其实不在自己,而是我的学生能够有什么成就。

还有最后一个有趣的事。介绍一下我的另一个学生,卢策吾博士,他现在是上海交通大学的教授,此前也曾在斯坦福大学李飞飞组进行过访问。为什么说有趣呢?我常跟人说我还在中文大学做副教授的时候,他毕业了,然后就得到了交大教授的头衔。他也是我引以为豪的学生,是我教育付出的回报。

【新智元】您的学生很多去了学术界也有工业界,还有一些去了基金银行,你怎么看待这些方向?

【新智元】我们谈一下计算机视觉的顶级会议,就像刚才您说的Siggraph还有CVPR。您在上面都非常活跃,您觉得这些会议对产业的影响大吗?

ImageNet夺冠技术详解:基于上下文语义信息的金字塔场景解析框架PSPNet

【贾佳亚】Scene Parsing中文解释为场景解析,也称为语义分割。这个任务的目标是对于图像中的每个像素都需要预测出其所对应的类别,比如天空、道路、汽车和人等。对于复杂的场景,这种像素级别的预测任务是非常具有挑战性的,同时,这么透彻的场景理解具有非常广泛的应用,比如自动驾驶、机器人感知等领域。

为了促进领域的发展,我们在github上公布了我们的代码和模型。我们的方法获得了极大的关注,后面有很多的研究工作采用了我们的方法来帮助改进其他任务,比如实例级别的语义分割。


https://github.com/hszhao/PSPNet
【新智元】您是“图像去模糊技术”的先锋,也是领军人物,毫无疑问在这项技术上拥有很大的发言权。有人说,这是计算机视觉领域的最根本问题。能否具体介绍一下,这一技术的具体实现过程是怎么样的?这一技术对计算机视觉的贡献在于什么地方?具体可应用在哪些方面?

【新智元】最后, 除了深度学习,还有哪些技术对于计算机视觉来说是比较关键的?您个人认为计算机视觉接下来的研究重点会集中在哪一块?比较容易突破的地方在哪?

接下来研究方向很多 :生成模型,迁移学习,无监督学习,少样本甚至无样本学习都是方向。以后我会出文来详述这块内容。在计算机视觉上,还是有两种方向。1. 效果(提取,融合,改变色调);2. 判别。这两者会相互促进。我们将会在企业平台上验证我们的技术。这应该是这个AI时代新的一种研究方式。 【End】

本文转载自微信公众号“新智元”(ID:AI_era),作者 胡祥杰、随一;

йҽѧѧԺѪо