全文共5924字,预计学习时长17分钟
全文共5924字,预计学习时长17分钟
科技青年们,都在想些什么?
科技是第一生产力;青年是时代发展的晴雨表,也是引风气之先的社会力量;科技青年,从行业精英中来,到优秀学者中去。三人行必有我师焉,高校辈有人才出,带你上车,体味大神们寻常人生中的酸甜苦辣,获得满满干货和人生箴言。
天下学者一家亲,到哪都可称师哥,今天听谁唠唠嗑?
本期我们采访到了来自清华大学计算机系的柴成亮博士。
图源:个人提供
曲线救国?人机合作拯救地球?
“我叫柴成亮,本科毕业于哈尔滨工业大学,目前就读清华大学,博士五年级。目前研究方向是人机协作,比如说如何利用人机协作高效的获取数据,收集数据。” 柴成亮的研究方向,通俗来说就是人机合作收集数据。
“人的行为其实是比较不确定的,和计算机有一些区别,这就形成了研究的难点也是兴趣点,你需要真实的去和人打交道,你收回来数据各式各样,有时候里面会存在一些比较奇怪的规律,这个还挺有意思。” 针对目前研究方向现状与成果,柴成亮表示有话要说: “每一个方向,它的研究曲线都是一个抛物线,就是说,可能跨度比如10年,可能这个高度就代表是不是热。
那么你如果在前半段进去,这个领域是很好的,你会赶上你在这个领域正好热的时候。 比如大家常说三四年,然后中间可能是这五年,这前面的工作都是比较有开创性,那么引用也会被后面的工作引用,引用率也很高。而越到后面,研究的差不多了,就会呈现低迷趋势。一个东西总会研究完,不管是什么,就算是现在超火的人工智能遵循这样一个研究曲线的,只不过可能跨度会长一些。 那么,我所在的小领域,有关于它的研究,其实在我进去的时候就已经大概在峰值稍微往前一点了。
往后展望,可能现在5年过去了,它可能慢慢往后,退居二线。所以说,那么我们就需要转换一些思路,比如,刚刚我提及的是人处理数据让这个数据变得更好。但我们并没有考虑对后续数据的操作,比如说机器学习的模型,能对它有什么影响,我觉得可以研究一下这方面的东西。“ 这其实也是对刚开始读博士研究生的小伙伴们的一些建议,你要找一个方向,它处于峰值的前面,如果那个方向你进去时,它已经处于峰值后面,那其实已经没什么意思了。
现在很多项目都是比较有前景的,但你需要转变一些思路,要研究一些和真实应用紧密相连,比如说,数据收集这一块,已经有前人帮你做好了事情,帮你收集、标注好了数据。
那么现在你将这些收集好标注好的数据,拿去做真正的事情,如分析挖掘、机器学习等方面,这才是真正意义上的有意义的研究。 如果说之前研究的是前半部分,后半部分可能是其它领域的人去研究。现在我们要做的就是把这三者串起来,应该怎么做才会直接影响到后面的应用,这个是重点。
针对研究领域问题,小芯紧追不舍,对柴成亮又劈里啪啦甩出一堆问题:
Q:我们现在有很多机器学习的模型,都需要大量的标注数据。 这是为什么呢?
第一点,人都是会犯错误的,数据不会说谎。人给你提供的标签有可能是错的,但只有用干净的数据,才能训练出好的模型,所以说如何让收集的数据更干净是当前的NO.1。
第二点,数据收集是有成本的。比如说你想收集1000条数据的话,假如说一条数据,你让人去标一下,那么你会给人付比如说付一块钱,那么你收集1000条数据是否就需要1000块钱? 所以说有没有可能收集一部分,你就能推理出来更多的东西。如何节省和收集数据的成本是目前最关键的问题。
第三点,效率,人类回答问题,存在一个思考过程,通常比计算机慢,如何在这个基础上提高效率呢?比如说这里有1000条数据让人去标,一条一条肯定是比较慢的。但是如果说别人标了一条再给你,你标第二条,然后循环1000次,那么就可以实现1000条一起让好多人去标,效率就大大提高了。
Q:你当初为什么会选择人机协作研究方向,这个项目在现实中有哪些意义、作用呢?
比如说,像百度公司这类公司,肯定有大量数据要标对吧?每个公司都有很多数据需要大批量处理。简单繁琐需要重复的工作,总想让别人去帮我做一下。 所以,它的意义还是很大的。包括像在斯坦福,图片标注影响力很大的东西,它之前也是靠人力标注的,花费的时间和精力巨大。但现在人机协作工程队就可以帮你去减轻这些时间等成本,这种简单重复性的工作可以通过机器帮助进行操作,对,就是人和机器把你手头大量个人应付不了的工作分给成千上万个别的人去做。听起来是不是松了口气?“
Q:你觉得目前研究方向已经取得的成果主要体现在哪些方面?可以举点具体的案例吗?
“学术上的话主要有一个任务,做实体匹配。举个例子,就是说两个东西指的是不是一个东西,比如说一个手机叫iPhone11,另一个叫Phone eleven,iPhone10,字母或数字换了,然后来判断这两个东西是不是一个东西。 这对人来说其实很简单,你看一眼就知道是怎么回事。但对机器而言却比较难。 这个任务就很适合用我们这个场景来做。利用我们的算法,大概可以节省100倍的开销,就可以达到相同的效果。 通俗一点,就是说我们有一些自动推理在里面,假设说可能你现在有10000条数据要标,别人花1万块钱,我花100块钱就能完成这件事。大概是这样。我觉得这个成果可以让他们减轻一些成本,又能实现同样的效果,一举两得,何乐而不为。“
Q:你在整个科研的过程中有没有遇到过一些挫折?然后你是怎么去克服挫折去打赢这场战役?
“依稀记得,之前有个项目差不多做完了,然后有一天跟师兄讨论的时候,突然发现证明证错了。 当时正跟家里人在外面玩,突然得知噩耗,内心很崩溃,晚上回去就在那个酒店里推公式,好在最后还推出来了。 开始时证明写得很复杂,复杂的时候就容易出错。重新推导的结果是一个很简洁的理论,比复杂的结果好的多。 刚听到消息时真的很焦躁,但是之后回去耐下性子,花了点时间重新回忆了一下,逼自己一下,其实也没花多久就弄完了,下午五六点开始,到晚上十一二点。“
旅行中突如其来的麻烦工作,着实令人头大,但对柴成亮来说,却也是一次挺棒的磨练。 “以前经常会看到别人论文有类似的这种证明、推导过程就会跳过去,觉得这种东西我也看不懂,然后就默认它是正确的,然后略过。但这次自己不知道怎么稀里糊涂的就推出来了。之前不敢看的东西,自己能推出来,感觉还挺有成就感的。”
柴成亮的经历正应证了毛爷爷的那句老话: “世上无难事只要肯登攀。” 其实很多事情没有那么难,自己做了才知道是什么样。小挫折对于科研工作其实发挥了一种调动情绪的激励作用,只要你动起来去做,就能看到自己的无限潜力。
图源:个人提供
爱玩又聪明,参加国庆70周年阅兵,笑容十万伏特
柴成亮挺爱玩,狼人杀是他的最爱。 “前一阵70周年国庆,我加入了清华大学方阵队走方阵,连续2个月从早到晚辛苦彩排。每天下午5点去天安门等着,要等军人先走完我们才能走。从下午5点大概等到半夜12点,然后开始走。漫长的等待期间,我就会找小伙伴们一起打狼人杀,在天安门广场前切磋一下,沟通沟通感情。训练确实很累但却很快乐。” 运动也涉及,全面发展他最在行。
“以前偏爱游泳,后来因为换衣服太麻烦了,再加上清华游泳馆人比较多就……你懂的。虽然挺爱玩的,但没有执念特别深的一种兴趣。 “我是一个比较慢热的人,比较开朗真诚,我是这样的人,我也爱和这样人的交往。我的导师觉得我很聪明,但也很贪玩。我的师弟还总说我没有个师兄的样子,带头带着他们玩。这算不算一种平易近人? 柴成亮还有一头乌黑亮丽,令小芯羡慕不已的秀发。摸摸日渐稀疏的脑阔,小芯急不可耐地向他取经:
你是如何做到熬夜做研究的同时又可以保持一头乌黑亮丽的秀发?发际线很可观啊…… “首先,什么叫熬夜?如果是指过12点,我一般会12点,最晚1点就休息了。平时对自己也没那么狠,冬天起床困难户,保证7、8个小时的睡眠时间还是很重要的。重效率,不拖延,事情尽量白天做完,什么事情都提前想好,不要到最后再去做。 还有就是锻炼身体,像我们这种做科研的都会一不小心用脑过度,的确会导致头发比较稀疏,锻炼是拯救你脑阔的不二法宝,其实这个秃头可能还跟遗传有点关系,所以并不是所有博士或者科研人员都会秃。“ 柴成亮摸了摸头上一根白头发,表示他从中学开始就有白头发,别人一旦说他有白头发,他就很紧张,生怕出现更多,然后就刹不住车,一路白发丛生。 但他在博士生中依旧算“保养得很好的那一类”,此前他向另一个老师介绍自己是博五的学生,那位老师竟然发出质疑——你气色这么好,怎么可能是博五的?还是你导师对你太好了? “对,导师对我是挺好的。差点忘了,头发掉不掉,跟导师也有很大的关系。”
图源:个人提供
从“动物世界“到”计算姬“,这一切都是命
“最初的梦想紧握在手上,最想要去的地方,怎么能在半路就返航……“
对于柴成亮而言,最初的梦想就是儿时记忆里的“动物世界”。 “小时候我喜欢小动物,就想着去野外冒险,想象着自己去拍动物纪录片,就像动物世界里那样。“ 但是,为什么后来就学计算机了呢? 其实是个偶然,一切都有机缘巧合,大概是命中注定。
“高考那次对我来说算是一个比较大的挫折,起初高考想来北京,但是由于发挥失常,没有考好,平时模拟都是年级前20,然而高考那次是200名。 最后由于各种机缘巧合去了哈工大计算机系跟了李建中老师。
现在清华的导师李国良老师是李建中老师以前的学生。也是一些缘分和机遇,一步步走到了现在。“ 既然走上了“计算姬”这条“不归路”,那么未来是怎么规划的呢?
柴成亮表示先在学术界发展、踏踏实实先做好研究才是真,个人也考虑过工业界。但还是觉得先把基础打好,脚跟站稳了,再去做落地的应用会比较好。
运气加成,让“目不斜视”的他“与世无争”
求学之旅漫漫,总是充斥着各种令人终身难忘的“意外”和“惊喜”。
对于柴成亮而言,让他印象最深刻的莫属他发表第一篇论文了。
“运气加成真的很重要。正常第一篇发表论文,一般来说大家都是先看很多文献,总结别人的方法,找到一个idea,然后再去做实验,然后跟别人比较,如果比别人好的话就能整理发表一篇论文。
而我的第一篇论文基本就是老师跟我说了个东西,然后我就自己想了个东西,然后就去实验了一下。直到这个时候才想起来我想的这个东西要跟别人比一下,然后就又去找了一些文献,过程异常煎熬。每找到一篇,就会发现这个人跟我做得很像,会不会比我好,然后心惊胆战PK一轮。
这样完全没看别人怎么做,纯自己想的一个东西,你面临着两点挑战。
第一点,你的最终效果比别人好吗?第二点,你和别人的方法像不像?这两点缺一不可,如果你方法跟他很像,即使你效果比较好,那也发表不了。
所以,那段时间每天提心吊胆,总能看到论文题目跟你做的东西一样,然后就立刻比对方法跟自己像不像,幸运的是最终比对完后,发现都不像,最终效果还都比他们好,最后成功发表,之后的两三篇也都挺顺利的,都直接中了。这时候我就开始产生一丝侥幸心理,后面再去做一些研究,就会开始期待会不会也如开始阶段那样顺利。
然而,现实终究是残酷的,后面就没再这么顺利过了。可能运气用完了吧,只能靠努力来积攒运气了!“ 越努力越幸运,这句话终究是有它的道理的。
最后,作为学业成功的师哥,柴成亮热心的为在读的师弟师妹们提了一些建议: “科研方面,曲线救国,好好记住研究方面那个曲线,还是大有所用的。不选大家已经都做烂了的东西,这个意义真的不大,选一些比较有前瞻性的研究方向,全身心投入进去。如果你或者你的老板很有眼光的话,就能发现一个即将很热的东西。 其次就是要多跟人交流,尤其是同实验室的师兄师姐。
了解他们的研究方向,然后抱抱大腿,争取一起合作的机会。 我觉得无论是在公司还是在高校,只有跟很多人合作,积累人脉,然后才能生存得更好,一个人做,时间、能力、能力都是有限的,跟人合作,去扩展一下知识面,实现双赢。 当然还是要专注做自己的东西,丰富见识的同时目不斜视。“
图源:个人提供
:你养过宠物吗?有养过哪些?
有,猫
:你最想去的约会地点是?马尔代夫
:男性朋友多还是女性朋友多? 差不多
:相信一见钟情还是日久生情? 日久生情
:说说你最害怕什么东西,说三件? 蜘蛛、蜈蚣、蜜蜂
:结婚后愿意和父母一起住还是分开住? 分开
:你平时喜欢什么运动? 游泳
:爱情中你是主动型还是被动型? 不好说
:你喜欢做家务吗? 不喜欢
:你给喜欢的人一颗魔法糖,你可以让他/她为你做一件事情,你想让她做什么?一起写论文
:感性和理性,你属于哪一类? 理性
:最想做又不敢做的事情是?深潜
:计划结婚的年龄是?30
:心情不好的时候怎么排解?买买买
:双方交流中,你觉得你是一个倾听者还是倾诉者?倾听者
:你的口头禅是? 艾玛
:如果只剩下最后一天,让你见3个人,你会去见谁? 爸爸妈妈爱人
留言 点赞 关注
我们一起分享AI学习与发展的干货
如需转载,请后台留言,遵守转载规范