阅读足迹 永久书架

第23部分 (第1/4页)

大刀阔斧提示您:看后求收藏(67小说网www.67txt.com),接着再看更方便。

R“量身定做”一篇有关经验比较的论文。

当时研究院正在参加TREC 比赛。这个比赛中有一个任务叫做Topic Distillation,其目的是找到与所查询主题最相关的子网站入口,也就是说即便有的时候子页面比父页面更加相关,我们还是希望返回父页面。为了解决这个问题,我们提出把网页里的关键词按照网站结构向父页面进行传播。经过实验验证,这个方法非常有效。于是我就想,是不是还有其他类似的做法呢?除了关键词以外,我们是否可以把网页的相关性得分(relevance score)进行传播?除了沿着网站结构以外,我们是否还可以沿着超级链接结构进行传播?有了这个想法以后,我们对以往的相关文献进行了调研,发现确实有人做过把相关性得分沿着超级链接进行传播的尝试。这就启发我对以上提及的各种传播方式进行系统的对比研究。于是我把所有相关的方法进行列举、分类,并对其进行了大量的实验比较,并最终得到了很多有意思的结果。我按照自己总结的SIGIR的“范式文本”,把这些比较结果写成了一篇论文,提交给了SIGIR 2005。最终这篇文章被录用了。虽然有些幸运的成分,但是不管怎么样,通过“模仿”,我的SIGIR之旅正式启航了。

第二年:“掌握扩大战果的本领”

发表第一篇文章固然重要,但是如何排除幸运的因素,真正具有持续发表SIGIR论文的实力更加重要。这方面,微软亚洲研究院的国际化平台给了我很大的帮助。每年,研究院都会吸引大量国外的知名学者来进行访问交流,我正是借助这样的机会认识了杨益銘教授。

杨益銘教授是美国卡耐基梅隆大学的教授,是文本分类领域的专家。我有幸在她访问研究院期间和她合作了的一篇论文。当我把初稿写出来让她修改的时候,她来来回回和我讨论了5遍“引言”怎么写。其实她完全可以直接帮我把这一章改好,所花的力气要少很多。但是杨老师耐心地给我提意见,让我自己一点一点修改。这个过程使我意识到有了好的技术,还要清晰准确地表达出来,恰到好处地突出自己的贡献。这对我日后的论文写作以及给学生改论文都有很大的帮助。至今仍然十分羡慕杨老师的境界:“写论文其实是一件很享受的事情,写起来象清泉流水一样,禁不住要把那么好的研究成果和别人分享”。 电子书 分享网站

找到属于自己的关键词 刘铁岩(2)

和杨老师合作在SIGKDD Explorations 上发表了一篇关于大规模文本分类的论文之后,我又开始了独立准备下一年度SIGIR论文的阶段。不过,这次明显感觉与以往不同了:不再是为了量身定做一篇论文而找题目做,而是围绕着自己正在做的研究题目写论文。

这次我准备的两篇文章一篇讲的是基于随机补的网络图排序,另外一篇则是关于文档检索的新算法。它们都不是有关经验比较的论文,也没有像第一年那样按照SIGIR的“范式文本”来写,但是这两篇文章也都被SIGIR 2006录用了。

经过这个过程,我感觉自己真的入门了:至少知道什么样的工作是SIGIR这个领域真正认可的工作,也知道如何写出具有自己风格的论文来。

第三年:“找到属于自己的关键词”

入行两年发表了3篇SIGIR论文,其实并不是一件容易的事情,因为这个会议竞争非常激烈,每年全球范围内只收录几十篇文章,而且无疑来自美国的论文占了绝大多数。也因此,我慢慢被一些外面的学者认可,也接触到了更多的同行朋友。

一次开会的时候,和几个同行聚在一次聊天,各自介绍自己的研究方向。到我表达的时候,发现只能用“信息检索”这样的大词来形容,因为自己做过的3篇SIGIR论文相关性并不大,很难找到更贴切的描述。一个朋友说:你要有自己的关键词,比如美国伊利诺斯大学香槟分校的翟老师的关键词就是语言模型,卡内基梅隆的杨老师的关键词就是文本分类,你的关键词是什么?

这个问题给了我很大的触动。仔细想想,确实知名学者多半都有他们自己的成名之作,有很集中的研究方向。而我目前的状态似乎还是有点为了发论文而发论文,没有真正地去规划属于自己的研究方向。如果继续这样下去,可能接下来的几年里我还会发表更多的SIGIR论文,但是当再次被别人问及同样的问题时,我仍然无法避免这种尴尬。所以,我决定要集中火力,做有影响力的,可以作为自己

《微软的意思》 第23部分(第1/4页),本章未完,点击下一页继续阅读。