刘群开心情色五月天
序
引子
在二室
攻读硕士学位
初始零丁研究·跟北大规划语言所相助
规划所改良·跟李长处第一次往来
二室的一些东谈主和事
对智能中心的印象
在软件室
规划所的新怡悦
研究责任进展
软件室的一些事情·跟李长处第二次往来
在数字化室
研究责任进展和取得的成绩
赢得博士学位
跟李长处的第三第四次往来
结语
跋文
序
这篇著述,本来是为规划所建所50周年写的一篇稿子,标题是“规划所旧事回来”,发表在规划所网站建所50周年的专栏上。因为我这些年来的责任与北大规划语言通盘密不可分的磋商,我在写初稿的时候,花了很大篇幅先容我跟北大规划语言所相助的情况。初稿写成后,我请了许多东谈主帮我看,包括北大规划语言所的俞诚笃、詹卫东、常宝宝等东谈主,他们看到我对以前的这些事情的回忆都很感叹,也给了我许多的饱读励。自后在规划所网站上淡雅发表时,议论到这篇稿子毕竟是为规划所建所50周年而写的,我与北大相助的这些事情与这个主题关联不大,是以就忍痛删掉了许多这方面的翰墨,另外也删掉了一些比较具体的手艺细节。当今征得俞诚笃甘愿,把这篇稿子的全文发表在“燕园时语”上,补上了被删除的部分,标题改成“规划所与北大旧事回来”。不外原来著述是以我在规划所的阅历为干线来写的,这一点莫得编削。谨以此文件给这十几年来跟我全部在天然语言处理和机器翻译领域并肩作战过的诚笃、同学和一又友们。借用詹卫东给我的邮件中的一句话:真心道贺咱们这些全部战斗过的NLPers一切奏凯。
引子
规划所宣传外联办的祁威跟我约稿,要我为规划所建所50周年专刊写篇稿子,回忆一下我所阅历的一些事情。她的来信引起了我对旧事的一些回忆。我是1989年进入规划所的硕士研究生,毕业后一直留所责任于今。比起规划所的老同道来说,我在所里的时辰并不算太长。不外在当今的规划所,放眼望去,到处都是不满勃勃的年青东谈主,与规划所的绝大部分东谈主比起来,我也照实应该算得上是“老”职工了。不算在研究生院(玉泉路)学习的一年时辰,我在规划所照旧责任了整整16个年头。固然我只是规划所一个普通研究东谈主员,规划所这些年来发生的一些要紧事件,咱们并不处在这些事件的中心,但关于咱们具体的每个东谈主来说,还有许多的小事,相似值得咱们去试吃。也许恰是这些小事,可以从一个侧面,佐证咱们规划所这些年来后光而又报复的发展历史吧。
在二室
先说说我我方的阅历吧。
攻读硕士学位
我是1989年动作免试保举的硕士生进入规划所的。其时报的导师是高庆狮院士(其时还叫学部委员)。进所的时候,因为高院士放洋未回,我的导师改成了张祥研究员,也便是其时规划所二室的主任。在玉泉路学习的一年很快就往时了,回到所里的时候,我和师妹韩朝阳都被分到了陈肇雄博士教唆的机器翻译课题组,师弟潘伟被分到了蒋贤春负责的汉字识别课题组。
我刚到规划所二室的时候,张祥诚笃如故863群众组的组长,那时二室还长短常红火的。1990年咱们刚从玉泉路回所的时候,赶上在京西宾馆举行EST863责任站的疏忽会,领域相配大。
接下来的两年,我初始在陈肇雄课题组研究机器翻译,这个课题组承担了863的“智能型机器翻译”技俩,课题经费是74万元东谈主民币。其时参加这个技俩的,除了规划所的东谈主除外,还有许多相助单元,包括北京科技大学、中国科技谍报所、珠海科健公司、北京工业大学等等,研究开采责任进行得相配红火。这段时辰的责任,使我对规划语言学和机器翻译的研究发生了极大的兴味。在我以后的阅历中,固然换过好几个地方,但我的研究责任一直靠拢在这个领域,莫得离开过。
1992年,我奏凯完成硕士学习和硕士论文(我的论文主如若作念其中的常识库料理系统),赢得了硕士学位。也就在这个时期,机器翻译课题组的责任取得了要紧的进展。课题组和香港权智公司签署了契约,权智公司参预74万好意思元,课题组参预机器翻译手艺,两边共同相助成立了“科智”公司,将系统植入权智公司的“快译通”产物之中。由于权智公司的产物早已行销全世界,产物的销路十足不成问题,而这又是全世界第一个带有全文翻译功能的电子辞典产物,这是一次相配好的相助,引起了震撼。从此以后,陈肇雄的做事初始走上了快车谈,先是于1993年和1995年差别赢得中科院科技跨越一等奖和国度科技跨越一等奖,尔后又在1997年离开规划所,成立了华建公司。华建的机器翻译产物也一直是阛阓上最佳的机器翻译产物之一,这是后话了。
也就在咱们毕业的时候,陈肇雄脱离了规划所二室,成立了规划所机器翻译中心。我的师妹韩朝阳跟陈肇雄去了机器翻译中心,师弟潘伟去了好意思国,而我则聘任留在了二室。
初始零丁研究·跟北大规划语言所相助
硕士毕业后,我就一直在议论今后的研究场所。导师张祥给了我很大的聘任余步,让我我方作念出聘任。经过一段时辰议论,我如故决定连续作念机器翻译研究。我聘任的课题是汉英机器翻译。之是以聘任这个课题,是因为其时陈肇雄作念的主如若英汉翻译,我不但愿作念的责任跟他们近似,另外,从研究角度说,汉英机器翻译难度更大,对汉语研究来说酷好也更大。张祥诚笃甘愿我的聘任,并许愿给我尽可能的撑持。场所定下来以后,我就初始埋头议论设计决策,到1993年上半年,初步的设计决策照旧成型,系统设计照旧翔实到了模块一级,辞书、规定库的界说也都照旧完成。这时我初始议论寻找相助者。由于作念汉英翻译的研究主要需要寻找汉语语言学方面的相助者,我来源预想了北京大学规划语言学研究所的俞士汶诚笃。俞士汶诚笃是我硕士论文答辩的主席,他的学者风姿给我留住了深刻印象。我主动找上门去跟俞诚笃磋议相助事宜。当今想起来照实卤莽。那时我如故一个刚刚硕士毕业的学生,俞诚笃照旧是成名的学者,而我又条目进行以我为主的相助,当今看起来,简直是一件不太可能的事情。没预想此次相助居然奠定了咱们以后历久相助的基础,我也最终成为了俞诚笃的博士研究生。这是后话,底下还会说到。
其时俞诚笃在仔细听取了我的遐想以后,初步甘愿了相助,但但愿能够在仔细研究我的设计决策后再作念出临了决定。我且归后,就把总体的设计决策交给了俞诚笃,其中辞书设计和规定库设计都是用类似BNF范式的花样描写的。俞诚笃在仔细研究了我的决策后,十足甘愿了跟我相助,咱们签署了一个粗浅的相助契约,由规划所提供很少的一笔研究经费和一台规划机,北大协助我按照我的设计决策,完成辞书和语料库的设计和调试,两边共同相助开采一个汉英机器翻译系统。相助期限是1993年8月到1995年1月。
契约签署后,咱们就分头初始了开采。我主要进行软件开采,北大一个小组在我的领导下进行辞书和规定库的开采。其时北大这个小组由其时在北大读硕士的周强负责,参加的东谈主有段惠明诚笃、王惠诚笃、硕士生和博士生詹卫东、博士生常宝宝、硕士生陶晓鹏等东谈主。到1995年,一个原型系统照旧完成,这个系统运行于Sun责任站之上,辞书领域唯独5000条。固然这个原型系统还很粗浅,但照旧具备了一个机器翻译花样所需的基本功能。初步的奏凯让咱们备受饱读吹,我和俞诚笃都甘愿将这项相助连续进行下去,开采一个初步实用的汉英机器翻译系统。
1996年和1997年,咱们又就这个技俩跟北大签署过两个补充契约,一方面是连续相助,另一方面,咱们以相配优惠的价钱购买了北绽开采的一些语言资源和器具。这一阶段,除了软件的连续完善除外,还有两件责任量比较大的事情,一个是将系统从Unix平台移植到Windows平台,另一个是辞书的开采。辞书的常识来源主要有三个部分。第一部分是汉语的语法信息,主要来源于北大提供的汉语语法信息辞书。第二部分是词的语义信息,是咱们课题组我方零丁开采的,咱们设计了一套其时比较先进的语义描写体系,一方面通过一个语义分类体系(当今广阔称为履行Ontology)描写每个词的语义,还可以对每个词配价关系的描写来阐述一个词可以跟哪些语义的词搭配。这部分开采责任由北大的王惠诚笃负责。第三部分是汉语词到英语词的翻译信息,亦然咱们笔据几部汉英辞书零丁开采的。1996年,咱们就汉英机器翻译系统苦求了863技俩并得到了撑持,经费16万元东谈主民币,不久以后又得到了一个规划所长处基金的撑持,这标记着咱们的机器翻译研究淡雅从自选技俩的状态转入了官方招供的状态。1998年,863技俩收尾,咱们的系统也初步开采完成。当年,咱们参加了863群众组组织的汉文信息处理与智能东谈主机接口手艺评测,参加汉英机器翻译评测的共有三个系统,咱们在翻译质地方面以比第二名微弱的上风赢得第一,但在用户界面方面,由于花样运行经由中的一个装假被扣分,导致总分名列第二。其时的评测结果全文刊登在《规划机世界》报上。这是咱们的系统第一次出当今公众视线中,应该说,成绩还可以。此次评测给了咱们很大的信心。
从我1992年毕业到1998年咱们的系统在863评测中取得较好的成绩,我的责任应该说出现了一个小的高潮。这一年我的一篇论文发表在好意思国的AMTA会议上,我在1997年评上了副研究员。更关键的是,我在责任中平安了许多今后相配好的一又友。在规划所,除了我除外,先后加入了我这个小组的有博士生刘颖、王斌、李素建、鲁松和职工叶煜。王斌自后留在规划所,先后在软件室和前瞻研究中心责任,当今是前瞻研究中心信息检索课题组组长。刘颖毕业后去了清华大学当诚笃。李素建和鲁松来得比较晚,很快就跟着所里的改良进入新所软件室,叶煜责任很短时辰后就离所了。北大的詹卫东这时期赢得了硕士学位,并初始攻读博士学生。咱们几个东谈主常年在一个办公室责任,结下了深厚的战斗友谊。非常值得一提的是詹卫东,他在我这个课题组责任的时辰最长。他是北大汉文系陆俭明教会的学生,在汉语语法研究方面有很深厚的功底,对汉语的多样语言征象相配熟悉,在课题组内负责规定库的编制和调试。关于他来说,用花样化的规划机规定花样处理语言是一种全新的体验,尤其是在进行机器翻译的时候,就会发现,机器翻译所要处理的语言学问题跟他平时在语言学领域护理的语言学问题差距相配大,他会频繁发现多样万般的问题提倡来跟咱们磋议。而我其时也对汉语的分析相配感兴味,看了许多语言学、非常是汉语语法表面的册本,咱们频繁就语言学中的千峰万壑的多样问题进行相配深入的探讨。由于机器翻译简直触及到一种语言的通盘多样语言常识,是以咱们的磋议也触及到了语言学的方方面面,咱们把语言学中的许多观点按照咱们的意会再行进行了计帐,酿成了咱们共同的一些理念。这种磋议让咱们都受益颇深,对咱们今后的责任都产生了相配深刻的影响。对我来说,我从一个语言学的外行人变成了一个“票友”,对语言学的多样表面我于今都有着浓厚的兴味。语言对我来说不再只是规划机处理的一堆数据,而是在其背后荫藏着深刻的礼貌性。到当今,固然咱们照旧十足转到了统计机器翻译这个场所,但我并莫得像一些贞洁的造就主张者一样,对语言常识在机器翻译翻译中的应用失去信心,而是一直相持把一些语言学的常识引入到统计纪律中,并赢得了某种程度的奏凯。我也投诚,联结语言常识的统计模子将是机器翻译纪律的最终归程,咱们将沿着这个场所一直走下去。关于詹卫东来说,机器翻译的责任造就使他比拟于其他的语言学研究者而言具备了一种私有的视角,这种视角愈加全面、愈加感性,这也使得他的研究责任在语言学界受到了愈加平庸的关注。詹卫东于1999年博士毕业,他的博士论文“面向汉文信息处理的当代汉语短语结构规定研究”便是笔据他在机器翻译中的责任总结提真金不怕火酿成的,这篇论文赢得了2001年世界百篇优秀博士论文奖。当今詹卫东照旧是北大汉文系应用语言学方面的负责东谈主,而且担任了北大规划语言学研究所的副长处。
关于当年开采的这套基于规定的机器翻译系统,我当今想起来如故比较安逸的。这个系统最大的优点在于提供了一套具有巨大的翻译常识抒发才能的规定描写语言。广阔,基于规定的机器翻译系统最大的问题就在于辞书和规定库的调试。一般情况下,莫得经过数十乃至数百东谈主月的调试,规定数量莫得数千条以上,系统很难达到初步可用的水平。而咱们的系统除了在辞书开采阶段招聘了一些临时东谈主员除外,一般唯独两三个东谈主进行辞书和规定库的开采,实在进入调试阶段唯独三四个月的时辰,调试了四千个控制的汉语句子,就在863评测中取得了较好的成绩。这一方面过劲于詹卫东博士深厚的汉语语言学功底,为咱们的规定系统打下了精深的基础,另一方面,也照实是因为咱们界说的规定描写语言相配巨大,可以比较澄莹准确地描写多样类型和多样脉络的语言常识,为詹卫东这样的语言群众提供了轻车熟路的器具。詹卫东博士对这套规定描写语言使用得相配顺遂,以至于径直用在了他的语言研究责任中。在他的博士论文以过火他一些论文中,都径直领受这套规定描写语言。而且,自后由于我转到了统计机器翻译纪律,原来的系统照旧弃之无须了。但詹卫东博士对这个系统仍然不忍排除,我就把系统的全部源代码给了他。他把其中的汉语分析部分零丁出来,自后,他又带了一个学生,在我的匡助下,把原来的规定描写语言进一步完善,主如若加多了一些内嵌的函数,并加多了主不雅评分机制,使得规定的描写才能愈加巨大。詹卫东博士把这套句法分析器和他自后开采的句法树库料理器具联结起来,组成了一个齐全的汉语句法常识料理平台,他于今仍在使用。其中的汉语句法分析器在面临真实语料的时候正确率能够达到60%以上,这关于一个基于规定的系统来说长短常阻遏易作念到的。真理的是,詹卫东动作一个语言学家,为了开采这套器具,自学起了C++语言,到自后我方照旧成了半个编程高东谈主了,花样中的许多问题他都躬行上阵惩处,天然也免不了有一段时辰频繁就一些比较难惩处的问题“扯后腿”我。由此也可见詹卫东的费事与钻研精神。对这套器具,咱们一直但愿把文档好好整理出来,将关联着力发表成论文,并将这套器具公开出来提供给其他语言学研究东谈主员使用。到当今为止他可能以为一直还不完善,是以还莫得这样作念。但我想这是早晚的事情。
除此之外,咱们这个机器翻译系统还产生了一些挑升念念的结果。咱们开采的机器翻译辞书的语义部分,领受了前边提到的基于配价的描写模式。固然咱们在辞书的语义分类体系设计和辞书开采的质地方面都作念得相配毛糙,但这种念念想如故很先进的。其时组织这部辞书开采的北大老师王惠发表的一篇先容这部语义辞书的论文就有很高的援用率。这种基于配价的语义辞书设计念念想昭着不同于天然语言处理界常见的语义辞书(如同义词词林、Hownet、Wordnet)的组织花样,比较合乎于机器翻译系统的使用(现时看来,这种设计念念想有点类似于Fillmore设计的FrameNet的念念想)。俞诚笃对咱们这套辞书的设计念念想相配赏玩,自后北大规划语言所和北大汉文系相助在这种设计框架下完成了一部新的《当代汉语语义辞书》。
另外,咱们还跟俞士汶诚笃签署了一份契约,授权北大规划语言所帮咱们转让这个机器翻译系统的着力,包括其中的软件和辞书等等。由于俞士汶诚笃开采的汉语语法信息辞书影响相配之大,全世界开展汉语天然语言处理研究的简直通盘著名的大学和研究机构都络续跟俞诚笃谈判转让了这部辞书的使用权。在谈判的经由中,俞诚笃也趁机跟这些机构保举转让咱们机器翻译系统的着力,几年下来,居然也成绩颇丰,转让次数推测有七八次吧,转让金额总和也有近百万元东谈主民币,其中一半控制分到了规划所。我铭刻还有一份软件还免费转让给了香港汉文大学作念素质用。
规划所改良·跟李长处第一次往来
在这一期863技俩完成以后,咱们的机器翻译研究初始责任变得麻烦起来。固然咱们又奏凯苦求了一期863要点课题,但履行上技俩经费只到位5万元。
1998年底,规划所新教唆班子上任,高文任长处,科学院布告对规划所进行要紧改良,原来1000多东谈主的规划所绝大部分东谈主进入企业花样的规划所二部,再行组建一个不到100东谈主编制的小规划所,小规划所同期又是盼愿研究院。这使得规划所进入了一个变生不测的时期,很长一段时辰,全球都东谈主心惶遽,不知谈将来要向何处去。自后,有一些东谈主的行止缓缓轩敞,部分东谈主进入规划所二部,另外少数东谈主进入新成立的小所,同期亦然盼愿研究院。不外让我蹙悚的是,我的责任莫得任何下降。原来的二室照旧闭幕,张祥诚笃放洋了,这时刘颖照旧毕业去了清华大学,王斌刚刚毕业,留所进了智能中心,而我既莫得进入二部,也莫得被摄取进小所,成了寡人寡东谈主。从一些曲折的音信看,小所似乎老实守己地成立并淡雅初始运转了,但关于我(可能还有其他一些东谈主)来说,我莫得从任何淡雅的渠谈得到小所成立的任何信息,也莫得任何东谈主对咱们将来的安排作念出任何解释或阐述。我第一次对改日感到如斯的飘渺。其实我也不是莫得地方可去,俞士汶诚笃相配接待我进入北大(俞诚笃很永劫辰一直在北大为我保留了专门的工位和规划机,固然我并莫得去北大上班),自动化所模式识别实验室也在向我招手,还有一些公司只消我情愿也都可以去。但我还对规划所抱有一点留念,但愿规划所能给我一个解释,而不是这样不解不白就走了。
那时我找了所里不少教唆和部门的负责东谈主,都得不到正面的回应。有一寰宇班的时候恰巧际遇李长处(那时候如故智能中心主任),我就壮起胆子跟他打了个呼叫,说想跟他谈谈。李长处就带我到他办公室聊了一刹。我跟他说了我的情况,示意了但愿进入智能中心的愿望。他对我的情况好像也大致知谈,只是告诉我,我所作念的机器翻译研究,如果不行联结到具体的技俩中,在智能中心会很麻烦。讲话的时辰很短。固然他莫得正面回应我,但从他讲话的语气看,我嗅觉如故很有但愿的。
这是我第一次跟李长处径直往来。我在规划所这样多年开心情色五月天,跟李长处的往来并未几。不外,这寥寥可数的几次往来,对我的在规划所的责任都产生了要紧的影响,背面我会络续提到。
我最早意志李国杰长处,如故我在中国科学手艺大学规划机系学习的时候。那时他刚从国际归国不久,咱们学校的陈国良教会邀请他到咱们系作念了一个系列学术陈说,先容了国际上并行处理方面的最新动态。不外那时候我对他的印象还不是很深。
到规划是以后,我才知谈,李国杰照旧担任了智能中心主任,名气相配大,简直可以用如雷灌耳来形容。不外在很永劫辰里,我都莫得跟他径直往来过。对他的了解,都是通过多样媒体以及共事之间擅自的交流得知的。此次亦然黔驴技尽了,才想起走动找他。
1999年末,所里的情况出现了大的变化,李国杰院士接任规划所长处,规划所的改良场所缓缓轩敞起来。规划所和盼愿研究院进行了明确的分割,规划所内成立了六个实验室,而我也在2000岁首得到樊建平副长处的通告,让我到白硕哪里报到,淡雅进入新成立的由白硕担任室主任的软件研究室。
在我焦灼恭候的这段时辰里,我作念了一个关键决定,便是在1999年报考了北大的博士研究生,并被淡雅收用为俞士汶诚笃的在职博士研究生。1999年末,俞士汶诚笃得到一个973子课题“面向新闻领域的汉英机器翻译系统”,俞士汶诚笃让我以规划所职工和北大博士生的双重身份,担任这个课题组的手艺负责东谈主,总算把我的机器翻译研究责任延续下来了,不外主要的研究责任照旧从规划所转到了北大,北大和规划所签署了一个契约,摊派了其中的部单干作,这个技俩的另一个相助单元是清华大学,由其时照旧留在清华当诚笃的周强博士带两个硕士生参加。
二室的一些东谈主和事
我在二室的时辰前后有10年之久,这内部阅历了许多事情。其中还有一些东谈主和事我以为有必要写出来。
高庆狮院士本来是我的硕士导师,但自从我到规划是以后很永劫辰就一直莫得见过他。固然如斯,我如故听到了许多关联他的听说。自后到1990年代末他归国后,到北京科技大学责任,我听了他的一次陈说。我进入软件室以后,他也被李长处再行请回规划所,咱们往来契机才多了一些。我跟高院士有过一些深入的交谈,嗅觉高院士看问题老是站在很高的表面角度上,跟他的讲话老是让我很受启迪,也让我可望不可即。
我刚到二室的时候有一个学姐张玉洁。她是高庆狮的学生,在我到二室的时候照旧硕士毕业留所责任,等我1992年硕士毕业留所的时候,她到日本去攻读博士学位。没预想,十几年后咱们居然成了相助伙伴。我也忘了具体是什么时候,好像是2002年下半年吧,她所在的日本抽象通讯研究所(当今照旧更名叫作念日本谍报通讯研究机构)但愿到中国寻找相助契机,咱们见过几次面。自后,咱们又在一个中日天然语言处理研讨会上见了面,咱们也相互对对方的责任有了比较多的了解,她在2004岁首邀请我到日本进行了一个月的看望。这以后,咱们就在一些领域初始了相助。最主要的相助是咱们在863评测中的相助。她所在的研究所成了咱们组织的863机器翻译评测的日方相助单元,匡助咱们组织日本的研究机构参加评测、制作与日语磋商的测试语料、并进行与日语磋商的机器翻译东谈主工评价。咱们在这方面的相助相配奏凯,并在2005年的MT Summit X会议上相助发表了两篇学术论文。到当今,除了863评测,咱们还在其他一些技俩上开展了进一步的相助,况且每年都在多样会议上有许屡次碰面交流的契机。
我对二室印象还比较深的一项责任是张玉志的规划机围棋算法研究。规划机围棋是一个相配麻烦的研究课题,其时张玉志提倡了一种类似于磁场的棋子影响力规划纪律,可以比较便捷地在序盘阶段判断两边的势力范围,细目要道的位置,表面上作念得很是的漂亮。1990年张玉志还在规划所经办了一次由台湾应昌期先生资助的世界电脑围棋大赛,相配吵杂。其时有一个趣闻,据说是两台规划机棋战的时候,在一个地方酿成了比气互杀的时局,其中一方走出了一个“金鸡零丁”,本来是活棋,眼看就可以杀死对方了,结果该方的规划机花样居然主动认输了,一时传为笑谈。我想当今的规划机围棋花样应该不至于犯这样初级的装假了吧。另外一件值得一提的事情便是,其时还进行了少年棋手和规划机的比赛,都是让子棋。固然少年棋手赢得了大多数的比赛,但唯独一个赢得全胜的少年棋手便是常昊。其时许多东谈主都看好的这个毛头小伙,当今照旧成了中国围棋挑大梁的东谈主物了,想起来不由得让东谈主感叹。规划机围棋研究和机器翻译研究一样,都是对东谈主类才略进行挑战的责任,我于今仍然认为长短常挑升念念的,哪天如若等我有闲了,我倒很想尝试一下。
我毕业后留在二室的时辰内部,还有一小段时辰跟刘志勇研究员作念了一点并行算法的研究,帮他把一个在n-cube上的并行算法移植到了另外一种结构上,还发表了一篇论文。自后不久刘志勇就调到国度天然科学基金委去责任了。
好像在1999年前后,我还跟李锦涛诚笃的课题组相助,将咱们开采的汉英机器翻译系统移植到了将要推出的盼愿天玑掌上电脑中。咱们奏凯完成了这项责任,不事自后盼愿天玑淡雅推出的时候并莫得聘任咱们的系统动作未必软件。
我在二室的时候,钱跃良诚笃一直担任863群众组办公室的主任,有一段时辰如故二室的副主任。其时咱们打交谈并未几。没预想这样多年以后,我又进入数字化研究室加入了钱诚笃的课题组,在钱诚笃的教唆下责任。当今钱诚笃是咱们多语言交互手艺评测实验室的主任。
老二室的东谈主当今还留在规划所的,除了高院士、钱诚笃、我和王斌除外,还有宋铟(软件室布告)、皆蓉(规划机研究与发展剪辑部)等东谈主。
对智能中心的印象
改良前的几年,规划所许多部门的情况都是枉尽心机。唯独少数几个部门情况较好,而智能中心无疑是其中情状最佳、亦然最活跃的部门。我其时由于埋头机器翻译的研究开采,对其他单元的情况并莫得太护理,但智能中心的一些情况如故收敛传入耳中,咱们知谈了智能中心开采出了著名的朝阳规划机、智能中心有很好的研究氛围、智能中心的东谈主收入很高,等等。二室的许多东谈主也都络续转到了智能中心责任。我我方唯独跟智能中心往来的契机便是参与了其时智能中心磋议班的一些磋议。其时两周一次的智能中心磋议班相配火爆,引诱了附进各研究所和高校的许多后生东谈主来参加,传播了许多的新念念想,磋议相配活跃。我我方也应邀在这个磋议班上先容了其时我所在的陈肇雄机器翻译课题组的一些情况。其时负责这个磋议班的是一个年青的小伙子,他的名字我不铭刻了。刚初始,白硕如故北大的学生,他跟他的一个同学(忘了名字,好像姓王,单名)在这个磋议班上相配活跃,名气很大。自后白硕毕业后到智能中心责任,原来的磋议班主理东谈主也放洋了,这个磋议班就由白硕等东谈主负责,延续了很长一段时辰。
在软件室
规划所的新怡悦
李国杰担任长处以后,规划所的面庞发生了很大的变化,各方面都初始自大出一种百废俱兴的时局。在这种大的环境底下责任,东谈主的精神面庞都一下子好了起来。
我所在的软件研究室亦然一个相配有活力的研究团体。这里承担了许多大型的国度技俩,东谈主才济济,研究氛围相配好,学生们的念念想也很活跃,全球责任也都非常勉力。室主任白硕和自后接任的程学旗常识面都相配平庸,对前沿的学术动态也都很了解。在这种环境下,我的研究责任也取得了一些新的进展。
哥也色地址研究责任进展
2000在许多方面临我来说都是一个新的初始。我不单是是初始了博士阶段的学习,初始进入软件室这样一个新的环境,初始承担了机器翻译研究的新课题,而且初始作念爸爸了。可以遐想得到我其时的兄弟无措。
这时候我一直在议论的一件事情便是,咱们的机器翻译研究下一步向什么场所去。按理说,如果要培植现存的基于规定的机器翻译系统性能,应该找东谈主用巨额多样万般的句子进行调试,改进辞书和规定库。但说诚真话,我很不心爱这种模式。因为但凡调试过机器翻译规定的东谈主都知谈,这是一件极其横祸的事情。有点像规划机编程时的Debug,但不同之处是,机器翻译规定的调试似乎是一个长期莫得绝顶的责任,咱们频繁是按下葫芦起来瓢(所谓翘翘板征象),这边的句子调好,但原来调好的一些句子又出错了。固然总体上说,系统的性能在收敛改进,但这种改进相配之慢,以至于这关于调试者来说,这是一件相配莫得成立感的事情。我我方就很不心爱作念这种事情,相似也不但愿让别东谈主去作念这种事情。是以我照旧下决心遗弃这种大领域调试规定的纪律了,而是但愿从算法角度对机器翻译系统的性能加以改进。但其时,我还看不清有什么纪律能在本质上超越规定纪律,其时主要的遐想便是从以下几个方面临机器翻译系统加以改进:
开心情色五月天 ● 改进原有的汉语分词花样和汉语句法分析花样; ● 扩大辞书领域; ● 建立一个短语库; ● 构造大领域双语句子对皆语料库; ● 构造小领域双语组块对皆语料库,试图从中自动抽取规定; ● 引入基于实例的机器翻译引擎; ● 领受多引擎纪律,将基于实例的引擎和原有基于规定的系统以过火他一些手艺联结起来,培植系统的抽象水平。
为了尽快推动技俩的进展,在技俩的初期,我想把我在规划所习尚的技俩料理纪律应用到这个技俩中,也便是制定比较翔实的程度有规划,每周开会磋议了解督促程度。不外实践阐述注解这种作念法在这个技俩中行欠亨,北大和清华的诚笃和学生都不行适合这种作念法。我只好排除了这种作念法,如故全球分头开采,临了集成。
经过一段时辰的磋议和磨合,咱们三个单元的单干缓缓澄莹,清华主要负责提供一个汉语分词模块和一个汉英定名实体的翻译模块,北大主要负责资源的开采,包括双语辞书的扩张、语义辞书的扩张和双语语料库的开采,以及完成一个基于实例的翻译引擎。规划所(主如若我本东谈主)主要负责多引擎纪律的设计和系统的总体集成。履行上,关于北大和清华的研究开采责任,除了初始阶段我试图长入进行料理那一阶段,自后我就很少径直介入了,只是把他们开采的多样辞书、语料库和器具集成到了咱们临了的系统中。
其时,规划所的开采东谈主员主如若我我方,北大参预的东谈主较多,包括詹卫东(语料库和辞书)、常宝宝(基于实例翻译、语料库)、孙斌(分词)、王惠(语义辞书)、陈玉忠(组块对皆的语料库)、吴云芳(双语短语库)等东谈主,还有一些倏得参加但很快就退出了,这里就不逐个列出。清华大学除了带队的周强外,还有两个硕士生(负责汉语的词语切分和词性标注模块和定名实体的翻译模块)。这时候周强照旧是清华大学的博士后了。
自后,在规划所我又有了几个学生,也有一些职工参加了我这个组的一些责任。到2003年我离开软件室为止,络续在我这个组责任过的东谈主包括我我方的学生王长胜(他是中科院研究生院的学生,找到我作念他的导师)、李继峰、邹纲、邓丹,程学旗的学生张华平、白硕的学生张浩和李丙辰(自后笔据他的个东谈主兴味转成了徐志伟副长处的学生),客座职工张奕滔、张彤,客座研究生俞宏魁,职工周立新,另外职工黄雄和梁焰也极少参与这个技俩的一些责任。
在软件室这几年(2000-2003),履行上也便是我在北大在职攻读博士学位(1999-2004)的主要时辰。刚初始,关于机器翻译奈何作念,我的念念路履行上并不很澄莹,但我对机器翻译的信念却一直不减,在跟室主任程学旗的屡次讲话中我都跟他抒发了我这种信念。我也要感谢软件室其时并莫得给我安排其他工程性的技俩责任,让我有元气心灵在机器翻译的各个方面作念了许多的探索,固然其时这种探索并不很奏凯。
我在规划所的责任并莫得局限于只作念多引擎纪律和系统集成,而是跟小组的其它成员全部,简直尝试了通盘我能预想的多样纪律,试图培植机器翻译系统的性能。固然系统比原先粗浅的基于规定的系统有一定的培植,但总体效果并不显耀。这一段时辰作念的许多事情有些不明晰之,但也有许多责任取得了很好的效果,为我今后的责任奠定了关键的基础。底下我差别先容这些责任。
● 双语辞书
早期基于规定的机器翻译系长入个要紧过错便是辞书领域太小。于是咱们就从网上蚁集了数十部多样花样的电子辞书,参预东谈主力进行数据整理和归一化,得到了一部很是领域的电子辞书(含简短42万词条)。这部单干作李丙辰开了一个头,自后由于个东谈主兴味原因,他很快就转到了徐志伟长处的网格组去了。不外这部单干作咱们一直延续下来了,并把这部辞书以数据库花样放在了网上供全球免费查询,居然相配受接待。在莫得对这部辞书作念任何宣传的情况下,当今每天的看望量都在1000次以上,许多东谈主还频繁给我发信跟我探讨这部辞书的一些问题。咱们当今照旧把这部辞书扩张到了数百万词条(莫得放到网上),不外由于咱们自后参加的机器翻译评测主如若参加受限语料的评测,这部辞书并莫得径直用上。不外我想这是一个相配珍贵的资源,总有弘扬作用的时候。
● 双语语料库
早期咱们的基于规定的系统是十足不使用语料库的。自从我决定不再领受东谈主工调试规定的纪律以后,从语料库中学习翻译常识是势必的路线。固然具体领受哪一种政策还不解了,然而语料库老是不可吞吐的。固然按照单干这一块责任由北大来作念,但我想语料库老是多多益善的,是以我在规划所也组织课题组成员蚁集了一批语料库,这项责任其时由梁焰等东谈主负责,悉数蚁集了简短18万句对。自后,我到数字化室以后,这些语料库用在了咱们承担的一个973技俩的子课题中,现时照旧可以通过ChineseLDC进行转让,也可以在咱们课题组的网站上在线查询。咱们自后的机器翻译和词语对皆等责任都使用了这个语料库。自后咱们组织的863评测,也把这个语料库动作检修数据的一部分。但咱们参加NIST评测并莫得使用这个语料库,因为咱们参加的是纵脱检修语料库的技俩,只可使用NIST指定的语料库。
● 参加NIST评测
2002年,我了解到好意思国NIST要进行一次机器翻译评测,测试的语言主如若汉语到英语和阿拉伯语到英语的翻译。由于我一直在作念汉英机器翻译,而且在1999年的863评测中也取得了可以的成绩。汉语又是咱们的母语,应该说咱们如故有一定上风的,是以我积极参预了汉英机器翻译评测。由于时辰遑急,我无法对原有的花样作念大的改进,只是把咱们蚁集的一部大领域汉英辞书加入了系统中。但结果却让我大失所望。由于我使用的是规定纪律,十足莫得使用评测提供的任何语料和器具,而是使用了我方的辞书,是以我参加的是不受限语料的技俩。结果在不受限语料技俩的四个参评系统中,咱们的结果排在临了又名,即使加上受限语料技俩的六个参评系统,咱们也只可排在倒数第二。这个结果让我相配怨恨,但反过来,也让我看领悟了,与传统的规定纪律比拟,统计机器翻译纪律的上风照旧相配昭着,机器翻译的研究转向统计纪律将是一个不可幸免的趋势。这件事使我最终下定决心转到了统计纪律上来。对我来说,固然参评结果很差是一件赖事,但从另一个方面说,这件事让我认清了今后责任的场所,让我看到了机器翻译研究的但愿所在,对我来说终究是自制多于坏处。
● 汉文天然语言处理开放平台
从事天然语言处理和机器翻译研究这样多年,我有一个很深的感触,便是这个领域门槛较高。从事这个领域的研究,如果莫得一定的基础和蕴蓄,莫得一个合适的研究环境,是很难初学的。固然许多研究者对汉文的处理都相配感兴味,但苦于吞吐基础,不得其门而入。因此,我一直很想为这些东谈主作念一些事情,以便裁减这个研究领域的门槛,让更多的研究者能够便捷地进入这个领域,从事这方面的研究责任。恰逢其时往来了许多开放源代码领路的府上,于是我就萌生了一个想法,便是鉴戒开放源代码的花样,作念一个公益性的网站,专门提供免费的汉文天然语言处理方面的府上,不单是有源代码,还可以有辞书、语料库、论文、府上等等。在不侵扰别东谈主常识产权的情况下,用户可以上载我方手里的资源,也可以下载别东谈主的资源。我想这一定会受到全球平庸的接待的,对咱们我方的学生上手进行研究责任也长短常故意的。说干就干,我很快把我的想法写成了有规划,跟软件室负责东谈主程学旗和白硕磋议并得到初步招供后,咱们很快就苦求了域名(nlp.org.cn),完成了设计,编写了磋商文档(包括咱们我方界说的开放资源授权契约),并请张奕滔初始达成这个系统。2002年8月,在北京大学召开了第一次学生规划语言学研讨会,其时我动作在职博士生担任会议的花样委员会主席,在一篇论文中我先容了这个想法,引起了许多东谈主的细心。不久后咱们的网站淡雅定名为“汉文天然语言处理开放平台”(以下简称开放平台),就淡雅运行了。动作启动的第一批资源,咱们把咱们刚开采奏凯并赢得973评测第又名的汉语分词系统ICTCLAS(背面还会有先容)动作开放源代码的资源放了上去,不久咱们又整理了一批语料库、辞书、开源的器具,自后詹卫东博士也孝顺了他读博士时期蚁集的一多数府上,咱们的网站就红红火火地开张了。我其时给科学时报写了一篇稿子,他们很快领受并报谈了,结果这篇稿子很快被许多报纸转载,产生了很大的影响。当今这个网站每寰宇载的资源数量简短为200-500份,注册用户超越8000东谈主。动作一个专科的学术网站,这无疑是很特等的。咱们其时但愿,在google等搜索引擎上输入“天然语言处理”六个字,咱们的网站能很快就能找到。结果这个规划很快就达到了。当今,在职何一个主流的搜索引擎上输入这几个字,咱们的网站都紧紧占据了第一位。
● 汉语词法分析
汉语词法分析,包括汉语的切词、未界说词识别和词性标注,是许多汉语天然语言处理责任的基础。从1980年代起,列国粹者,尤其是中国粹者在这方面参预的巨额的元气心灵。因为无论在哪方面研究,比如机器翻译、信息检索、文分内类、自动文摘等等,来源要作念的都是切词。由于莫得公开好用的切词器具,通盘从事汉文天然语言处理研究的学者来源都要开采一个切词系统,这就导致这方面的研究论文层见错出。但如果仔细分析,会发现其中大部分的责任都是在低水平上近似。固然有一些汉语切词系统照旧达到很是高的质地(如北语的系统和北大的系统),但由于普通研究东谈主员无法得到这样的系统,因此关于绝大部分研究东谈主员来说,吞吐好的分词系统依然是一个相配严重的问题。由于分词并不是一个很粗浅的问题,尤其是词语切不合义问题和未界说词识别问题频频纠缠在全部,这就导致汉语的切词变得比较麻烦,单纯依靠规定纪律很难得到很好的结果。而其时领受统计纪律进行切词研究的还不太多,尤其是将切词、未界说词识别和词性标注等问题联结起来的研究还相配特等。这也导致许多原来但愿从事其他汉文处理研究的学者不得不堕入了切词问题的研究之中,而消弱了对其本来研究问题的关注。我我方在原来的机器翻译系统中,也开采了一个贞洁基于规定的汉语词法分析系统。由于吞吐鼓胀的调试,分词效果天然很不睬想,因此开采一个好的分词系统亦然一个山水相连的问题。刚好这时候我看了许多天然语言处理中统计纪律的著述,我发现,隐马尔科夫模子是一种很是巨大的器具,应该可以惩处汉语词法分析中的多样问题,包括切词、未界说词识别和词性标注。于是在2001年下半年,我初始让张华平开展这方面的研究。张华平是个相配颖悟也相配发愤的学生,固然他原来并莫得任何天然语言处理责任的基础,但他很快就动手作念了起来。刚初始他还不太能意会我的遐想,就收敛地跟我来磋议,在这种磋议中他冉冉意会了我的遐想,而且在一些细节上对我原先的遐想也进行了进一步的改进和完善。咱们领受北京大学规划语言学研究所开采的东谈主民日报语料库动作检修和测试语料,实验结果令咱们相配安逸。2002年7月,咱们参加了973技俩组授权姚天顺诚笃组织的汉语词法分析评测,咱们的系统ICTCLAS在参加评测的三个系统中,以微弱的上风最初第二名的系统赢得第一,这让咱们相配情愿。
固然咱们的词法分析花样效果相配好,但说真话我并莫得把这件事看得很重。毕竟词法分析只是机器翻译的第一步,而且长短常小的一步。我忽然有了一个想法,便是把这个系统以开放源代码的花样公开出来,一方面,可以让通盘为汉语切词而烦懑的东谈主开脱出来,不要再纠缠在汉语切词问题上,而可以关注他们应该关注的研究问题。另一方面,可以为实在从事汉语分词研究的东谈主竖立一个标杆,不要再作念低水平近似的责任,至少跟咱们这个系统比拟水平要有所培植才挑升念念吧。这个想法得到批准后,咱们很快把咱们的系统源代码放到了刚开张的“开放平台”上。恰巧这时规划所组织向社会公开了一批开放源代码的器具,咱们就把咱们这套汉语词法分析系统ICTCLAS和另一个汉语句法分析系统ICTPROP加入了此次活动,通过规划所网站也向社会公开。在2002年底,咱们了解到国际上刚刚成立的汉语处理兴味小组Sighan要举办第一届汉语切词评测比赛,咱们也积极参加了此次评测比赛,评测时辰是在2003年4月,结果咱们在关联汉语简体翰墨切分的四个评测技俩中,得到了两个第又名和一个第二名。这使得咱们的研究责任在国际上引起了更多的关注。到现时为止,ICTCLAS照旧成为最有影响的汉语切词器具,在规划所网站开源软件网站高下载次数达4500屡次,在“开放平台”上的下载次数也应该有数千次,加上用户其他路线的传播,咱们推测ICTCLAS的用户数量应该会有1万以上。在Google等著名搜索引擎上搜索ICTCLAS,可以查询到的网页都在6000篇以上。东北大学的博士生张乐把这个系统移植到了Linux上,并把移植的结果上载到了“开放平台”。在“共创软件定约”上也出现了一个ICTCLAS FOR JAVA的技俩。另外,网上还有巨额的著述磋议ICTCLAS的Bug,求解其中的问题。由于咱们莫得提供英文的文档,也莫得在英文网站上发布这个软件,国际用这个软件的东谈主还不像国内这样多。不外如故有许多中国研究东谈主员把ICTCLAS用在了他们在国际研究机构的研究着力中。在Google Scholar上查询ICTCLAS可以查到90篇文件,其中就包括了许多国际的文件。由于咱们一直很忙,ICTCLAS的1.0版推出后,咱们就一直莫得进行升级,其中的一些Bug咱们也莫得来得及打上补丁。不外咱们当今照旧初始入辖下手作念这件事情,信赖不久就会有2.0版块出来。另外,咱们在课题组的网站上也提供了ICTCLAS的在线测试版块,供全球随时测试。
● 汉语句法分析
在进行汉语词法分析的同期,咱们组另一个硕士生张浩也在进行汉语句法分析的研究。我原来在机器翻译中开采了一个基于规定的汉语句法分析器,我很但愿张浩能开展统计句法分析的研究。张浩的导师白硕研究员关于汉语句法分析提倡了一种叫作念脚色反演的算法,因此也甘愿张浩进行这方面研究。张浩在查阅关联府上的基础上,提倡了一种基于结构高下文特征的汉语句法分析算法,其中也达成了白硕提倡的脚色反演纪律。这种算法比单纯的概率高下文无关语法的句法分析性能有所培植。这种作念法不同于其时性能最佳的词汇化概率高下文无关语法比拟。与词汇化概率高下文无关语法比拟,性能略低,但复杂度也较低。这个句法分析器固然莫得达到其时国际上照旧发表的最佳水平(在相似的检修和测试数据上比较),但比我原来的基于规定的句法分析器照旧有了大大的培植。咱们自后把这个软件的核默算法部分也以开放源代码花样在“开放平台”和规划所网站的免费资源栏目同期公开了。在规划所网站上的下载次数相似达到了4000屡次。自后张浩毕业后去了好意思国Rochester大学读博士,如故从事与天然语言处理磋商的研究责任。咱们到数字化室以后,咱们课题组另外两名硕博连读生熊德意和米海涛自后连续在汉语句法分析领域开展了许多研究责任,现时咱们的系统性能照旧超越了国际上照旧报谈的最佳水平,而且这个句法分析器照旧用在了咱们的统计机器翻译研究中,弘扬了很大的作用。这个系统也在咱们课题组的网站上提供在线测试。
这段时辰与句法分析磋商的另一个责任是李素建在她的博士论文责任中开展了汉语组块分析的研究,不外这项研究并莫得酿成可使用的软件器具。
● 基于知网的词语相似度规划
基于知网的词语相似度规划研究是我的一项不测成绩。2002年5月要在台湾召开第一届汉语词汇语义学研讨会,其时我的导师俞士汶教会动作国内召集东谈主向全球搜集论文选录。我其时反应俞诚笃的敕令,也投了一篇选录,题目便是“基于知网的语义相似度规划”。其时我并莫得作念这项研究,只是有了一个拖拉的想法。因为词语相似度规划是许多场面都需要用到的一项手艺,包括基于实例的机器翻译也需要用到。而知网是一个内容丰富的语义常识库,但由于知网的结构比较复杂,将知网应用于履行的天然语言处理研究中的实例还未几见。因此我就有了这样一个想法,但其时并莫得达成。加上此次会议为部分大陆的优秀论文提供了去台湾开会的资助,这对我亦然很有引诱力的,是以我就提交了一份论文选录,但也莫得抱多大但愿。没预想论文被委派了,而且还得到了资助。我只好花了一些时辰把这篇选录扩张成了齐全的论文,为了用实验阐述我这个算法的效果,我还开采了一个软件来达成这种算法。自后这篇论文又被保举到台湾出书的Computational Linguistics and Chinese Language Processing杂志上发表(2005年8月),我也把我开采的软件的可扩张花样在网上公开了。让我不测的是,这篇论文居然引来了巨额的关注,当今在Google Scholar上查这篇著述照旧有39篇援用,是我的通盘论文中援用率最高的一篇。知网的发明东谈主董振东也相配赏玩这篇论文的责任,自后他在推出知网新版块的时候,也提供了一个词语相似度规划器具,这个器具便是笔据我这篇论文的念念想编写的。这真的无心插柳柳成荫的一个最佳注解。我以后也莫得再进行这方面的研究责任。此次会议的另一个成绩便是让我有契机踏上了故国宝岛台湾,除了在台北开会几天除外,咱们还到台东的花莲太鲁阁一带旅游,饱览了台湾好意思景,让我于今难忘。
● 近似串识别和新词检测
汉语切词中,未界说词识别是一个最麻烦的问题。关于常见的东谈主名、地名、机构名等定名实体,咱们领受隐马尔科夫模子,照旧能够较好地惩处问题。但还有许多新词仍然无法识别。但咱们可以细心到,新词频频在一篇著述中是反复出现的,行使这个特质,也许可以在一定程度上匡助进行新词语识别。另外,著述中的近似串其实不单是是词语,广阔还可以是一些挑升念念的短语,这关于句法分析等其他责任也都长短常挑升念念的。基于这个想法,我初始在课题组内开展这方面的研究责任。客座职工张彤和硕士生邹纲络续开展了这方面的研究责任,实验取得了很好的效果。自后我转到数字化室以后,以此为题和富士通研究开采中心开展了两期的相助研究责任,这两个技俩差别由硕士生邹纲和崔世起承担,主要责任是把新词识别的研究扩展到了Internet上,从Internet上采集的巨额网页并从中索求新词,实验相配奏凯。在我的建议下,崔世起还把这项责任扩张到了汉语缩略语的识别和归附,也取得了奏凯。富士通公司对这个技俩很安逸,邹纲毕业后就进入了富士通公司责任,而且如故进行这方面的研究。现时咱们照旧住手了这项研究,磋商责任作念成了一个网页,放到网上,每天自动从网上采集网页进行分析,自动酿成每月的新词报表公布在网上。我频频还能得到关联这方面研究责任的一些反馈。
这段时辰,咱们还在规划机缓助翻译、基于实例的机器翻译、多引擎机器翻译、汉蒙机器翻译方面作念了一些责任,这里就不逐个先容了。
除了上头的责任之外,我在软件室的时候,还有一小段时辰参加了高文诚笃牵头的合股国UNL技俩(履行上亦然一个多国语言机器翻译技俩),其时高文诚笃让我和史晓东负责。我作念了一段时辰,以为这个技俩自己设计相配恶运,就退出了。史晓东不久也去了厦门大学。
2003年中旬,我淡雅从软件室转到李锦涛诚笃教唆的数字化室责任。主要的原因是数字化室钱跃良诚笃和林守勋诚笃这时候承担了863大领域语言资源开采和863评测课题以及北京市奥运技俩中的类似课题,由于我在天然语言处理领域永劫辰的蕴蓄,他们很但愿我能参与这些技俩的责任,而且也撑持我连续从事机器翻译的研究。而我在软件室的责任由于历久定位不是很明确,而且我也短期内也很难苦求到大的课题,因此我的责任处于了一种比较无语的地位,软件室也不太撑持我连续在机器翻译方面开展研究。因此我下决心离开软件室来到了数字化室。
软件室的一些事情·跟李长处第二次往来
我在软件室悉数呆了三年多时辰。在这段时辰,我跟李长处唯独过一次往来,这亦然我跟李长处的第二次径直往来。其实,进入软件室后,固然我很永劫辰一直莫得单独见过李长处,但我能嗅觉到,所里对我进行的机器翻译研究还长短常护理的。樊长处屡次先容不同的东谈主到我这儿参不雅我的系统,并给我先容一些相助契机。可惜我那时候的系统离实用还差得很远,一直也都莫得专揽住契机。
2001年口试硕士研究生的时候,我被见告跟李长处全部口试研究生。我那时候刚初始招研究生不久,报考我的研究生东谈主数还相配少,而报李长处研究生的东谈主数却相配多。咱们碰面后简直莫得褒贬其他话题,径直初始就口试的问题调换了一下,立时就初始口试了。口试了一个下昼,李长处细目了他要的学生,我对报考我的阿谁学生不太安逸,也在报考李长处的学生中挑选了两个学生,这两个学生便是刘洋和熊德意,是我到现时为止带过的最出色的两个学生,在咱们当今的统计机器翻译课题组中,他们两个是最中枢的主干,一些东谈主把他们两个东谈主的名字连起来合称“活蹦乱跳”。由于最近他们两个东谈主在ACL会议上发表了论文,他们的责任照旧在国际统计机器翻译研究领域暂露头角,以至于这个研究领域的圈子里许多东谈主都知谈了“活蹦乱跳”这个名号。
此次见李诚笃,固然咱们莫得磋议任何责任上的事情,但我至少知谈李长处还在关注着我的责任。
在数字化室
研究责任进展和取得的成绩
进入数字化室以后,我的责任进入了一个新鲜的阶段。咱们集结三年组织的863汉文信息处理和智能东谈主机接口评测,以其泰斗性、科学性和平正性引诱了国内巨额的研究机构参加,产生了很大的影响。咱们组织的大领域资源开采,通过咱们和自动化所等单元共同创办的汉文语言资源定约ChineseLDC向国表里提供授权的资源转让责任,现时已袭取到国表里许多研究者的关注,奏凯地实施了巨额的资源转让,为国表里同业提供了一个极好的资源分享平台。愈加让我情愿的是,咱们的机器翻译研究责任全面转向了统计机器翻译纪律况且赢得了奏凯。咱们在本年8月举办的NIST机器翻译评测中取得了很好的成绩,在汉英机器翻译的受限语料技俩(Large Data)评测中,咱们在参评的24个单元中赢得了第5名。咱们在规划语言学领域顶级学术会议ACL上集结两年发表了3篇与统计机器翻译磋商的论文,其中一篇还赢得了Meritorious Asian NLP Paper Award奖项。这些成绩都标记着咱们的研究责任照旧跨入了国际先进水平的行列。这些都是近几年的事情了,全球还都明日黄花,细节我在这里就不翔实先容了。
赢得博士学位
2004年5月,经过在北大5年的在职学习,我终于通过了博士学位论文答辩,赢得了博士学位。我的博士论文题目是“汉英机器翻译些许要道手艺研究”,在论文中我把我近几年的责任作念了一个比较齐全的总结。我的论文赢得了博士答辩委员会的一致好评,担任答辩委员会主席的是高庆狮院士。
跟李长处的第三第四次往来
自从前次跟李长处全部口试学生后,我很永劫辰都莫得再跟李长处径直交流过。即使在我在行将离开软件室那段相配麻烦的时期,我也不好酷好去找李长处谈我的责任问题,主要原因可能是因为我的机器翻译责任一直不见起色,我不好酷好再去艰难李长处。到数字化室以后,我一直想找契机给李长处陈说一下近期的一些责任,但也一直莫得下决心,就徜徉了下来。到2005年,我到数字化室差未几有两年了,我的责任在同业中引起了许多细心,李长处可能在一些场面听说了我的一些责任,于是让所里职能部门在我的同业中对我的责任进行了一些观察,可能反响还可以(这些都是我的一些同业告诉我的)。于是,李长处初始在所里的一些会议上对我的责任进行了表扬,大致的酷好是我在所里一直没世无闻,在莫得得到所里许多撑持的情况下,作念出了比较好的成绩。长处是在所内一些小范围的场面说这些话的,我我方都不在场,而是别东谈主跟我转述的。这时我也以为应该向长处陈说一下我的责任了,于是就跟长处约了一个时辰面谈。这是我跟长处的第三次径直往来。咱们谈的时辰也不长,长处径直跟我了解了我现时所进行的统计机器翻译研究的情况,我向他进行了粗浅的陈说。长处向我磋议了其中一些细节,然后建议我除了要追踪国际上起初进的作念法除外,不要一味师法,一定要细心有本质性的革命(大致酷好是这样,原话我记不准确了),这样才能实在走到别东谈主前边去。以后我又找长处谈过一次,主要如故磋议责任上的一些事情。
这以后我的责任初始在所内得到许多的嗜好,我被评上了研究员职称和博士生导师,并担任了新成立的多语言交互手艺评测实验室的副主任。
跟李长处这几次往来,我嗅觉李长处固然是中国规划机界举足轻重的东谈主物,又是院士,其实他是个非常实在的东谈主。咱们的讲话都很短,简直莫得谎话,都是直入主题,事情一谈完立时就收尾,他又要去处理底下的事情。他也从来不摆什么架子,都是用一种对等的姿态跟我交流。讲话也相配阻碍实效,每次谈到的事情都能落到实处,每次跟他交流,对我的责任都有实实在在的匡助。
结语
我在规划所的阅历应该还算是比较丰富的。动作一个普通的研究东谈主员,我在规划所的三个不同部门都呆过比较长的时辰,我还在北大规划语言学研究通盘过在职攻读博士学位的阅历,这些不同的阅历让我学到了许多东西。在规划所二室机器翻译课题组的阅历,将我引入了天然语言处理和机器翻译研究的大门,细目了我今后的研究场所。软件室的研究阅历,也对我也有很大的影响。我第一次了解到如斯重大的研究场所和那么多活跃的研究念念想,使我大长见识。软件室工程化的技俩料理纪律,也使我学到了许多技俩料理方面的手段。北京大学规划语言学研究所与规划所十足是另外一种料理格调,那里每个东谈主都有充分的开脱,俞诚笃的料理花样是无形的,但亦然很是灵验的。另外,在北大我也眼力了许多非规划机领域出生的后生才俊,与他们的往来让我获益匪浅。而我自后所在的数字化研究室又是另外一种料理格调,这些都是我一世受用不尽的钞票。
我在规划所这十几年,得到了许多“贵东谈主”的匡助,对此我怀着深深的感德之情。
从我到二室读研究生,到新规划所成立,二室闭幕为止,张祥诚笃一直是二室的主任。张诚笃对我的责任和生存一直相配护理,对我相持机器翻译研究这件事,他尽他的才能给我了最大的匡助,非常是早期莫得任何资助的情况下,如果莫得他的撑持和匡助,我是不可能在这条路上走下来的。对此我一直怀有深深的谢意。
俞士汶诚笃是我的博士导师,从我硕士毕业初始决定开展机器翻译研究初始,我就一直跟俞诚笃保持密切的相助关系,一直到我2004年博士毕业为止。俞诚笃在做事上给了我极大的匡助,非常是我在北大攻读博士学位这几年,除了在学习和责任中匡助我除外,俞诚笃还频繁给我一些契机,让我出席一些关键的学术场面,使我在这个学术圈子里初始有了一定的影响。另外,俞诚笃对东谈主的脸色、对责任的一点不苟、对名利的淡泊,都让我相配敬佩,也对我我方为东谈主就业的花样产生了关键影响。对俞诚笃的谢意之情,我将长期难忘在心。
白硕和程学旗是我在软件室时期的两任室主任。我在软件室责任时期,是他们给我提供了一个平安的责任环境。固然我的研究责任一直莫得很好地溶入软件室的主流研究场所,但他们对我的研究责任一直都相配优容,而且也在东谈主力和经费方面给我了许多的匡助。我近几年来取得的成绩,其实很是大一部分基础都是在软件室责任的这几年打下的。对他们的匡助我也要示意真心的感谢。
我非常要感谢李锦涛诚笃、钱跃良诚笃和林守勋诚笃。他们是我在数字化室时期的几位主要教唆。我这几年作念出的主要成绩,都是在他们的径直教唆下取得的。他们给我了最大的空间,使我多年以来酿成的蕴蓄得到了充分的弘扬。这里的责任氛围非常好,全球相处得相配融洽。在这里,咱们组成了一个相配好的责任团队,全球各司其责,相互匡助,上风互补,让东谈主嗅觉相配兴盛。我但愿这种精深的责任氛围能在今后一直保持下去。
天然我最应该感谢的如故李国杰长处。他的几次匡助,对我的责任都起到了决定性的作用。对李长处的恩光渥泽,我的谢意之情是难以用言语抒发的。
我在规划所这十几年,亲眼目击规划所阅历了一个由苍老练复苏到再行后光的经由。我我方的阅历也跟规划所一样,跌宕滚动。我真心预祝规划所能够在新的时期再创后光,而咱们这些规划所东谈主也能够与规划所一谈,在东谈主生的谈路上取得更大的成立。
跋文
本来这篇稿子没贪图写这样多,不外下起笔来才发现可以写的事情实在不少。有些事情隔的时辰长了,都将近遗忘了,恰巧趁这个契机回忆整理一下,亦然很可以的。我这个东谈主记性向来不好,丢东西、不认东谈主、健忘东谈主的名字是常有的事。这篇稿子成稿仓促,内部触及的东谈主和事情,固然我都尽量经过核实,但仍不免有装假,有些关键的事情也许有遗漏。如有遗漏和瑕玷,包袱十足由我我方承担,也但愿读者月旦指正。
祈威、于天波、钱跃良诚笃、王斌、俞士汶诚笃、詹卫东、常宝宝在本文写稿经由中给我提供了许多的匡助,他们帮我指出了文中一些不太准确以致失实的地方。钱诚笃对我在著述中的一些表述提倡了中肯的建议。詹卫东对我的著述结构提倡了很好的修改建议。在此一并示意感谢。