作者:Jessica Stein Diamond

Chris Callison-Burch首先想知道如何利用计算机将语言翻译为高中新生,同时修补他的第一台计算机并阅读科幻小说。经典如银河系漫游指南特色创意语言情节设备,如“巴贝尔鱼”,当它塞进耳朵时,可以立即理解任何语言。

“开放所有人之间的沟通仍然是我的目标,”Callison-Burch说道,嘲笑他现在几十年雄心壮志的不可能的范围,他有着独特的追求。

Callison-Burch以解决瓶颈和提高计算机化翻译性能的障碍而闻名,他在语言学和机器学习的计算机科学领域工作,使用人工智能自动学习经验。 Callison-Burch是计算机与信息科学副教授,同样致力于降低对计算机科学感兴趣的学生的入学门槛,并研究有益于人类福祉和尊严的课题。

“让我进入计算语言学领域的是,如果你能使这项技术发挥作用,那么社会,经济,文化和理解方面的价值将是巨大的,”他说,并注意到实时翻译对全球安全的价值。 ,商业和灾难恢复。例如,受海地2010年地震影响的许多人在海地克里奥尔语中发出求助请求,但由于很少有第一响应者知道这种语言,急需的援助被推迟,数千人最终死亡。

“我的研究是通过尝试解决尚未进入Google翻译的语言来指导的,”Callison-Burch说。他的研究小组开发了新的节省成本和时间的方法,使用众包和图像翻译语言,分别于2011年和2018年首次发布。这些方法为在Google翻译上生成当前100种语言之外的翻译提供了很大的希望,可能会扩展到更多世界上已知的7,000多种语言。

“克里斯是我们领域的顶级影响者,他们改变了我们为机器翻译研究做事的方式,”约翰霍普金斯大学人类语言技术卓越中心的高级研究科学家Kevin Duh说。 “每当我们需要建立一个新的机器翻译系统时,我们都会遵循他从亚马逊机械土耳其人那里收集数据的程序,通过这个全球市场雇佣工人进行众包劳动。他利用人群的智慧应用于翻译,为我们提供了一种用更少的资源更快地获得更好结果的方法。“

2018年,Callison-Burch的研究小组为一些世界上最难翻译的语言分享了另一种有前途的新翻译方法。他们使用图像(例如,猫)以及大量的众包数据来识别每个图像的链接词,以便为100种语言的10,000个单词创建反向工程词典。 “我们正在建立一种洞察力,即图像在某种程度上是语际上的,无论你说英语还是印尼语,猫的形象都是一样的,所以我们可以使用简化的图像表示来训练模型,”Callison-Burch说。 “这种通过语言表达思考语言的独立于语言的方式允许我们使用新类型的数据来学习翻译。”

尽管谷歌翻译尽可能接近100种语言的最新技术水平,但法语和阿拉伯语以及印度尼西亚语和乌尔都语等语言的质量差别很大。 Callison-Burch的“大规模多语言图像数据集”发表于计算语言学协会会议录(ACL)解决了机器学习翻译技术中的重要空白。先前的方法需要来自专业翻译人员和大量在线文本(例如网站,书籍和报纸)的昂贵数据。这种方法适用于欧盟的24种“高资源”语言,但对于资源较少,翻译预算稀少或不存在以及在线语言文本稀缺的“低资源”语言无效。

Daphne Ippolito,博士生和ACL论文的第一位合着者,描述了图像数据集“作为一个有趣且必要的步骤,使我们能够停止依赖专家进行翻译,并试图从任何人和任何地方收集我们的数据。本文进一步表明,我们的算法倾向于更好地翻译更具体的词,如“房子”或“航行”,而不管他们的词性。

John Hewitt(CIS'18)也是第一位合着者,他说:“我们发布了数据和代码,因为该论文提供了概念验证,即使用可视信息的方法对低资源语言非常有用。它为研究人员提供了第一个数据集,用于大规模探索视觉符号表示的实用性,允许其他人改进我们开发的方法。

Derry Wijaya,在印度尼西亚的玛琅长大,现在是波士顿大学的助理教授,于2016年加入Callison-Burch的团队担任博士后。“我的博士学位。顾问给了我一份名单,他们正在进行开箱即用的研究,这项研究很有趣,令人兴奋,同时对自然语言处理有很大的影响,“Wijaya说。 “克里斯是该名单上的第一名。他告诉我如何进行我的第一次学术生涯谈判和安排。“她很欣赏Callison-Burch如何帮助她发展为学生提供建议和写作助学金的技能,以及他如何指导她和其他早期职业教师提供帮助他们通过一个重要的资助者 - 国防高级研究计划局(DARPA)发展知名度。

“克里斯还帮助我调整了沟通方式。我在爪哇文化中长大,这种文化具有自我克制的概念,“Wijaya说。 “我现在更直接地讨论研究,特别是在给别人反馈时。这有助于我更有信心,这很好。“

考虑到他自己的本科经历如何开始他的职业生涯,Callison-Burch鼓励本科生为他的研究小组做出贡献。 Callison-Burch表示,“对任何想要尝试研究的人开放,都会产生超出我预期的红利。” 2017-2018学年,40名本科生在他的实验室工作,同时有8名研究生和2名博士后。今年秋天,他开始为100名学生组成人工智能课程; 250名学生在等候名单,他计划在未来扩大入学上限。

更广泛的关注也为他的研究提供了信息。为了解决与亚马逊机械土耳其人相关的低工资工人可能遇到“数字血汗工厂”状况的风险,Callison-Burch开发了一个名为Crowd Workers的Chrome插件扩展,以帮助参与者找到收入更高的工作。他的团队有一笔待批准的资助,旨在探索如何帮助生活在美国农村社区的人们通过亚马逊机械土耳其人发展获得生活工资的技能。

在这些广泛的目标中,凯里森 - 伯奇保留了一个谦虚的视角,懊悔地承认,“对于从事翻译工作的人来说,我很尴尬。机器让我击败;它比我更能学习语言。“ 翻译世界语言