讯飞听见:科技助力北京冬奥
来源:讯飞听见 编辑:VI菲 2022-02-09 11:19:24 加入收藏
2022年2月4日,“2022北京冬奥会”在国家体育场鸟巢盛情开幕。与往届不同的是,在全球依旧被新冠疫情阴影笼罩之下,本届冬奥会借力智能科技,即使现场鲜有观众,但全世界体育爱好者依然能身临其境感受奥运精彩,尽享赛场激情;而无论是说着英语、法语、西班牙语或阿拉伯语,来自不同国家、在不同文化背景下成长的运动员,没有语言的壁垒,轻松从“赛场上的对手”转换为“赛场下的朋友”。
在这里,为本届冬奥会实现信息沟通无障碍的最佳助力,正是科大讯飞。作为“2022北京冬奥会”官方自动语音转换与翻译独家供应商,科大讯飞投入600多人力、历经1000多个日夜奋战,向全世界奉献了一场信息沟通无障碍的体育盛事。
在冬奥会上,随处可见讯飞“身影”:讯飞听见会议(L1版)助力冬奥背后数字化医疗服务,以远程视频的方式,有效减少疫情传播;讯飞听见智慧屏及会议系统,入驻交通部、志愿者部、服务部等各个部门会议室,大幅度提升了奥组委日常工作中涉外沟通和会议记录的效率;同时,讯飞在冬奥通App、灵犀App的“智能翻译”功能,消弭了“人和人之间、人和组织之间、人和赛事之间”的沟通障碍。而这次北京冬奥会和冬残奥会的顺利举行,更是一次宣言——以体育的力量和精神告诉全世界,大家将“共克时艰,一起奔赴未来”。
程旭
讯飞听见 政企业务线总监
保障冬奥会无障碍交流
在科大讯飞工作15年,目前的讯飞听见团队,我主要负责带领团队谈项目。如果在这些年做的项目中做个综合度排名,北京冬奥会应该排在首位——无论从规模、国际知名度上,还是对讯飞品牌影响力和产品使用推广上来说。
大概在2019年3月,得到了冬奥会组委会启动自动语音转换与翻译供应商招标的消息,我们第一时间响应,组成了10人团队,包括项目经理调研团队、咨询方案团队、技术总工程师团队,参与到冬奥会供应商的多轮投标中。经过多轮沟通,我们把主线锁定在机器翻译和转写方向上。
2019年,讯飞的语音技术和产品已经在教育、医疗领域深耕,在很多行业得到了广泛应用,业界已经积累了口碑。而在体育领域,此前我们并未涉猎过,算是一个“新手”。但我们相信,冬奥会这种大规模的、世界级别的体育盛事,肯定有大量语音翻译的需求,这是我们的机会,讯飞肯定不能缺席。尽管有点忐忑,但多年来讯飞在语音领域的技术积累,给了我们底气——如果我们都做不好的事情,其他人未必能做好。2019年4月份,我们的10人团队已经进驻冬奥会组委,为冬奥会组委会技术部、外联部、市场部、文化活动部、交通部、秘书行政部等部门服务,在这期间,我们大概提供了200多场会议服务。这也为讯飞接下来迅速为冬奥会做产品技术研发、满足定制化的需求,积累了大量素材和基础。
整个投标过程持续了近半年,2019年9月16日,科大讯飞最终被确定为“北京2022冬奥会和冬残奥会自动语音转换与翻译独家供应商”。消息传来,我正在海外出差,当时讯飞正在为新西兰、金砖五国提供语音方面的服务。身在南半球的我非常激动,悬而未定的心终于落地。比起其他项目,我更清楚冬奥会项目对于讯飞的意义,这不仅是科大讯飞在体育领域“零的突破”,同时,经历了如此大型的国际赛事,讯飞的综合实力、竞争力和国际影响力都会有极大提升。
张伟
传媒业务市场经理、冬奥项目执行负责人
三年中的无数次挑战
执行冬奥会项目对我个人来说,是个人职业生涯中极为重要的成长历程。
作为冬奥会项目经理,从2019年项目成立最初到交付,历时三年。面对这么大的项目,最初我很兴奋,也会有些忐忑,执行期间也会感到彷徨和紧张——每个环节中人员、业务需求都有变化,每次变化,对于项目管理来说都是一个挑战。经过三年的历练,现在我心理素质也被锻炼到遇事不慌、心态稳定,能迅速解决问题。
北京冬奥会项目,不仅是我工作之后接手的最大一个项目,也是讯飞听见目前做过的最大一个项目。接手北京冬奥会,是科大讯飞集团投入人力最多,工作周期最长、场景应用最复杂、突发情况最多的一个任务。作为项目经理,我的工作包括:项目初期带团队进行需求调研、做方案策划、制定章程、安排工作计划以及做好分工并明确各个环节的负责人;同时,在项目执行过程中,协调资源,控制进度,制定里程碑计划,并做好监控里程碑。当发现项目风险点时,要立即启动响应、实施调整。
我的角色定位对于整个冬奥会项目来说,就是一个沟通桥梁。像冬奥会体量这么大的项目,沟通是非常重要的一块,它关系到工作效率的高低,也是决定因素之一。我的工作包括对内在讯飞听见业务线、集团之间进行资源匹配和对接。对外则需要与冬奥会组委会建立良好的沟通机制,让讯飞团队快速融入到冬奥组委各个部门及各项业务之中。而核心目标,就是保障项目沟通顺畅、按照既定的时间节点有序、高品质的推进。
同时,做项目肯定有风险,一些突发的、未预见的事件总会出现,项目越大出现风险的概率越大。我们前期和冬奥组委会技术部联系比较多,后期发现的风险点,就是这次冬奥会项目进行过程中,来自2020年初的新冠疫情。疫情突发,冬奥场地的的防控级别很高,我们之前驻场的团队也面临着不能正常出入场地,设备进入也受到疫情影响,严格管控,这就导致整个事件战线拉长,作业周期被打乱。
之前,我们的技术方案、底层架构、软件配置以及工作节奏都是按照线下交流为主、线上为辅的目标进行设计的。因为疫情的到来,节奏被改变,包括很多活动和工作都转移到线上,变成了以线上为主、线下为辅,也造成了我们对同一时段高频次要求的预估不足,原定方案要推倒重来——原来部署的服务器不够用,需要大量增加服务器;已经部署的软件需要调整、场馆内适用的产品要重新配置;工作人员的工作节奏、机器设备进场的时间都要重新调配……和之前我们做过的深交所会议系统、新华社技术局以及北京通州副中心的私有云会议系统这些项目相比较,在为冬奥会项目做解决方案时,我们做了很多变通和优化。我记得当时在首钢园区做会议系统,发现园区里的会议室形态各异,各个办公室和会议室的规格是不一样的,有些可能是在两层之间的夹层,有些是夹间。本来我们的会议系统是标配,符合标准就可以安装。需要上墙的大屏因为墙体是泡沫墙,根本打不了孔,没法固定,我们就只能给它找架子做支撑……项目的整体执行,需要各个环节踏准时间节点,才能保障最后的成功交付。
为了冬奥会项目,科大讯飞集团投入了600多人的作业团队,还不包括背后做支持的集团研究院。讯飞听见的全线产品都投入到冬奥会和冬残奥会上。现在,冬奥会才刚刚开始,这也是对我们讯飞产品、工作成果的最集中检验时期。包括在张家口场馆为工作人员、志愿者、防疫人员等提供视频会议和转写、翻译服务的L1系统;为首钢园区提供会议服务的听见智能会议系统;便携式翻译机、穿戴式翻译耳机;在对外服务的冬奥通App上增加了集成了8语言的语音模块;除此之外,科大讯飞与中国移动联合推出的翻译APP——灵犀,支持中文与33个语种语音对话翻译、5个语种实时语音翻译,以及资讯信息。
实际上,在冬奥会场上充满了科大讯飞的“身影”,提供的服务无处不在,这也是让我们觉得自豪的地方。更为重要的是,在冬奥会项目实施过程中,科大讯飞也完成了在国家级项目交付过程中的经验积累,为后续类似项目提供了借鉴经验。
艾仕金
运营部区域交付技术工程师
为冬奥会应用插上翅膀
算起来,我应该是最早接触冬奥会组委会的讯飞团队人员。在2018年,我们运营交付部门就带着讯飞产品让奥组委提前开始了体验和测试。当冬奥会项目组启动后,我们也是整个科大讯飞公司最早与冬奥会组委接触的团队。
在冬奥会项目里,我们团队负责的是技术交付环节。很多人理解中的“交付”可能是收尾,但其实有误解——在项目启动之初,我们就要介入、并深入现场接触客户,了解客户需求;项目建设过程中,我们也需要及时跟进、针对客户需求调整产品设置;交付的工作内容还包括系统之间的对接、故障处理、工作人员产品使用培训,以及后期运营维护等相关的工作内容。公司对冬奥会项目特别重视,支持冬奥会的运营交付团队有8人,在现场驻扎的工程师有5位,其中4位是为冬奥会项目招来的,他们已经在冬奥场地驻扎了快3年。
在前期,驻场工程师要进行设备和系统的对接,首先是组委会对安全要求很高,要求软件版本要达到国际化使用标准,包括软件设备要支持国际协议……前期这类需求密集,要求也比较多。同时,冬奥会组委会大量使用讯飞的语音识别、翻译和会议系统,比如内部的各类评审会议、北京奥组委和世界奥组委之间的交流沟通,等等。这时候我们的工程师驻场,既可以保障设施在使用过程中的顺畅,也可以让工程师在现场收集问题。比如,工程师会收集工作人员的需求,根据他们的工作习惯调整软件设置——按钮的位置是靠上边还是下边一些?接口放在左边还是右边,更符合使用习惯?还会为工作人员增加一些可用调度的模式,做均衡负载,防止使用量过大造成应用死机,导致无法及时备份的情况发生。
我们产品的主要应用,还是在翻译、会议以及音频转文字这一类的场景中。北京冬奥会如此大型的体育赛事,需要同传的翻译量很大,在高强度的工作压力下,同传疲劳导致信息有遗漏,就可以根据讯飞的记录做参考,减少失误;还有一些会议,需要把音频处理成文字,等等。现在,讯飞的产品基本能满足组委会的日常需求,但是在一些特别专业的会议上,产品的作用还是辅助效果,作为参考。
相比其他项目,整个冬奥会的时间周期是比较长的,要求更多而且更高。对我们来说,难度也在提升。投入的产品多、应用场景广泛、场地情况复杂,我们需要处理的情况也就更加复杂、考虑的细节更多,尤其需要工程师技术过硬、对产品熟悉程度更高。这时候,我们团队解决不了的问题,也会第一时间反馈给其他部门同事,及时给出解决方案。
在整个冬奥会项目过程中,交付团队的工程师基本都是秒回的状态,微信、电话24小时在线,遇到问题第一时间反应,解决问题基本在48小时之内。比如去年年底,在java领域被广泛使用的Log4j出现了重大漏洞,这个漏洞一旦被利用,就可以执行任意代码……我们是周三得到了消息,周末就解决问题。包括解决技术漏洞、做好产品调试以及对工作人员进行使用培训。讯飞给冬奥会提供的是“无障碍产品组合”,而我们交付部,就是保障产品使用无障碍的这个中坚力量。
国丽
讯飞听见 会展传媒业务线总监
技术上的飞跃
在和冬奥组委签定战略协议之前,我们就做过一些相应的产品测试,为后来的合作打下了基础。在测试期间,我们了解到了冬奥组委对语音沟通方面的需求——希望来自世界各国的运动员和观众,能够和赛事、工作人员之间的交流、沟通无障碍。而这恰好也是讯飞听见会展传媒业务线主要在做的事情,就是“信息沟通无障碍”。
这个过程中我们发现,冬奥会组委会最关心的还是“这么多语种怎么交流”的问题。奥运会官方语言要求是英语、法语和汉语,但2022北京冬奥会组委会对我们提出了更高的要求,至少达到8大语种(汉语、英语、俄语、法语、德语、西班牙语、日语、韩语)之间的沟通无障碍。
科大讯飞之所以被冬奥会组委会认可,很大一部分原因,还是在于我们语音交流领域的技术实力。目前,我们所有语种(8大语种)转写准确率平均在80%以上,中文准确率达到97.5%,英文准确率在85%以上。在我们为冬奥会进行了专项训练之后,这些语种的平均可用程度达到85%以上,包括转写和翻译两个流程。
相比于转写,机器翻译难度更大,这也是它的门槛值决定的。其中有两个步骤,首先是机器要听懂说的内容,然后再将这些内容翻译成另外一种语言。这时候如果第一步理解错了,就会导致第二步输出的错误,这时候,需要神经网络的算法覆盖面更广,也意味着翻译达到更高的水平,提升的难度非常大。
另外一方面是因为北京冬奥会本身的特殊性。这次冬奥会的使用场景是非常复杂的,不像一般的会议或者演讲,只需要记录一种语言、一个发言人的语音,然后进行识别、转写和翻译。冬奥会这样的国际赛事,通常情况下,都是在多语种、环境复杂情况下进行。而不同赛事,都有各自不同的专业术语,我们需要考虑机器怎样区分角色、怎样自适应语种、怎样在多语种之间形成相应的转化、怎样去现场降噪、怎样保证专业术语不出错……再到提升转写准确率、翻译准确率。
在此之前,我们讯飞优化的引擎里面并没有针对体育这个垂类,这次冬奥会,等于是让机器从零开始学习关于体育类的数据,而冬季体育这个领域还有滑雪、滑冰等多个细分类,这又是难上加难。但凡优化一个语种,工作量都是庞大的,我们要发动引擎端、资源端去进行语料的收集、语料库的建设以及相关语种标注。为了满足这次北京冬奥会8大语种的要求,讯飞投入了大量资源到冬奥会项目中,包括了讯飞研究院等一些公司的核心部门。
在冬奥会这个项目上,无论从人力物力,还有投入时间来说,我们都倾注了巨大精力,整个集团都非常用心在做这件事情。而所有努力的结果,都以产品和使用效果来呈现。针对疫情期间对远程会议的需求加大,我们推出了大屏支持远程会议系统。我们提供的讯飞听见智慧屏、智慧大屏,不仅可以进行实时会议记录,同时可以进行相应的文稿分享。
通过北京冬奥会项目,讯飞获益良多。在技术层面有了重大的突破,现在能够做到从语音流、语音流输出达到同传式的交流,距离我们“语言沟通无障碍”的目标更进了一步;从业务角度来看,与北京冬奥会的这次合作,我们积累了大量的文体向技术资源问题,让讯飞破圈涉足到了文体领域。在这些积累之后,讯飞也有了更多的能力,现在我们考虑能否将这些能力赋能给“2022州亚运会”,延续无障碍的打造。相信经历了冬奥会项目,讯飞发掘了更多可能性,也给了我们更多的施展空间。
苏文畅
讯飞听见 CTO
难度系数最高的一个项目
如果要给冬奥会项目技术难度做一个评级,以10分为最高,我认为它的难度系数达到了9分。
讯飞听见此前合作过的项目,大部分都是标准化产品交付,而这次冬奥会很不一样,我们为北京冬奥会量身定制了融入更多能力的产品,涉及到机器翻译、多语言语音识别技术等多种核心技术,以及多个产品的融合应用。在冬奥会项目中,无论从整体周期、还是合作深度上都超乎以往。冬奥会是一个国际性的赛事,从赛事组织到举办,再到会后传播,涉及到的场景多样性、地域广泛性、以及语言种类丰富性,都是前所未见的。
好在,我们的工程技术人员在项目组成立初期就融入到团队,从冬奥组委第一时间获取信息,了解他们的第一手需求,这一点,对我们理解应用场景与需求很有帮助。经过前期调研,我们发现,冬奥会项目要克服的问题太多了:比如冬奥项目面向多媒体会议办公应用场景中,说话人背景噪声大;发言内容上,专业词汇、缩略词很多,还有很多人名、地名、数字等;同时在会议讨论交流时,风格自由,语法不规范、口语化严重,通用的语音翻译系统也遭遇“滑铁卢”——识别率、翻译准确率急剧下降。
最终,我们将收集到的各类需求归纳为四大技术课题:复杂环境下的语言障碍、信息传播障碍、交流交互障碍,而最终实现人和人、人和组织、人和赛事之间的无障碍交流和沟通。
对于产品技术而言,面临的挑战是前所未有的。我们只能剥茧抽丝,把问题层层展开,一个个解决。首先,解决语音识别问题。我们面临的是处理不同国家和地区的人发音方式的不同;而部分口音重、发音不标准的国家和地区,也需要针对性优化处理;此外,如何快速有效识别冬奥会相关场景的专业名词。为此我们设计了相应的技术方案,并通过不断试用及迭代,逐步完善相应识别效果。其次,在多语种机器翻译方面,我们之前具有几个语种与中文的互译,在通用场景效果达到可用。但是大部分稀缺语种,面向氛围较窄——口语、旅游、新闻,使用频次不高,数据和资源也有限。在冬奥会环境下,更多、更复杂垂直领域内的翻译难点收集困难。我们只有通过数据挖掘、语言专家协同标注,以及专家知识融合等技术,才显著地解决了这类问题。最后,就是冬奥会虚拟志愿者涉及的多语种知识问答,因为之前布局相对不足,涉及的语种不够丰富。这次我们以冬奥会的契机,模态虚拟志愿者为牵引,下功夫增加了很多语种,对于提升讯飞多语种交互,起到很好的作用。
在这个过程中,数据资源欠缺,我们就请奥组委、资源专家、技术专家三方协同构建了大量的冬奥语音库和翻译库;遇到了核心技术上的问题,我们就以大模型、小模型并用的方式解决。大模型适用于普通的、常用的场合,而具有特殊性、个案性的场景,我们会通过这一类的语音、语言数据建立小模型,小模型里又为每一次迭代留有空间,实现冬奥会语音识别、翻译整体效果的提升。
最终,我们通过语言合成、语音识别、机器翻译等核心技术研究与提升,为无障碍沟通提供核心技术能力,支撑了集成60个语种语音合成、69个语种语音识别、168个语种机器翻译和3个语种交互理解的系统产品。而融合了移动互联网、物联网、云计算、AI等技术的讯飞智能录音笔H1、便携式翻译机、穿戴式翻译耳机、讯飞听见智能会议系统、讯飞听见智慧屏、讯飞听见APP、冬奥通APP等多种产品的组合,应用到冬奥会和冬残奥会场馆中,既增添了“2022北京冬奥会和冬残奥会”的科技色彩,也为办成无障碍交流的体育盛事,提供了最重要的通道。
评论comment