阿里云语音识别技术为马云配备了一个机器速记员
10月13日上午,一年一度的阿里云栖大会在杭州云栖小镇召开。在开场的杭州市政府、浙江省政府各级官员致辞之后,阿里巴巴集团董事局主席马云按照惯例发表了一通关于“DT 时代的创业创新”的主题演讲,但这次最特别的地方在于,阿里云的同学用阿里自己研发的语音识别技术为马云配备了一个机器速记员,在大会现场的两块大频幕上以字幕的形式同步发出。
根据观察,这个“云速记”对马云杭州腔的普通话,翻译的准确率至少已经在95%以上,而且在不断自动纠错,如果没有人工干预校准的话,这已经是一个相当优秀的成绩。据相关人士介绍,这个智能语音识别系统不久前已经应用于浙江高级人民法院的庭审。
但仍然产生了一些误差,我们总结了一些实时语音识别中产生的主要问题如下:
1)马云说的“nationally”被翻译成了“男生弄乱”。马云是英语老师出身,被誉为最具有国际视野的中国企业家之一,尤其是在他那个年龄的中国人中,他的发音是相当不错的。机器仍然没有根据语义语境识别出夹杂在中文中的英文单词。有趣的是,当字幕翻译与讲话原意发生这种误差的时候,会场的哄笑让马云意识到了什么,看着字母无声地笑着停顿了五秒钟。
2)马云提到此前浙江省长车俊时说的“刚才车省长讲”,被翻译成了“钢材车身钢架”。这个错误说明,遇到一些特定语境中的专有名词组合,比如一个姓与职务的结合,机器识别起来很困难,甚至会影响上下文语境中其它语义。这是中文这类表意文字的局限所在,各大科技公司的语音识别产品在面对表意文字时的表现普遍差于表音文字。
3)马云说“B2C 向 C2B”转化的时候,机器只能识别出“B2C”,但错把 C2B 翻译成了“示意图 B”。这是涉及到一个专有名词库丰富程度的问题。包括后面,云速记还能识别出 AlphaGo 等名词,也可能是因为这个单词已经在此之前就加入到了专有名词库里。
4)王坚博士说数字“几十亿”的时候,字幕翻译成了“几1000000000”。凡是涉及到数字的情况,云速记一律选择用阿拉伯数字呈现,其实会给看字幕的观众带来不小的认知困难。
有意思的是,马云和王坚博士的杭州普通话演讲结束之后,台湾鸿海董事长郭台铭也带着他的台湾腔普通话出场了。为了配合云速记,郭台铭还特意放慢了语速,以便更好地被机器识别。但随后不知出于何种考虑,云栖大会的工作人员撤去了郭台铭的云速记字幕。
对于同步语音识别产生的这些小错误,阿里巴巴集团技术委员会主席王坚博士笑着解释说,机器翻译的错误其实也是一种智能。人类最了不起的就是会有“意外”,现在机器也产生了“意外”。