作为元宇宙最坚定的支援者之一,Facebook在上个月宣布改名Meta,此后便新动作不断,先是推出了一个触觉手套,试图让人们在VR世界中也能体验到触觉变化。
触觉之后,Meta又盯上了语言,它要让人们在虚拟世界中也可以无障碍沟通,哪怕双方使用的语言不同,你说英语,我说中文都能互相理解。
就这样XLS-R来了,它是Meta最近发布的一个AI语言处理模型,最高能识别128种语言,目前已经公布了网页体验版。
体验版的功能有一定缺失,仅支援将22种语言翻译为16种语言,我试了下最常见的英译中,一段7秒左右英文语音,XLS-R还是能相对準确地识别,中文翻译和英文识别都基本正确,两者耗时都在1.4秒左右,并不算短。
对比市面上常见语音翻译应用,这个速度和转译表现其实中规中矩,都对口语清晰度有要求,一旦语速稍微快一些,就比较难理解,转译会出错。
XLS-R的潜力体现在多语言通用AI模型上,据Meta该技术基于wac2vec2.0预训练模型,能将语音拆成25毫秒的基本单元来分析,利用上下文转换语音内容,提升识别準确度。
之后Meta又对wac2vec2.0技术进行了多次调整,尝试处理多种语言,转换準确率提升了不少,经过通过436000小时的公开录音训练后,才有如今的XLS-R。
XLS-R仅仅用一种语言模型就可以转换128种语言,和特殊领域使用特殊模型的常见做法不同,极大地提升了通用性。在官方部落格中,Meta表示它们的目标是用单一模型识别全球7000多种语言,从而改进转换算法。
这是一个新的开始,离真正成为Meta所设想的虚拟世界基础组成部分还比较难,这不仅仅和技术有关,装置演算力也是限制。
作为同在在自然语言识别领域拥有大量技术储备的Google,其实比Meta更早在消费级装置上支援多语种翻译功能,Pixel6系列支援live Translate功能,可以在聊天软体中进行翻译,无障碍地与外语朋友交流。
只是live Translate功能支援的语言并不算多,主要还是英语、德语、日语之间的翻译,哪怕Pixel6所使用的Tensor晶片在AI性能方面已经是冠绝全球,达到了骁龙888+的三倍。
只有联网live Translate功能才能做到支援48种语言,而使用云端计算技术的Google翻译也仅支援108种语言,离7000种语言很远。
元宇宙离我们仍然有一段距离,不过XLS-R等技术作为Meta口中虚拟世界的基础建设之一,或许能在其他领域发挥作用,现在它已经发布了XLS-R预训练模型的微调教程,让业内人士可以基于它进行微调以便应用到具体的工作当中。
或许不久之后,我们能看到越来越多的应用支援更多语种的语音转译功能。