专栏观察

语音输入法成大势所趋,百度、讯飞或将靠技术逆袭

ec8a5445b534b0a2fe8cbfac87c092cf.jpg

乌镇互联网大会刚刚落幕,李彦宏的“移动互联网已死”,人工智能将成为下一幕,成为了热门话题。而巧的是,百度于22日启动了语音开放平台三周年发布会,而科大讯飞也于23日举办了语音发布会,推出多款人工智能产品。

从中不难看出,发展人工智能卡位未来,确实已经成为当前业界的公式,而语音技术更是首当其冲。

 

发展语音技术已成共识

科大讯飞与百度你追我赶的态势,其实预示出了语音输入的大趋势,即手机输入法技术与人工智能语音技术的深度结合。

22日百度语音开放平台三周年庆典上,其正式向公众介绍了与百度语音技术联姻的百度手机输入法V7.2版本。该智能语音输入版本不仅具有语言转文字功能、语音调取联系人信息功能,更能结合人工智能自动匹配表情,此外还新增快捷搜索功能。

科大讯飞这边,在今年1018日锤子2016新品发布会上,老罗的一番狂夸加上实战操作,讯飞语音输入法的超高准确率让锤粉们一片惊叹。实际上早在锤子发布会之前,各大手机厂商就已经极为重视输入法技术,并且也已达到了相当高的水平,苹果、三星、华为等手机厂商系统自带输入法都能实现将语音转成文字。

总的来说,发展语音技术已经成为业内共识。

 

语音输入价值凸显,百度科大讯飞技术见长

人工智能时代的到来,硬件设备可以实现计算智能、感知智能,语音技术有了更多用武之地,语音也迅速成为人机交互的新入口,语音输入的价值开始凸显,风口之下,众多技术公司纷纷发力语音技术。

其中,百度作为全球范围内领先的人工智能技术公司,在语音技术方面也颇具实力,此前百度的深度语音技术Deep speech 2被《麻省理工评论》评选为与纳米技术、航天技术、生物技术并列的十大突破性技术之一,而百度也是唯一一家入选的公司,而随着此次百度手机输入法V7.2上线,用户也终于可以亲身体验到智能语音技术,不得不让人充满期待。

科大讯飞这边也不甘示弱,其在2013年推出BN-ivec技术,2016年将注意力模型神经网络应用于认知智能,用卷积神经网络“看”语音,正确率大幅提高。在空间上描述语言概念,计算词语、句子在各个层面上的连接和计算距离,从而进行深层分析,同样有着极为强悍的技术能力。

 

用户体验是关键,百度、科大讯飞从不同角度切入

作为两家语音巨头,两家公司在产品的迭代上保持着高强度的节奏,而这一切正是为了提升语音输入体验, 因为这也是用户选择的关键,二者都在各自发力。

百度输入法V7.2版本有着如下特色功能

1)识别意图,百度语音输入法可以根据用户语义语境,根据海量大数据,为用户匹配出无法识别的相关词汇、句子等等,从识别“语音”到识别“语言”。

2)识别情绪,创造人性化体验,百度语音输入法可以根据用户说话时的语气轻重、内容等识别出用户情绪,自动为用户匹配符合情绪的趣味表情,很好地弥补了因语音输入文字时对语意表达的缺失,更好地还原了语音中所表达的情感。

3)识别搜索意图,完成人工智能助理功能,用户可以在聊天场景中向百度语音说“给我一张愤怒的图片”、“给我一首伤感的音乐”、“告诉我刘德华是谁”,百度输入法就会为用户提供对应的图片、音乐、网页等等,极为高效的解决了用户在实际使用中的需求。

 

科大讯飞在语音输入之外走了另外一条路

1)语音识别精准修改,23号的发布会上,科大讯飞演示了万物互联输入法,在语音输入转化为文字后,可以直接使用语音实现文本的修改和调整,对于修改内容再次输入时已具备纠错和自我学习能力。

2)支持多种方言识别输入,讯飞语音输入法加入客家语、四川话、河南话、东北话等19种方言识别,对于用户降低了使用门槛。

3)语音合成体验,在现场,科大讯飞还演示了语音合成技术,将一段话通过虚拟合成罗永浩的声音进行朗读,十分有趣,而科大讯飞还可以合成跟其他明星、名人的产品。而关于名人语音合成这点,实际上百度地图等软件上也早已有所应用。

 

通过对比后发现,尽管二者在技术能力上不相上下,但是在生态上搭建上百度拥有更大的想象力,百度有着图片、音乐、网页等诸多内容,可以为用户提供更大程度上的便携使用体验,用户仅仅在语音中向百度请求,还可以实现连接一切的语音服务。

 

移动互联网落幕,语音智能将最终无处不在

李彦宏在乌镇互联网大会上表示“移动互联网已经落幕”,而实际上确实如此,大的独角兽机会已经消失,人工智能的下一幕正在开启,未来的智能将无处不在。而在未来万物联网的智能世界中,语音也将变得无处不在,用户可以对一堵墙发号施令给自己家人打电话,也可以对一盏水壶、一盏台灯、一张桌子发号同样的命令,实现电话接通的需求。

而输入法中的智能语音提前揭示了这种人工智能无处不在的状态,将来的用户会越来越感受到语音智能的无孔不入,会越来越习惯在一个小小的语音输入法中通过说话的方式来实现自身的需求。例如给某某打电话(已实现)、打车、点外卖、定电影票等等。事实上,百度在2015年世界大会上推出的人工智能小秘书“度秘”已经做到了这点。依托于“百度大脑”的人工智能,再加上更多的商业生态支撑,以及百度输入法自身拥有30%的市场,上亿的年轻用户都在逐渐习惯于语音输入这一新的手机输入模式,其未来的势能不容小觑。

 

作者微信公众:“首席发言者”

希望看到您的想法,请您发表评论x