商业报道-o

每日财经专访科大讯飞轮值总裁胡郁:5G时代人工智能发展机遇更大

  随着5G时代的到来,人工智能企业如何在这场技术革命中把握先机,不断攻克技术难题,让AI产品更高效?科大讯飞轮值总裁胡郁在出席第二届长三角民企发展大会时接受了《每日经济新闻》记者的采访,并就5G对于影音和图像交互的相关问题作出了解答。

  人工智能并不遥远,其相关应用已经不知不觉中渗透进人们的生活。例如,在本次长三角民企发展大会现场,会实时将演讲嘉宾的讲话语音转换成文字,并在大会主舞台的屏幕上同步显示。这是采用了科大讯飞所提供的智能语音转写系统“讯飞听见”所生产的大会字幕。不过,虽然准确程度颇高,但也不乏一些专业字词错误。

  对此,科大讯飞轮值总裁胡郁接受《每日经济新闻》记者采访时表示,将从识别方言、中英文混读、专业词汇,以及降噪等多个方面进行优化,以期降低错误率。

  降低错误率仍有多个难题要攻克

  智能语音识别作为人工智能的关键组成部分,从软件开发者的角度来说,如何进一步降低语音识别错误率?

  胡郁在回答《每日经济新闻》记者提问时表示,主要还是有几个方面的难题需要攻克,需要研究人员来解决这些问题。一个是口音的问题,有很多人的普通话可能没那么准,存在一些方言夹杂、口齿没有那么清晰的情况。第二个,现场环境是不是足够的安静。因为现场环境有些噪声的话,还需要用一些降噪的方法,才能够不断提高智能语音识别系统的性能。第三个是有一些关于中英文混读的情况,中文和英文混杂的时候,现在处理的还不是特别好,虽然已经比以前要强很多。最后一个,就是一些专业词汇方面,有些词汇只有在特定的场景下,才知道它是什么意思。一些同音词汇是很多的,也有可能会出现一些同音词方面的问题。

  胡郁提到,技术肯定是在不停地进行优化的。他举例称,当天大会现场看到的将语音转换成文字同步到大屏字幕的语音转写系统,相比两三年前,准确度已经提高了很多。现在像这种上屏的字幕准确率在95%以上。如果是几年前,可能只有90%左右的水平。

  除了发力语音识别这一场景下的智能应用之外,胡郁提到,科大讯飞在教育、医疗、政法、智慧城市等多个方面和场景下都有延伸和覆盖。语音识别只是语音技术中的一个很小的点,科大讯飞现在也不仅仅做语音技术,也做人工智能的认知智能,还有很多其他方面。

  人机交互将更多能通过语音实现

  5G转瞬即来,谈到在5G的框架之下,如何搭构新一代的人机交互的语音技术时,胡郁表示,在5G时代有非常多的发展机会。

  胡郁提到,5G的响应速度会非常快,响应速度延时现在也达到了毫秒级。这对于将来的语音、图像的交互,是非常有机会的一个点。另外,5G会带来内容的大爆发,例如高清视频、游戏这些内容的爆发,也会让人工智能在里面应用的机会增多。比如对于内容的处理,对于内容的自动剪辑,或者要给内容增加一些语音的标注,这些方面都会有新的发展机遇。

  对于“万物互联”的构想,从简单的在家庭中的应用来看,胡郁表示,未来万物互联会在家庭里面的很多设备和产品,在它们跟人的交互中间起到一个新的入口的作用。家中的家电、玩具、机器人等彼此间都能够有连接,而且我们和它们,即人和物之间也能建立连接。人和物之间建立连接,原来是通过一些按键、控制面板的方式,用触摸等操作来实现的,将来可能会越来越多地在里面用语音的方式实现,就像我们人和人之间交流一样。胡郁认为这样的连接会越来越普遍而广泛。

  未来,科大讯飞一定能够把握住5G这个机遇,进一步提升AI产品的准确性和高效性,为用户带来更好的使用体验,推动人工智能的全面落地,为行业发展做出更大贡献。