除了看见,还要听见。

在所有的人类声音中,会议是价值密度最高的声音信息之一,非常值得被记录和分析。

于是,继通过语音和声纹能力服务了互联网、金融、媒体、运营商的诸多客户之后,近日依图再提一款声音“神器“——依图会议超极本,融合了过去两年在语音识别、自然语言理解、声纹识别三个方向上的底层技术积累,可极大提高会议信息传递效率。


三大语言技能傍身,AI参会“拎得清”

AI参会的基本是什么?

一方面,把话听清楚。通过语音识别技术将与会者的声音按照表述顺序逐字转写出来,同时通过自然语言理解把冗余的口语转化成顺滑的书面语,过滤没有实际含义的“然后”、“嗯”等语气词和结巴表述,规范标点和数字符号。

另一方面,把人分清楚。利用声纹识别技术把谁说的什么话明确区分,若是提前录入与会者的声纹和姓名,在最终输出的文本中还能直接展现说话人名字,避免“胡子连着眉毛”的尴尬状况。
依托先进的语音识别和声纹识别算法,依图会议超极本在转写和说话人识别上都展现出了极高的准确率。

俗话说,外表是灵魂的最外层,顶级算法是实现简洁外观配置的前提。

相对于市场上的同类产品,依图会议超级本选用的硬件在配置更强的情况下更加轻薄,厚度还不到一元硬币的直径。

针对信息安全的问题,依图会议超级本是纯离线转写设备,在端侧算力受限的情况下,准确率不输于云端计算,实现了算法和算力的有效平衡。

用一句话概括就是,以私有化的软硬件解决方案,帮助政府、企业客户安全、高效的完成会议转写、说话人分离、二次编辑和分享。

 

三年耕耘,技术基础成就商业应用

依图超级会议本所应用到的三大算法其实早有技术“渊源”。

2018年12月,依图联合华为、微软发布语音开放平台,算法在全球最大中文普通话数据库AISHELL-2的三个测试子集、Accent近场口音测试集、Chat近场安静聊天测试集测得多项第一。

2019年2月,基于自然语言理解技术的依图人工智能儿科辅助诊断成果,被Nature Medicine收录并发表。

2019年8月,在首届中国人工智能竞赛上,依图在语音关键词识别、声纹识别等10项目比赛中斩获A类。

2019年9月,在国际声纹识别权威竞赛VoxSRC上,依图算法夺得第一,等错误率降到0.0098、大幅领先第二名。

“知道”是一切学习的“步骤零”,完整、准确、高效的信息是声音智能应用开发的基础,顶级算法则是信息沉淀的核心。

对于会说话先于会写字的人类,口语数据是重要的智慧痕迹,也是现代社会组织核心的存量资产。

无论是线上还是线下,依图将持续深入语音场景,“唤醒”沉睡的声音、升级信息价值。

 
 

您可以复制这个链接分享给其他人:https://www./node/845