语音识别

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
 
亚原子语音识别应用场景:

一.语音转写:
1.电话销售&客服
将坐席通话转成文字,帮助电话质检和信息同步,也为数据挖掘提供原料基础
2.会议&访谈记录
将会议和访谈的音频转换成文字存稿,让后期的信息检索和整理更方便快捷
3.字幕生成
将视频中音频文件进行语音转写,轻松生成与视频相对应的字幕文件
4.语音鉴别
可以从转写出的文字结果中搜索匹配相关词类,对黄暴/涉政内容进行高效鉴别
 
二.语音听写:
社交聊天
使用社交应用聊天时,将用户的语音信息(≤60秒),转成文字信息
语音输入法
使用输入法输入时,将语音信息转成文字信息,提升用户阅读体验
游戏娱乐
将游戏娱乐中的音频文件转成文字消息,大大提升用户体验
人机交互
人机交互时,将双方的语音信息转成文字信息,提升交互体验
 
三.语音唤醒
1.机器人
智能机器人,随时可以检测到用户声音,及时响应人的指令
2.生活语音助手
手机里的语音助手,在锁屏状态下,检测用户声音,及时响应人的指令
3.智能硬件
智能硬件,比如玩具、家电等在休眠或锁屏状态下也能检测到用户声音,进入待指令状态。
 
四:歌曲识别 
1.听歌识曲
突然听到一段动人的音乐旋律或歌曲,迫切想试听享用却不知道是什么歌。这时候可通过歌曲识别技术识别出歌曲信息,进而搜索试听。
2.歌曲搜索
一段动人的音乐旋律或歌曲,却不知道是哪一首歌。只要对着听筒哼唱一小段旋律及歌词就能够找出想要的音乐。
 
五.离线命令识别
智慧驾驶
手握方向盘,哪有精力分神去选择音乐、打电话、看新闻……但有了离线命令词识别,仅仅动动口说出您的命令即可。
智能家庭
手机App和智能电视、智能家居实现互动,只需要集成离线命令词识别能力,便可根据需要语音操控家居、家电。
智能硬件
语音交互为穿戴设备等硬件提供了新的使用方式,离线命令词识别更是让其可以听从指令,还无需网络。
 
系统结构编

一个完整的基于统计的语音识别系统可大致分为三部分:

(1)语音信号预处理与特征提取;
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

(2)声学模型与模式匹配
声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。

(3)语言模型与语言处理
语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
 

让我们共同拥抱新兴的技术.

时代的潮流需要更多人去引领,技术的革新需要更多人去贡献,加入我们,和我们一同去研究这个美好的未来!

告诉我们的你的好想法