报名电话

400-698-3698

最新公告:欢迎光临上海利来国际平台网络科技有限公司网站!
新闻动态
联系我们

地址:上海市静安区江场路1228弄20号61室

电话:400-698-3698

传真:+86-21-60341554

手机:13998545321

邮箱:365897141@qq.com

家住京城豪苑的方雨萱(化名)都要端坐在电脑

文章来源:利来国际平台 更新时间:2019-04-06 11:32

  每周六上午9∶30,家住京城豪苑的方雨萱(化名)都要端坐在电脑前。打开在线英语网站,外教老师TOM准时出现在电脑上,和方雨萱用英语打个招呼,开始当天的上课。

  启蒙其实也是不同人生观的体现,看的是父母是否能接受孩子拥有自己的人生,拥有多元的生命。

  语音识别(Speech Recognition)的目标是把语音转换成文字,因此语音识别系统也叫做STT(Specch to Text)系统。语音识别是实现人机自然语言交互非常重要的第一个步骤,把语音转换成文字之后就由自然语言理解系统来进行语义的计算。

  有的学者把语音识别和自然语言理解都放到一起叫做Speech and Language Processing,比如Dan Jurafsky等人的书Speech and Language Processing,讨论的内容包括语音识别和自然语言处理。在语音识别时会使用语言模型,这也是自然语言处理的研究对象,在很多其它自然语言处理系统比如机器翻译等都会使用到语言模型。

  更多的时候这两个方向的研究并不会有太多重叠的地方,语音识别除了语言模型之外也不会考虑太多的”语义”。而自然语言处理假设的研究对象都是文本,他们并不关心文本是语音识别的结果还是用户从键盘的输入亦或是OCR(图像处理)扫描的结果。但是从人类的语言发展来说,我们都是首先有语言而后才有文字,即使到今天,仍然有一些语言只有声音而没有文字。虽然研究的时候需要有一个更具体的方向,但是也不能把Speech和Language完全割裂开来。

  这些维度的组合就决定了不同任务的难度,比如最早的语音识别系统只能识别孤立词(词之间有停顿,因此很容易切分),而且词汇量很小(比如只能识别0-9之间的数字)。而现在的语音识别系统能够在噪声环境识别大词汇量的任务,而且说话人的方式是连续的,它可以处理不同说话人的差异甚至可以处理非标准的发音(比如带口音的普通话)。

  下面是一些常见的概念,因为本书的目的更多关注工程实现而不是研究语言学/语音学,所以只介绍会用到的一些基本概念。

  语言(Language)是用于沟通的符号系统。语音(Speech)是由语言产生的声音,唱歌或者汽车的刹车声都不是语音。音素(Phoneme)是语言学的概念,比如/a/就是一个音素,英语有四五十个音素。因子(Phone)是一个声学(Acoustic)概念,表示不同的发音。一个音素可能对于多个不同的发音,比如/t/在”cat”和”stop”的发音是不同的,我们把不同的发音叫做allophone。

  语音识别的效果通常使用词错误率(Word Error Rate/WER)来评测。每段语音都会有一个正确的文本,语音识别系统也会输出一段文字,我们可以使用编辑距离的算法来计算三种错误:替换错误S , 删除错误D 和插入错误I,然后WER的计算公式为:=++WER=S+D+IN。

  标签:文字 系统 词汇量 发音 说话人 语言 语言模型 环境 语音 的任务 文本 维度 语义 都会 language 声学 语言学 噪声 机器翻译 人工智能

地址:上海市静安区江场路1228弄20号61室 电话:400-698-3698 传真:+86-21-60341554

Copyright © 2018-2020 利来国际平台_利来ag旗舰厅_首页 版权所有ICP备案编号: