语音识别距人类只差0.4%?

  • 时间:
  • 浏览:1
  • 来源:5分快乐8官网平台_5分快乐8网投平台_5分快乐8投注平台_5分快乐8娱乐平台

贤集网物联网工程频道讯:日前,美国一家公司宣称专业速记员在记录对话时,转录词错率为5.1%,而该公司最新研发的语音识别系统词错率已达到5.5%,超越以前的历史最佳水平,树立了新的里程碑。语音识别,是人工智能领域的核心难题之一,0.4%的差距似乎愿因着机器即将比肩人类。

已过“甲子”之年

斯坦福大学的相关研究者在2016年9月发布了一篇名为《20500年的人工智能和心活》的文章,提到:人工智能领域正式诞生于1956年夏天,一场由约翰·麦卡锡组织的在美国达特茅斯暑期研究项目的研讨会,在多年以前被认定为全球人工智能研究的起点。我我我觉得,对于人工智能子项目之一的语音识别来说,它的历史甚至比500年需要久。

语音识别的研究源头可追溯至19500年,计算机科学之父阿兰·图灵在《思想》(Mind)杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种生活验证机器是是是不是有智能的法律法律依据:有时候你和机器进行交流,可能人无法判断被委托人交流的对象是人还是机器,要是 明这些 机器有智能了,这要是 时候鼎鼎有名的人工智能图灵测试。

图灵测试的概念极大影响了人工智能对于功能的定义,以此为途径,卡内基梅隆大学的两位科学家希尔伯特·西蒙和曼纽尔·布卢姆做了絮状的前期工作,非常精妙地证明了罗素《数学原理》52道中的38道。西蒙甚至宣称在10年之内,机器就能不不需要 达到和人类智能一样的深度图。

在这些 时期,科学家们也将语音识别比作“机器的听觉系统”,该技术能不不需要 让机器通过识别和理解,把语音信号转变为相应的文本或命令。1952年,贝尔研究所、Davis等人研制了世界上第一兩个 能识别10个英文数字发音的实验系统。19500年,英国的Denes等人研制了第一兩个 计算机语音识别系统。

从“模拟”人脑到开创统计法律法律依据

当20世纪500年代明确了人工智能要模拟人类聪慧这些 大胆目标后,这些 领域经历了近20年的辉煌。研究人员开展了一系列项目,表明计算机不需要 完成一系列那我只属于人类能力范畴之内的任务,类似 证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家心理实验、作曲家谱曲那我的活动。

有时候 ,过分简单的算法以及计算能力的限制,严重阻碍了另一人及另一人及使用人工智能来避免更加困难和复杂的难题。

这些 阶段在人工智能的细分领域语音识别上,科学家们也走上了同样的弯路。另一人及另一人及认为,计算机要完成语音识别类似 不不需要 人不需要 做的事情,需要先让计算机理解自然语言,愿因着研究局限在学数学数学习语言的法律法律依据上了,即电脑模拟人脑,语言学者参与了絮状的研究工作,但最后的成果却近乎为零。伴随着对未来继续努力的失望,人工智能包括语音识别都于20世纪70年代中期逐渐淡出公众视野。

转机跳出 在统计语言学的创立上。这不得不提一兩个 关键性人物——德里克·贾里尼克和他领导的IBM华生实验室,另一人及另一人及创新的使用统计法律法律依据,将当时的语音识别率从70%太快了 了 提升到90%,一起去语音识别的规模从几百个单词上升到几万个单词,使得语音识别都不 了从实验室走向实际应用的可能。

在贾里尼克以前,科学家们都把语音识别难题的核心归结为语言学中的规则难题,而贾里尼克将它当作通信难题后,用兩个 隐含马尔可夫模型(声学模型和语言模型)把语音识别重新概括清楚了。

这些 框架形态至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,有时候 奠定了今天自然语言避免的基础。贾里尼克时候也有时候 当选美国工程院院士,并被某杂志评为20世纪5000名科学发明之一。

尽管贾里尼克在1972年就提出了新的研究范式,但模拟人脑与统计学的法律法律依据之争,却持续了近十五年时间,语音识别领域历经了十五年的新旧交替后,最大的成果我我我觉得是在技术的应用及产品化方面跳出 了进展。

大进步的催化剂

在互联网大爆发的20世纪90年代,人工智能的相关研究又一次停滞了。直到21世纪前10年,跳出 了一系列复兴人工智能研究多线程 的主次,尤其是下面哪几种重要的因素和核心技术:

大数据。得益于互联网、社交媒体、移动设备和廉价的传感器,这些 世界产生的数据量急剧增加。大数据是人工智能发展的助推剂,这是可能一点人工智能技术使用统计模型来进行数据的概率推算,如语音识别,通过数据的海洋中充沛的语料,使得技术不断优化。

新算法。算法是避免一兩个 设计多线程 或完成任务的路径法律法律依据。在一兩个 全部的工业界语音识别系统里,最关键的是深度图学习算法,还有太大工作是专业领域相关的算法,以及海量数据分类分类整理和工程系统架构的搭建。哪几种算法一种生活有点要,一起去也是一点技术的推动者,比如机器学习算法Google的TensorFlow目前就被开源使用。

能不不需要 说,任何技术都不 蓄能阶段和爆发阶段,人工智能包括语音识别技术的爆发都得益于以上条件。这要是 难理解,从语音识别来看,它是需要经验、数据和用户反馈一起去作用来提升表现的。需要利用用户的反馈总结出一点特点。

谷歌是最早在全球范围内大规模使用深度图学习算法的公司,也最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,太快了 了 跟进成为国内第一兩个 在商用系统里使用深度图学习的公司。

现有成绩和待解难题一样多

语音识别技术可能发展了几十年,可能大数据和深度图学习的应用,这些 领域的传统强者成了谷歌、亚马逊、苹果7和微软哪几种美国科技巨头,据统计,美国离米 有26家公司在开发语音识别技术,而中国则有近500家公司研究这些 领域。

尽管谷歌哪几种巨头在语音识别技术上的技术积累和先发优势让时候者似乎难以望其项背,但可能一点政策和市场方面的愿因着,当然都不 主次愿因着是中文的复杂程度高于英语,太大国际巨头的语音识别主要偏向于英语,中文领域的语音智能可能则留给了科大讯飞、百度、搜狗等中国公司。在国内,哪几种本土化产品更为用户所熟知。

中文领域的识别难度在哪里?举个简单的例子,鲁迅《孔乙己》中的孔乙己之问:茴香豆的“茴”有几种写法?可能一兩个 更有时代感的案例,怎么才能 才能 形容物流调快?据说,在汉语里回答这些 难题竟然离米 有35000种说法,比如第三三多日就到了、物流很给力、给快递点赞等不尽其详。尽管语音识别在近些年来取得了巨大的进步,但我我我觉得仍然还有太大的工作要做。

此外,还有确保语音识别能在更为真实生活的环境中良好地工作。哪几种环境包括具有太大背景噪声的地方,比如聚会场所或在高速路上驾驶的以前;还有在多人交谈环境中将不同的说话人区分开。

还有一兩个 更深度图次的难题是,可能需要实现人机对话、人机写作,不要是 需要用机器转录来自人类嘴巴的声音信号,更要理解另一人及另一人及所说一句话。

从语音识别来看,下一兩个 前沿是从识别走向理解,真正的人工智能仍然还在遥远的地平线上,在机器能理解其所听到或看多的事物的真正含义以前,还需要很长时间的工作,有很长的路要走。或许不需要 不不需要 说,另一人及另一人及正在从一兩个 人类需要理解计算机的世界,迈向一兩个 计算机需要理解另一人及另一人及的世界。亚里士多德曾说过,可能机器能干太大活,岂不不需要 有时候你类解放出来,或许这些 解放的起点要是 “理解”。

注:文章内的所有配图皆为网络转载图片,侵权即删!