您当前的位置:沙布信息门户网 >娱乐> 这一次,微软要用科技的力量帮助视障群体成就不凡

这一次,微软要用科技的力量帮助视障群体成就不凡

来源:沙布信息门户网   时间:2019-11-04 07:47:56
[摘要]2019年10月15日,irobot新品发布会在北京举行,在发布会结束后,irobot中国区产品经理沈彦卿为中关村在线的网友们第一时间带来了新品解读!

科学技术正在推动社会生产力。如何让每个人过上幸福而有尊严的生活,已经成为每个全球科技领先企业的一项必要的社会责任。更强大的计算能力、更大的存储空间和更快的网络传输打破了一项又一项的技术记录,同时也使人们收获了科技的温度,这就要求企业在通往优秀科技的道路上默默工作。自进入中国市场以来,微软一直全力支持中国公益事业和非营利组织的发展,拥有公益常识,并正在帮助这个科技巨头在中国书写新的“记录”。

红色丹丹(Red Dandan),一个致力于通过视觉叙事为视障群体提供无障碍文化产品和服务的盲人慈善组织。自2014年以来,该组织已开始与微软合作,以azure智能云平台的核心技术和存储功能建立云“心库”,让视障人士可以随时随地收听和下载有声书籍。目前,心理图书馆已覆盖105所视障学校。肖骁的合成音频书也于10月15日上传到了思维图书馆。用户可以在思维库的微信小程序中收听。

“很多人都会问这个问题。市场上有许多有声读物。为什么我们要为视力受损的朋友制作有声读物?首先,我们将根据学生和老师的需要来做。对于有视觉障碍的孩子来说,更多的需求是学习或成长。在市场上很难找到这种书的音频甚至电子版本。此外,根据年轻人的学习需要,例如参加法律或公务员考试,在市场上很难买到这种有声教科书。我们将通过技术手段以最快的速度完成转换,形成有声读物。”洪丹视觉障碍文化服务中心执行主任曾欣说。

过去,传统的100页纸质书必须为视力障碍者定制为400-500页,这不仅费时费力,而且成本高达100元。如果它被制成有声读物,志愿者需要长达三个月的时间来完成一本书,而且还需要反复校对。此外,还考虑了所有各方的协调成本,这将造成许多障碍。将书面出版物放入云中并结合人工智能技术后,几分钟内就可以生成有声读物,包括新闻、情感故事、音频助理、客户服务和其他场景。

“通过tts合成,它可以在7×24小时内合成,输入的单词和声音就出来了。只要有文本内容,它就可以连续输出音频内容,打破音频内容制作的壁垒。”微软亚洲互联网工程研究所人工智能语音组高级产品总监丁正毅表示,“我们认为这样做对于视力受损的人来说具有特殊的意义。虽然他们能听到市场上的有声书籍,但数量远远少于文本数量。如果文本可以自动转换成音频(阅读材料),那么视觉障碍者的音频阅读来源就可以大大丰富。”

当然,将语音技术与盲文书籍结合起来并不容易。例如,在内容合成过程中对语境和文本的理解,人们在阅读前会根据文章的主题、对话和结构来判断整个内容的情感,而机器很难做到。不同微妙的情感,如微笑、窃笑和笑声,需要通过声音来表现,使它们非常自然,接近人类的声音。

同时,与红丹丹的合作也给了微软更多的机会来深入了解视障人士的需求。例如,当视力受损的人阅读或听的时候,听的速度不同于正常人,正常人的速度可能是正常人的4到8倍。这样,微软可以将这种理解融入到产品的功能设计中,让tts快速、高质量地阅读文本。

作为微软首个基于深层神经网络的声音,微软智能女声肖骁于去年11月正式成立。基于azure云平台上积累的以往技术,为用户提供了语音合成的标准api调用接口,能够满足用户实时语音调用的需求,可直接应用于智能助理、智能客服、智能汽车、智能阅读等领域。此前,微软曾与央视、小米等合作制作新年问候语音合成和小米9王源定制语音。

微软亚洲互联网工程学院语音组产品经理、微软人工智能女声小小语音产品负责人刘岳影表示,微软将使用人工标记来辅助合成系统实现不同的语音类型识别。随着技术的不断进步,人工智能将能够识别不同的情感,并通过理解上下文自动分配标签。为了达到高质量的合成效果,微软分别开发了两套实时和非实时的api。前者是毫秒响应(毫秒response),可以在数百毫秒内给出反馈,主要用于智能对话、智能助手等场景。后者可以将3小时的记录时间缩短到10分钟以上。

”(肖骁)它更像人类的阅读,更温暖,而不像冰冷机器的声音。这会增加孩子们的阅读兴趣。我认为阅读兴趣和效率有了显著提高。”曾欣对微软人工智能女声肖骁之声的应用效果非常满意。“我们联系了许多视障人士的朋友,可以使用各种合成声音。每个人都认为当前使用的声音听起来自然,比其他声音库更好。尽管它并不完美,但我们认为它更像是人们在阅读。”这种自然不仅流畅流畅,而且体现在通风、停顿和节奏上。

这些细微的差异可以从文本的细节中看出。许多人在阅读时会遇到中英文混合文本。当两种不同语言中的单词被组合时,很容易识别出它们是由两个不同的人用传统的组合方法说的。然而,当微软使用深层神经网络混合计算时,它可以使这种合成无缝切换。

据了解,微软在中国成立的语音合成团队已经在全球49个国家和地区支持语音服务。实现了“中国智慧、智慧、全球化”的目标。它可以为中国企业出海提供强有力的支持,并有严格的保护用户隐私数据的政策。丁磊表示,近年来,微软在机器翻译、语音识别、机器阅读理解等人工智能领域取得了巨大的技术突破,在自然语言理解和语音方面达到了接近人类的水平,“这是一个整体人工智能解决方案的落地”。

借助微软的技术授权,视障人士不仅能获得更好的生活体验,还能给他们带来更广阔的发展空间,帮助更多人实现自我价值。“我们现在要改变老师的声音。她是一个完全视障的人,也是第一个获得广播和主持执照的朋友。她的声音很好。她决心为视障人士探索一种新的就业方式,如网络广播、有声小说等。”曾欣说:“我们将让她的声音成为更多视力障碍学生阅读的样本。她的吸引力和榜样可以鼓励更多的孩子像她一样努力学习和追求梦想。此外,许多公众朋友喜欢她的声音,她的声音具有市场价值。微软正在帮助残疾人获得更好的发展。”

从这个角度来看,微软的语音服务也可以扩展到更广的范围,即服务于信息无障碍,而视障群体只是其中的一个重要部分。无论是为老年人服务,还是驾驶、烹饪等多任务场景,人们都会或多或少地在生活和工作中遇到手势操作的不便。这时,无障碍语音功能无疑将成为互动行为的良好延伸。

“我们已经和红丹丹合作了十多年,像朋友一样一起成长。红色丹丹对我们很有帮助。他一直在帮助微软在做公益事业时找到正确的方向。”微软大中华区公益事务总监王玲深受感动。

微软亚洲研究院自1998年成立以来,与公益组织形成了不解之缘。1998年,微软提供技术和平台,包括在线客户服务,并开始支持帮助残疾人找到工作的企业稳步增长。自2010年以来,微软为非营利组织推出了一个信息日(information day),倡导中国技术与公益相结合,分享各种公益合作伙伴的优秀做法。2011年6月,微软在世界范围内宣布了“科技为善”的理念,倡导利用科技致力于善行,解决社会难题。这个概念一直指导着微软在世界范围内的公益活动。2012年,微软呼吁年轻人通过“创新未来”论坛,利用技术解决社会难题。2013年,微软研究院和联合国大会特殊教育研究所开发了手语翻译,利用体感技术将手语翻译成单词。

2014年,微软和红丹丹建立了他们的思想库,与中国发展研究基金会共同发起了“智能小村(Smart Village Small)”项目,并利用azure、office 365和体感技术构建了智能远程实时教育系统。2015年,微软黑客马拉松(Microsoft Hacker Marathon)诞生了一个使用微软人脸识别api寻找孩子的应用程序,揭开了微软与中国最大公益搜索网站“宝贝家园”合作的序幕。同年,中国发展研究基金会委托微软公司建立阳光学校午餐数据平台,对数千万国家学生营养午餐项目进行评估。2016年,微软提出了“云造福世界”的概念,提出了云技术与公益组织的结合,并发布了支持人工智能辅助视觉的智能眼镜。2017年,微软提出了地球人工智能计划。2018年,微软呼吁数百个公益组织推广“人工智能为善”的人工智能。同年,语音团队通过说话者适应技术识别出听力受损者的非标准发音,将其转换成单词并翻译成其他语言,这样听力受损的朋友可以无障碍地用各种语言交流。2019年,微软再次升级宏达旦的图书馆。

2019微软黑客歌曲《红色丹丹》项目成员

一路上,微软一直在利用科技力量来弥合全球数字鸿沟,降低技术门槛,实现技术普及。“只要我们的语音技术,包括tts技术和asr自动语音识别技术,能够帮助每个人,我们就会做到。我们可以做越来越多的事情,比如帮助无症状患者保持声音,帮助诵读困难的人读书,帮助听力障碍的人,以及调整他们的声音。”正如丁正毅所说,“我们希望以各种形式帮助世界上的每一个人。微软的“每个人”是指每个人,包括普通人和一些有障碍的人。微软的愿景是帮助世界上的每个组织和个人取得非凡的成果。”

[zol客户端下载]查看最新技术信息,应用市场搜索“中关村在线”,客户端拥有更好的阅读体验。(7294200)