技术标签: 机器学习 人工智能 自然语言处理 数据库 大数据
为了进一步丰富开源语音语料库,促进语音语言处理技术的发展,Magic Data联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。
数据集下载地址 MagicData-RAMC Conversational Speech Dataset – MagicHub
论文地址 https://arxiv.org/abs/2203.16844
基线地址 https://github.com/MagicHub-io/MagicData-RAMC-Challenge
同时,Magic Data(北京爱数智慧科技有限公司)联合中科院声学研究所、上海交通大学和西北工业大学基于MagicData-RAMC完成了语音识别、说话人日志和关键词检索的相关研究,该工作已投稿语音领域顶级会议Interspeech 2022。
【数据简介】
MagicData-RAMC包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。
【数据收集】
MagicData-RAMC数据均于室内采集。声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒。环境噪音水平低于40dB(A),录制过程中环境相对安静。所有录制的参与者都是以中文为母语的流利普通话使用者,他们的口音略有不同。
音频由Magic Data开发的手机应用程序录制,录制使用的手机均是主流的智能手机,其中安卓和IOS系统的使用比例约1:1。音频文件为16比特采样点,采样率为16KHz,录音质量比同类型的对话语音语料库(如HKUST/MTS、SwitchBoard、Fisher)更高。
转录文本由Magic Data人工标注并由专业检验员校对。MagicData-RAMC标注信息非常丰富,在语音内容转写结果的基础上,还标注了非语言信息,包括笑声、音乐声、噪声等。口语对话中常见的犹豫、重复等语言不流畅的现象也被标注出来。对话中每个说话人的起始时间戳也被标注出来,可以用于说话人日志相关的研究。
【数据分布】
性别和地域分布均衡:为了尽可能地反应真实世界中的对话场景,MagicData-RAMC在收集过程中保证了性别和地域的均衡性,以及话题的多样性。MagicData-RAMC中共计663为说话人,其中男性368人、女性295人,来自北方334人、南方329人。性别、地域和省份分布的饼状图1、图2、图3所示。
话题丰富多样:在每一组多轮对话,两位说话人仅围绕一个主题开展自然对话,平均时长30分钟。说话人灵活地回应对方,而非死板地问答。因此,每组对话的主题是连贯的,历史的对话与当前的内容密切相关,非常适合用于研究对话式的语音识别任务[6]。MagicData-RAMC涵盖了15类话题,话题的多样性以及对话中话题的一致性适合研究开放领域的口语对话任务。MagicData-RAMC话题分布饼状图如图4所示。
【基线系统】
以中科院声学研究所为首的研究团队基于MagicData-RAMC数据集完成了语音识别、关键词检索和说话人日志的相关研究。官方将MagicData-RAMC数据集划分为150小时的训练集、10小时的开发集和20小时的测试集。下面简要介绍基线系统。
语音识别:在语音识别任务中,他们使用开源工具ESPnet[1]训练Conformer[2]模型,训练数据包括755小时MagicData-READ和150小时MagicData-RAMC。其中MagicData-READ可以从开源社区OpenSLR获取。开发集、测试集的字错误率(Character Error Rate, CER)分别为16.5%和19.1%。
关键词检索:在关键词检索任务中,他们基于Comformer模型和动态时间对齐算法[3],检索200个关键词。关键词随MagicData-RAMC数据集一同公布。开发集的关键词准确率和召回率分别为86.98%和89.57%;测试集的关键词准确率和召回率分别为85.87%和88.79%。
说话人日志:在说话人日志任务中,他们主要使用了开源工具Kaldi[4]搭建说话人日志系统,系统包括说话人活动性检测模块、说话人特征提取模块和贝叶斯隐马尔可夫聚类模块[5]。开发集、测试集的日志错误率(Diarization Error Rate, DER)分别为5.57%和7.96% (collar 0.25)。
【排行榜】
2021年7月至10月,Magic Data、中科院声学研究所和江苏师范大学主办了“对话式AI语音识别及说话人识别挑战赛”。为了帮助参赛者快速、高质量地完成模型开发和训练,主办方提供了基础脚本和基线模型,提供给参赛者使用。基线地址:GitHub - MagicHub-io/MagicData-RAMC-Challenge
比赛过程中发布的训练集和开发集与MagicData-RAMC中的训练集和开发集一致。比赛分为两个赛道——“对话场景下的语音识别(Automatic Speech Recognition, ASR)准确率”和“对话场景下的说话人识别(Speaker Diarization, SD)准确率”。
现在Magic Data发布的MagicData-RAMC进一步公开了比赛使用的测试数据。当时ASR赛道前5名参赛队伍的CER公布如下:
SD赛道前5名参赛队伍的DER公布如下:
4月18日,我们将在Magichub开源社区继续开放此数据集的测评比赛,敬请关注!更多详情请见:MagicHub – Datasets Download | Open-Source Datasets
目前,Magichub.com开源社区共开源超过100个数据集,数据类型涵盖ASR、TTS、NLP、发音词典等,开源数据语言包括中文、英语、德语、意大利语、阿拉伯语等众多语种。未来,更多语种和类型数据集将持续在社区开源,欢迎大家下载使用。
在拜读和翻译了Android design设计指导后,对比Android 4.0,4.1,4.4版本与Android2.3及之前版本的app设计指导,总结了Android 4.0版本后设计规范的10大改变之处,在此也感谢博友对我所写文章的支持,之前重要设计理念系列的文章阅读量最近一直在暴涨,也鼓动着我继续写该系列的文章。
【来个两个软件的截图】这两款软件,是AppStore里笔记类软件的佼佼者,是绝大部分人的选择。两款软件都可以胜任记笔记之类的任务,但是还是存在着一些明显的不同与差异。
RedHat 7 安装Docker 1.12.6
Python在3D数据中根据点以及法线方向提取切片在处理3D图像数据(CT图像,MRI图像)中,有时需要对其进行提取切片的操作,一般都是按照X,Y,Z三个轴来提取切片,然而在一些情况下需要根据某点的法线方向提取过这点的切片,在这里根据的 matlab代码 改写成python的版本。原理在matlab的代码上主要是分为几步来获得斜切平面的(1)初始化切平面,在这里切平面可以当成一把刀,初始化的切平面是平行于XY平面的。(2)通过绕一点以及一个方向旋转改切平面,这样的话就知道往哪切了,只要将初始切平
【注】记录下自己在用LInux过程中遇到的一些问题,为实际操作过程中遇到的问题以及解决办法。网络信息庞杂,决定将一些切实可用的解决问题的过程和办法记录下来,供大家参考,同时也方便自己日后再遇到此类问题时查看。 本文参考来源,见链接,循环登录及黑屏问题。【所遇问题】安装Nvidia显卡驱动,重启后,出现循环登录,无法进入系统界面。【问题根源】仅分析本人所遇到问题的原...
1.下载 官网 https://www.jetbrains.com/clion/2.解压 tar-zxvfCLion-2016.2.2.tar.gz3.运行 ./下载/clion-2018.1.1/bin/clion.sh4. 去 http://idea.lanyus.com/ 获得激活码http://idea.lanyus.com/ 使用前请将“0.0.0.0 ...
作为一个践行Mouseless Programming的开发者,来谈谈自己在日常工作中是如何做到「几乎」不用鼠标的。在说具体的「技巧」之前,先聊一聊纯键盘开发的几个原则:动机, 动机要单纯,纯键盘开发不是为了耍酷, 你的动机应该是提高「效率」:)键盘只是工具,思想才是关键, 代码和问题先想清楚再下手,想清楚远比写的快重要!键盘不要经常换...
liunx 安装达梦数据库
GTD数据分析及可视化项目的第五张图表,项目总体介绍见这篇文章。最终效果数据集统计目标是1970-2018年各国恐怖袭击情况,不用分年份,按国家统计即可。实现绘制世界地图的方案是使用world.geojson文件,这部分有比较完整的教程,见项目总体介绍的推荐学习网站。 mounted() { // The svg svg = d3.select('#choropleth-graph') .append("svg") .attr("width", width)
MySQL查询优化器源码分析(基于MySQL V6.0.0 alpha,版本号大,但已经滞后于V5.6.x等版本)多表连接优化算法入口,choose_plan()http://blog.163.com/li_hx/blog/static/18399141320133283822792/多表连接优化算法之一,optimize_straight_join()按表的指定顺序求解最优查询计划http://
文章目录概述计算机体系结构分类指令系统指令集体系结构的分类CISC和RISC复杂指令集计算机(Complex Instruction Set Computer)精简指令集计算机(Reduced Instruction Set Computer)指令优化指令的流水线流水(Pipelining)流水的分类流水相关的处理方式流水技术流水吞吐率与建立时间概述1964年,阿姆达尔(G.M.Amdahl)...