HKUST Mandarin Telephone Speech, Part 1LDC2005S15是由香港科技大学HKUST在 DARPA EARS 框架下构建的大规模普通话电话会话语音数据集核心为约 149 小时训练与开发集语音数据适配语音识别、说话人识别等研究场景其配套文本转录数据对应 LDC2005T32。以下从核心信息、数据采集、标注与特性、应用与获取等方面展开介绍一、核心基础信息属性详情数据集名称HKUST Mandarin Telephone Speech, Part 1LDC 编号LDC2005S15开发机构香港科技大学HKUST发布时间2005 年数据规模约 149 小时普通话电话会话语音含 873 个训练集通话、24 个开发集通话配套数据转录文本数据对应 LDC2005T32HKUST Mandarin Telephone Transcript Data, Part 1来源背景2004 年 HKUST 受 DARPA EARS 项目委托采集 200 小时普通话电话会话语音首批 50 小时用于 RT - 04 NIST 评估本数据集包含剩余 150 小时中的训练与开发集