面向海量音频内容的快速关键音标检索技术
赛 题:面向海量音频内容的快速关键音标检索技术
组类( A ): 本科及以上
赛题简介:介绍整个赛题的思路和整体要求
快速关键音标检索技术是基于国际音标的词汇无关的关键词检测算法和基于索引的信息检索技术的结合。关键词检测(KeyWord Spotting,KWS)是在一段连续语音中找出给定的目标词的发音所出现的准确时间段,并给出每个候选段的置信度。快速关键音标检索系统,采用了基于语音内容的检索技术,能够在海量视音频中快速搜索和准确定位所要查询的内容,为多媒体语音和音频信息的检索再利用提供了新的技术手段。
整体要求:
1. 区别于目前众多厂商采用的基于云计算大数据分析的识别技术,快速关键音标检索技术并不需要理解目标词汇和音频内容的具体含义和语义,不需要对语音内容进行识别;
2. 要求采用组成发音最小因素进行语音模式库的建设,国际音标(IPA)是发音最小因素的符号表示方法。目前,国际音标组织已经完全标注全世界所有语言的发音,通过不同的组合,可以表示出任何的语言,任何的方言。
3.不限语种、方言,可以准确的检索到字、词、句,适用于各类语言环境,只要该语言能够用国际音标进行标注,均可以检索,对中国多方言、多民族语种的环境特别重要;
4.快速关键音标检索技术国外已经比较流行,建议参考书籍《Phonetic Search Methods for Large Speech Databases 》(电子版会在答疑论坛中提供下载)
Springer.Phonetic Search Methods for Large Speech Databases.2013.pdf
和多找外文资料。
赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景
随着语音、视频等数据的大量积累,对语音的内容检索需求也越来越急迫。
在公安、保密、国家安全等特殊领域,每天需要面对海量的视音频信息流,靠人工处理费力费时,急需采用自动化的监控和检索技术,可作为公安侦测、取证、反恐、舆情分析及保密检查、失泄密分析的有效利器,是维护社会安全、保障国家安全的核心武器。
在民用领域,广播电视台都有庞大的节目制作素材库,对其的有效检索可以极大提高资源再利用的效率;日常办公中,对会议录音、多媒体资料库、互连网视音频等也需要更高效的搜索和查询技术来满足更多的使用需求。
功能性需求
1、至少支持普通话、英语、维语和任选一种方言的检索。
2、普通话和英语检索准确率应达到90%以上,误报率低于10%。
3、维语和任选一种方言的检索准确率达到70%以上,误报率低于10%。
4、支持敏感度调节。
5、检索速度达到分钟级,至少达到音频时长的 1/20,如1个小时时长音频,检索速度至少要达到3分钟/词。
6、支持WAV、MP3等多种音频格式。
非功能性需求
1.支持多词汇并行检索。
2.除功能性需求要求支持的语言和方言外,每多支持一种方言检索,加2分,最多20分。
其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件(请尽量明确)
开发环境:不限
开发语言:不限
操作系统:Windows XP/Windows 7/Windows 8/Linux/IOS/Android
测试数据或平台:提供给参赛者的测试环境和测试数据。(可提供电子档)
1.新闻联播中文30分钟(普通话)
2.中央电视台英语新闻频道30分钟(英文)
3.现场录音测试(普通话)
4.现场录音测试(方言)
5.现场录音测试(英文)
开发所需设备及设备指标需求说明
无
其他要求
提交相关文档:
需求规格书
详细描述课题的功能与非功能需求,使软件设计开发人员能够清晰地理解课题的背景、功能要求、运行环境等,使之成为整个设计开发工作的基础。
系统设计说明书
详细描述软件的架构、设计理念、算法思路等。
测试文档
描述测试环境的搭建、准备的测试数据、测试方法等。按照测试文档进行功能与非功能测试,对测试方案可能出现的问题进行分析和评估。