标贝科技体育赛事解说合成数据集 赋能AI赛事解说应用落地

时间:2023-06-15 16:12:01       来源:砍柴网

说到看体育比赛,内行看门道,外行看热闹。而一场精彩的比赛,离不开一个好的解说员。

例如,刘建宏的鬼畜解说:“巴拉克!巴拉克!巴拉克!巴拉克!巴拉克!!!巴拉克把球带丢了..........”


(资料图片)

解说界Raper黄健翔:“机会!打门!漂亮!漂亮!11号朱挺!中国队通过反复的进攻,把对方压在半场,连续围攻好几次,终于形成一次机会!”

一位优秀的体育解说员,通过声音让比赛更加生动,也让观众更好地理解和感受比赛,为比赛增添了许多趣味性、专业性、文化性。

但由于专业赛事具备一定的专业性,现场解说大多情况下只能关照某一层面的观众,对于资深球迷、入门小白等不同人群的需求难以兼顾。此外,据统计全世界平均每年都有数万场大大小小不同水平的体育比赛,全部由人工来完成解说,成本大、效率也不高。如果由机器来代替真人解说,则可以根据不同赛事及观众的特点和需求来选择个性化解说。

就在今年4月结束的高尔夫美国大师赛上,AI解说就为20000多条比赛片段完成语音解说,让球迷直接体验了一把AI赛事解说的魅力。

AI赛事解说

据了解,高尔夫美国大师赛的AI解说功能,实际是由生成式AI完成。简单来说就是由一个大型语言模型构建而成,模型进行了大量高尔夫运动的用语习惯和风格训练,最终实现自动生成比赛片段的语音解说。

事实上,AI赛事解说也不是新鲜事了。

2015年,百度推出奥运会历史上的第1位AI解说员“度秘”,参与解说2016年里约奥运会男篮1/4决赛;2018年,俄罗斯Promobot公司研制的机器人成为美国福克斯体育频道体育新闻主持人,在节目中与真人主持对话、评论并预测比赛结果。

从体育赛事转播的角度来看,AI解说本质是为了有针对性的给球迷提供更好的观赛服务。

相较于真人解说,AI可以与高端分析软件结合,提供更快、更有洞察力的比赛数据分析,然后再通过AI语音将这些分析和解说呈现在转播视频上,大大丰富了观众第一屏、乃至第二屏的观看体验。

标贝科技体育赛事解说合成数据集

但AI赛事解说还要面对一些现实问题。例如,机器解说通常缺乏明显的情感变化,而体育赛事中解说员适时的情感流露,往往是球迷最为津津乐道的部分。

因此,为了达到更好的语音解说效果和观众收听体验,开发者需要对AI解说员进行大量赛事相关的用语习惯和情感风格的模型训练。

针对AI解说场景,标贝科技基于专业级录音棚及优质声优资源,精心建立了AI赛事解说场景合成数据集,并完成对数据库的音字校对,韵律校对,重音拖音,情感语气词等标注,可供算法优化直接使用,确保合成出来的音色更具情感表现力、自然度更高。

标贝科技体育解说合成数据库

语种:中文普通话,中英混合

采集环境:专业录音棚,信噪比不低于35dB

数据时长:8小时中文,2小时中英混

录音语料:体育解说话术

采样格式:无压缩PCM WAV格式

采样率:48KHz 24bit

标注内容:音字校对,韵律校对,重音拖音,情感语气词

适用领域:体育赛事解说,游戏解说

欢迎对以上数据集感兴趣的行业伙伴联系我们~

如果以上数据不能满足您当前的需求,标贝科技还可以针对特定人群、特定场景、特定语种提供相应的数据定制化服务,全力帮助企业客户得到满意的数据服务。

关键词: