关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro344人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

妻儿三人被丈夫发小杀害:空调开16℃ 地上没有血迹

红星新闻 浏览 7955

宝藏BOSS冯擎峰:是CTO,也是CEO

网易汽车 浏览 3138

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 3287

大众汽车营收微降却亏麻了,利润腰斩暴跌53.5%!

财视传播 浏览 1532

布拉格队长:下半场我们想踢得更具威胁,但阿森纳太强了

懂球帝 浏览 3188

宗馥莉第二次辞职 娃哈哈集团已经被外界视为"空壳"

中国新闻周刊 浏览 3542

上汽零售赶超比亚迪

大象新闻 浏览 2384

科学家开发“神经蠕虫”,实现颅内电极游走模式

DeepTech深科技 浏览 4247

山西103-77大胜同曦取4连胜,诺威尔20+6,郭昊文23分

懂球帝 浏览 2558

50万往上的车,还用1.5T增程器,车企穷疯了?左右逃不出3个原因

小李车评李建红 浏览 2435

飞傲雪漫天BEATBOX便携CD播放器亮相,预计明年2月上市

IT之家 浏览 2672

2026年AI赛道群雄逐鹿,跨国车企巨头如何摆兵布阵?

禾颜阅车 浏览 2305

被家暴16次女子得70%共同财产及10万赔偿 共140万余元

极目新闻 浏览 8556

瞄准2028年重要选举 郑丽文最新表态

新京报政事儿 浏览 8253

内娱又增新赛道,叶祖新坐着就抢了主角的戏

最爱酷影视 浏览 2602

全新前脸/三种座椅布局可选 第三代豪越L内外饰曝光

网易汽车 浏览 3283

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 2863

兰博基尼Athon概念车:破产边缘的设计奇迹

老爷车 浏览 3428

长这样的外套,大骨架女孩不要买!

Yuki女人故事 浏览 3238

李想汽车研究院:让AI从"工具使用者"进化为"工具创造者"

科技行者 浏览 2017

基米希被法比安鲁伊斯爆头,裁判未做表示,VAR未介入

懂球帝 浏览 3088
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1