关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro774人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

12306汽车托运服务订单火爆 客服:目前有9条线路可选

极目新闻 浏览 21367

冬季穿衣没想象中那么难,看看这些穿搭就有灵感,保暖又好看

静儿时尚达人 浏览 3269

马卡:C罗在红海购入两栋豪华别墅,享受私密宁静的家庭时光

懂球帝 浏览 2951

特斯拉 FSD V14 Lite 将上线,老车主率先体验

三言科技 浏览 521

记者:马竞准备2500万镑卖加拉格尔,维拉等俱乐部有过问询

懂球帝 浏览 2678

两位省委常委跨省履新 其中一人曾长期在中纪委工作

极目新闻 浏览 9635

71岁奶奶获健美比赛冠军:把健身当上班 被儿媳夸偶像

环球网资讯 浏览 8155

群核科技,摸着李飞飞过河

极客公园 浏览 2902

“东风Jeep”要来了?Jeep全球高层到访武汉

网易汽车 浏览 2992

中戏否认闫学晶儿子读新疆班,官方发文打假闫学晶!

素素娱乐 浏览 2725

马斯克:解散 xAI,把22万张GPU租给OpenAI死对头

创业家 浏览 233

打破惯例!iPad 12被曝或搭载iPhone 17同款A19芯片

环球网资讯 浏览 3093

惠若琪拟任新职!父母没生儿子被轻视

东方不败然多多 浏览 2942

2025世界青年科学家峰会聚焦开放合作

新华社 浏览 3618

全系标配激光雷达 东风奕派eπ007+预售14.99万起

网易汽车 浏览 3557

全智贤与《暴风圈》剧方仍未发文道歉

韩小娱 浏览 4553

美媒扒哈登末节细节:快船追到只差15分 登哥穿训练服两眼空洞

Emily说个球 浏览 3128

售14.98万 方程豹钛3推501km后驱Ultra版

网易汽车 浏览 3520

能把埃尔法打下神坛?智界V9申报图曝光 定价50万左右

网易汽车 浏览 2651

从文淇被堵看无赖滋事的成本有多低

八卦三缺一 浏览 2122

美国“恢复核试验表态”背后有何考量

环球网资讯 浏览 3494
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1