关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro343人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

比速腾L略小 入门级的全新速腾S将发布

网易汽车 浏览 2363

曾以105.6万成交的"凶宅"再次上架 26.6万元起拍

封面新闻 浏览 8440

特朗普对中国加征100%关税意欲何为 专家:捞谈判筹码

红星新闻 浏览 6873

美联储的“十字路口”

21世纪经济报道 浏览 4102

人道局势持续恶化 加沙停火能否进入第二阶段尚存变数

国际在线 浏览 2421

真爱大牌返场|| 每次分享都秒没!真不愧是我爱了十年的牌子

黎贝卡的异想世界 浏览 5221

AR行业2~3年内出现“iPhone时刻”?智能眼镜龙头加速布局上海

第一财经资讯 浏览 3297

Meta收购曾火爆一时的AI智能体社交网络Moltbook

IT之家 浏览 1477

A股天然气板块拉升,霍尔木兹海峡关闭引全球气价预警

览富财经网 浏览 1646

霍汶希开工派利是好热闹!谢霆锋成最大财神

无心小姐姐 浏览 1702

大国放大招,交割日要注意了

大猫财经Pro 浏览 2344

2026款五菱扬光预售:限时一口价6.98万起,动力续航加量不加价

IT之家 浏览 1742

特朗普:对伊朗的军事行动我们已经赢了 但还没赢够

每日经济新闻 浏览 31298

消失4年后,主持人程雷官宣一则喜讯

除夕烟火灿烂 浏览 2765

美国超百城抗议霸凌战争:反对向委内瑞拉开战

澎湃新闻 浏览 9719

牛弹琴:2025年最勇敢的一个动作 背后是全世界的震惊

北京日报客户端 浏览 8666

专家:诺贝尔化学奖获奖项目产业化或率先在中国实现

上观新闻 浏览 16561

这娱乐圈顶级渣男,居然翻身了

独立鱼 浏览 2348

大湾区晚会太混乱!跑调抢拍忘词破音全占了,合唱几乎都翻车

萌神木木 浏览 3251

擅自使用军机形象进行宣传 理想汽车回应

澎湃新闻 浏览 4012

涉中国电动汽车,美交通部长称“加拿大会后悔”,外国网友回怼:该后悔的是美国吧!

海外网 浏览 2292
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1