爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

特朗普转发针...

苹果iOS ...

科学家重构常...

秋冬别穿阔腿...

Adobe ...

最高法改判福...

以总理办公室：内塔尼亚胡28日将启程访美

内娱最癫综艺，又出来「作妖」了

美国在委内瑞拉附近水域拦截第三艘油轮

妻儿三人被丈夫发小杀害：空调开16℃ 地上没有血迹

宝藏BOSS冯擎峰：是CTO，也是CEO

舞蹈与千年古镇碰撞第二季新市古镇舞蹈艺术季启幕

大众汽车营收微降却亏麻了，利润腰斩暴跌53.5%！

布拉格队长：下半场我们想踢得更具威胁，但阿森纳太强了

宗馥莉第二次辞职娃哈哈集团已经被外界视为＂空壳＂

上汽零售赶超比亚迪

科学家开发“神经蠕虫”，实现颅内电极游走模式

山西103-77大胜同曦取4连胜，诺威尔20+6，郭昊文23分

50万往上的车，还用1.5T增程器，车企穷疯了？左右逃不出3个原因

飞傲雪漫天BEATBOX便携CD播放器亮相，预计明年2月上市

2026年AI赛道群雄逐鹿，跨国车企巨头如何摆兵布阵？

被家暴16次女子得70%共同财产及10万赔偿共140万余元

瞄准2028年重要选举郑丽文最新表态

内娱又增新赛道，叶祖新坐着就抢了主角的戏

全新前脸/三种座椅布局可选第三代豪越L内外饰曝光

郭晶晶也没想到霍启刚香港火灾后实现口碑暴增

兰博基尼Athon概念车：破产边缘的设计奇迹

长这样的外套，大骨架女孩不要买！

李想汽车研究院：让AI从＂工具使用者＂进化为＂工具创造者＂

基米希被法比安鲁伊斯爆头，裁判未做表示，VAR未介入