爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

NBA战报：...

乌代表团“换...

巴基斯坦总理...

刚说完＂很快...

公安分局公示...

次节觉醒，杨...

梁小龙一生太精彩！曾被封杀20年，公开承认出轨，还跟周星驰反目

官方出手，这一次谁也救不了狂妄自大的张雪峰？

《新闻女王2》首播爆开！开局高能剧情紧凑，黄宗泽演技拖后腿

比速腾L略小入门级的全新速腾S将发布

曾以105.6万成交的＂凶宅＂再次上架 26.6万元起拍

特朗普对中国加征100%关税意欲何为专家：捞谈判筹码

美联储的“十字路口”

人道局势持续恶化加沙停火能否进入第二阶段尚存变数

真爱大牌返场|| 每次分享都秒没！真不愧是我爱了十年的牌子

AR行业2~3年内出现“iPhone时刻”？智能眼镜龙头加速布局上海

Meta收购曾火爆一时的AI智能体社交网络Moltbook

A股天然气板块拉升，霍尔木兹海峡关闭引全球气价预警

霍汶希开工派利是好热闹！谢霆锋成最大财神

大国放大招，交割日要注意了

2026款五菱扬光预售：限时一口价6.98万起，动力续航加量不加价

特朗普：对伊朗的军事行动我们已经赢了但还没赢够

消失4年后，主持人程雷官宣一则喜讯

美国超百城抗议霸凌战争：反对向委内瑞拉开战

牛弹琴：2025年最勇敢的一个动作背后是全世界的震惊

专家：诺贝尔化学奖获奖项目产业化或率先在中国实现

这娱乐圈顶级渣男，居然翻身了

大湾区晚会太混乱！跑调抢拍忘词破音全占了，合唱几乎都翻车

擅自使用军机形象进行宣传理想汽车回应

涉中国电动汽车，美交通部长称“加拿大会后悔”，外国网友回怼：该后悔的是美国吧！