爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

从样品到产品...

快手全员发开...

特朗普威胁＂...

绿色+棕色、...

这件外套好火...

安乃达等在南...

变盘？危险的下注开始了

痛惜！资深音乐人突发意外去世，很多人听过他的歌...

陈浩民夫妇滞留阿联酋，半夜发文怀念祖国

12306汽车托运服务订单火爆客服：目前有9条线路可选

冬季穿衣没想象中那么难，看看这些穿搭就有灵感，保暖又好看

马卡：C罗在红海购入两栋豪华别墅，享受私密宁静的家庭时光

特斯拉 FSD V14 Lite 将上线，老车主率先体验

记者：马竞准备2500万镑卖加拉格尔，维拉等俱乐部有过问询

两位省委常委跨省履新其中一人曾长期在中纪委工作

71岁奶奶获健美比赛冠军：把健身当上班被儿媳夸偶像

群核科技，摸着李飞飞过河

“东风Jeep”要来了？Jeep全球高层到访武汉

中戏否认闫学晶儿子读新疆班，官方发文打假闫学晶！

马斯克：解散 xAI，把22万张GPU租给OpenAI死对头

打破惯例！iPad 12被曝或搭载iPhone 17同款A19芯片

惠若琪拟任新职！父母没生儿子被轻视

2025世界青年科学家峰会聚焦开放合作

全系标配激光雷达东风奕派eπ007+预售14.99万起

全智贤与《暴风圈》剧方仍未发文道歉

美媒扒哈登末节细节：快船追到只差15分登哥穿训练服两眼空洞

售14.98万方程豹钛3推501km后驱Ultra版

能把埃尔法打下神坛？智界V9申报图曝光定价50万左右

从文淇被堵看无赖滋事的成本有多低

美国“恢复核试验表态”背后有何考量