关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者2296人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"烟花秀"事件后始祖鸟遇"三连挫":大中华区总经理离职

每日经济新闻 浏览 9230

她们冬天这样穿,真的很美!

黎贝卡的异想世界 浏览 2469

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

财联社 浏览 2085

日产卖楼关厂裁员,断臂求生

21世纪经济报道 浏览 3117

黄金有关税收新政落地首周,市场各方反应如何?

中国商报 浏览 3170

知名博主喊话沈伯洋 用"吉林一号"公布其居住、工作地

澎湃新闻 浏览 17659

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 16746

田中碧:日本球员水平在提升,想知道与巴西的差距就得比一场

懂球帝 浏览 3547

国产GPU厂商燧原科技科创板IPO获受理 拟融资60亿

网易财经 浏览 2188

蒙特利尔大学团队发现让AI"分段思考"的惊人秘密

科技行者 浏览 3103

岚图冲刺港股0融资:车型“偏科”,年销目标前9月完成48.5%

尺度商业 浏览 3621

马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱

机器之心Pro 浏览 2638

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 9833

中俄最后一刻没保住伊朗 制裁重启哈梅内伊政权危险了

文雅笔墨 浏览 36945

告别关税围城,中欧和解为国产电车赢得战略缓冲

车市洞察 浏览 2322

股价连跌6天,但泡泡玛特却在全球狂飙!

正解局 浏览 3350

腾势汽车12月销售18139辆 全年累计157134辆

网易汽车 浏览 2409

特朗普被指一边喊一边咒骂 让乌方把顿巴斯地区给俄方

红星新闻 浏览 9048

胡润榜财富增长较快的雷军李书福,每分钟净赚37万和15万?

BT财经 浏览 3233

"1999年小朋友捐140元给国家造航母"热传 当事人发声

都市快报橙柿互动 浏览 7449

西班牙足协主席:我们会充分照顾球员利益,俱乐部可以放心

懂球帝 浏览 3252
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1