关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者2292人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

普京:美供乌"战斧"将引发局势升级 但不会改变战场局势

环球网资讯 浏览 3475

中国新能源汽车渗透率58.37%创历史新高

大象新闻 浏览 3472

2026北京两会|对话市政协委员刘亮:机器人技术迭代提速,北京打通产学研转化链路

北京商报 浏览 2129

网友称小区1楼4户业主联合私挖地下室 官方回应

潇湘晨报 浏览 7194

华为多款手机通过星闪认证,测试集含L2HC编解码等测试

IT之家 浏览 2190

老娘们不会完蛋的

江湖人称艾掌门 浏览 3082

DeepSeek连发两篇论文背后,原来藏着一场学术接力

机器之心Pro 浏览 2362

阿莫林更衣室怒骂曼联球员,直言愤怒失望!基恩炮轰红魔如小学生

罗米的曼联博客 浏览 2709

秦昊一家五口度假,伊能静少女打扮但很显胖

八怪娱 浏览 2659

国投瑞银被起诉背后

时代周报 浏览 2239

华为Momenta争夺保时捷,全球大厂智驾再度“投华”

汽车公社 浏览 2357

朝鲜空军庆祝活动 现场2名女飞行员示范飞行

看看新闻Knews 浏览 2818

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 3286

高德拿了谷歌剧本,餐饮商家想当主角

蓝鲸新闻 浏览 3872

E句话|她回应已分手,这俩原来真谈过?!

仙女事件簿 浏览 2381

肖战官宣微博之夜!红西装造型要复刻?

孤城落日 浏览 2097

骗取生育保险基金,主犯获刑十年!国家医保局曝光典型案例

环球网资讯 浏览 3473

张慧贤指责万鹏“当小三当惯了”万鹏方严正声明

韩小娱 浏览 3339

小米SU7高速碰撞后起火 事发前速度或超200km/h

网易汽车 浏览 3447

吴启华:后悔演反派,来内地定居还交社保

失宠的小野猪 浏览 2358

2025年,记住她们的名字!

时尚COSMO 浏览 1910
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1