关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻15250人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用市场越广带来的优质数据也会越高,这样其实是能够实现双飞轮的运转,从而加速AIGC领域的成长。”黄民烈接着说道。
2月20日晚,MOSS发布至公开平台(https://moss.fastnlp.top/),邀公众参与内测。当晚,社交媒体上出现截图,显示该平台“服务器流量过载,请明天上午重试”。随后,该平台官网发布一则公告,解释称“计算资源不足以支持如此大的访问量”,“给大家造成非常不好的体验和第一印象”,并致以真诚的歉意。

复旦MOSS团队回应体验“非常不好”:距离ChatGPT还有很长的路。


在公告中,MOSS研究团队称,“MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。”
那么AI对话技术发展到今天经过了哪些关键节点,当下的“技术路线”又是什么?
黄民烈解答道,回顾早期聊天机器人的对话,大部分都是基于规则的,第二代在技术上混合了一些规则和机器学习的方法。到了第三代,就是以Transformer为基本架构的大模型作为技术底座,实际上还是在一个新的神经网络架构下,结合大量的数据和算力优化去做到的,所以技术上有了显著的一些进步。由于对话本身就是在语言处理中最重要也是最难的任务,也就是最近一两年,才因为大模型的发展使得聊天机器人在性能上有接近人类的表现。
复旦大学计算机科学技术学院教授邱锡鹏此前在接受澎湃新闻采访时表示,“GPT-3的In-context learning是一个我觉得有变革性的范式。不再需要调参,给一些提示,就可以去做任务了。这个目前虽然说质量并没有调参的好,但也能达到一个不错的效果,这个会让大模型看起来更加智能。”
什么是In-context learning(上下文学习)?“以前的方式是基于模型参数调整的,比如说要识别猫,然后看模型能不能检测到猫的位置。如果标的不对,再通过误差反过来去调整参数,使得预测和正确位置对应起来。上下文学习则是圈出来猫的位置,然后再给它一张另外的图片,问它猫在哪里?它就能够正确圈出来。这个任务它之前没有见过,但是通过这样的方式就学会了。”邱锡鹏讲解道。
调参极耗费人力和时间成本,尤其是GPT-3这样的超大模型。碳同化系统Carbontracker估计,训练GPT-3一次所需的电量与丹麦126户家庭每年使用的电量相同。而In-context learning可以让一个未经进一步调参的预训练大模型,通过给其恰当的demonstration(示例)学会完成目标任务。
黄民烈也提到上下文理解技术。“ChatGPT最大的特点是通用任务助理,也就是在一个模型之内可以完成如此之多的开放任务,同时它在生成任务、上下文理解、安全伦理方面也有相当好的表现。”总结而言,黄民烈认为,这里面的技术突破是一个技术、工程、数据的综合性工程创新,是一个长期积累从量变到质变的过程。比如从GPT-3到代码,到加instruct,到RL,以及数据和模型之间的飞轮,造成了这些质变。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

姚明回应上海队和江苏队消极比赛:十分痛心

环球网 浏览 101244

变异新冠病毒三大特征,正在迅速取代其他新冠病毒版本

趣看热点 浏览 22075

法甲官方第26轮最佳阵:梅西、姆巴佩在列,巴黎四将入选

直播吧 浏览 15331

罗斯回归尼克斯,自爆此前缺阵是因为自己与家人感染新冠

趣看热点 浏览 21609

贾跃亭又拿到9000万美元续命钱!

国际金融报 浏览 11823

西方再送"大礼" 各方都在豪赌乌克兰大反攻结果

新民晚报 浏览 12455

23岁女教师工作3个月轻生 校方否认不让家属看监控

红星新闻 浏览 61078

58岁刘嘉玲玩少女风 脸僵被指一言难尽

萌神木木 浏览 15119

警惕!荷兰出现首起新冠动物传人事件,水貂成新冠病毒潜在宿主

趣看热点 浏览 21836

能否挑战 19 万美元纪录?罕见4GB未拆封初代苹果iPhone再次拍卖

IT之家 浏览 7464

掘金无缘登顶西部:约基奇9中8砍27+11+6里程悲 超越詹皇改写历史

厝边人侃体育 浏览 9148

奔驰男加塞砸车后续:车主信息被披露 3省市跟着遭殃

鋭娱之乐 浏览 57908

末节7中1还犯致命错误:热巴完败约基奇没借口 内线狂输26分太惨

颜小白的篮球梦 浏览 12669

“中方提出想法后,泽连斯基很快就接受了”

参考消息 浏览 14845

解放军演习期间蔡英文发图称都有掌握 国台办回应

环球网资讯 浏览 15110

辽篮官宣夏训!以年轻球员+恢复为主,2流言球员留队,李虎翼跟队

篮球资讯达人 浏览 12881

灰熊做空中通快递全文:中国“一流”物流的真相

阿尔法工场 浏览 15612

湖南要求严控债务风险:有多大财力办多大事

澎湃新闻 浏览 12361

韩总统室称中国驻韩大使发言"不是一般的过分"

直新闻 浏览 12492

牛莉与16岁女儿穿一身名牌在日本挤地铁 女儿身型猛涨

古希腊掌管月桂的神 浏览 42038

虚假宣传!任泽平宣称能生发防脱的洗护产品被处罚

界面新闻 浏览 8688
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1