中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底 环球精选
快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准(SuperCLUE),是
快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
(资料图片)
根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。
值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。
在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。
而百度文心一言在总榜单中排名最后一名,得分32.61分。
据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
总榜单
基础能力榜单
中文特性榜单
责任编辑:
关键词:
[ 相关文章 ]
快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准(SuperCLUE),是
1、建立你的梦想。2、build英[bɪld] 美[bɪld] v 建造;开发;创建;逐渐增强n
一支亚洲球队排在了世界杯预选赛欧洲区小组赛的第一,这是史无前例的。本轮世界杯预选赛欧洲区A组,卡塔尔2
据国家统计局网站9日消息,国家统计局发布数据显示,2022年全国规模以上企业就业人员年平均工资为92492元,
新华社罗马5月8日电(黎梦青)意大利足球甲级联赛8日结束第34轮,萨索洛主场1:1战平博洛尼亚。桑普多利
【韩国拟最早本月起取消新冠隔离义务将预警级别下调至“警惕”】韩国《亚洲日报》5月9日消息,当地时间5日
不知不觉中又到年关了,其中在最能体现年味儿的美食中,腊肉、香肠绝对是所有人的最爱。往年我给大家分享的
此时苹果:靠iPhone续命,靠印度翻身,这棵摇钱树还能撑多久?
谁也没想到,在一向很安全的火车上,竟然发生了一起持刀伤害致死案。除了刀具之外,还有一个细节让人难以理
1、朋友,您好。2、您用鼠标指向歌名,就可以显示出歌曲链接,这时右键点那个链接,再弹出来的菜单中选择“
5月8日,浙江省第十五个全国防灾减灾日防震减灾迎亚运健康跑活动在杭州运河亚运公园举办。5月12日是第15个
欢迎观看本篇文章,小柴来为大家解答以上问题。问道五行竞猜使有什么技巧,问道五行竞猜技巧介绍很多人还不
本报记者韩昱今年以来,地方债发行保持了较快的节奏,进入二季度后,不少省份也已披露了后续发行计划。据国
橘子洲烟花在哪个位置看最好?一、收费地点①杜甫江阁内,杜甫江阁是毋庸置疑的最佳观看点,烟花燃放期间入
5月8日,森泰股份(301429)融资买入155 77万元,融资偿还191 1万元,融资净卖出35 34万元,融资余额1873 87万元。
哈尔滨市物业管理协会近日发通知,要求物业服务企业:“主动提示,事前告知”,应将装饰装修的禁止行为和注
“开年以来,很多人都感受到,人流物流更加活跃了,餐饮旅游快速恢复了,项目建设明显提速了,招商引资也加
本报北京5月8日电(记者刘诗瑶)记者近日从自然资源部获悉:初步核算,一季度全国海洋生产总值2 3万亿元,
中新网5月9日电综合外媒报道,推特老板马斯克当地时间8日表示,“推特”将清除该社交媒体平台上多年不活跃
5月8日,金博股份(688598)融资买入648 84万元,融资偿还726 77万元,融资净卖出77 93万元,融资余额10 83亿元。
[ 相关新闻 ]
Copyright 2015-2023 非洲医院网 版权所有 备案号:沪ICP备2022005074号-8 联系邮箱:58 55 97 3@qq.com