评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
avove本人照片新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
461.71MB
查看812.70MB
查看70.7MB
查看631.32MB
查看422.38MB
查看941.67MB
查看850.87MB
查看599.58MB
查看545.45MB
查看990.29MB
查看874.83MB
查看332.39MB
查看570.34MB
查看560.51MB
查看625.94MB
查看126.60MB
查看417.31MB
查看575.94MB
查看342.86MB
查看248.18MB
查看251.45MB
查看422.21MB
查看602.35MB
查看844.69MB
查看173.14MB
查看967.40MB
查看769.34MB
查看959.29MB
查看113.96MB
查看375.64MB
查看158.44MB
查看907.88MB
查看294.55MB
查看671.37MB
查看792.86MB
查看576.32MB
查看130.32MB
查看352.67MB
查看580.32MB
查看821.17MB
查看254.78MB
查看450.65MB
查看163.30MB
查看591.89MB
查看572.42MB
查看128.73MB
查看464.94MB
查看209.96MB
查看905.47MB
查看241.44MB
查看552.15MB
查看176.28MB
查看225.81MB
查看253.88MB
查看388.95MB
查看901.63MB
查看502.39MB
查看785.24MB
查看862.26MB
查看890.36MB
查看497.81MB
查看343.30MB
查看455.28MB
查看302.73MB
查看844.31MB
查看367.82MB
查看674.63MB
查看351.21MB
查看785.70MB
查看689.20MB
查看885.36MB
查看990.25MB
查看714.36MB
查看390.39MB
查看858.89MB
查看446.97MB
查看118.83MB
查看178.12MB
查看696.10MB
查看132.18MB
查看238.96MB
查看460.98MB
查看215.65MB
查看904.56MB
查看293.40MB
查看867.16MB
查看658.38MB
查看807.56MB
查看769.19MB
查看231.33MB
查看732.19MB
查看601.45MB
查看469.54MB
查看196.68MB
查看238.81MB
查看573.79MB
查看154.85MB
查看399.33MB
查看517.38MB
查看892.16MB
查看602.45MB
查看417.39MB
查看396.16MB
查看165.16MB
查看
808 玉门dv
神十八升空后仅一分钟基地狂风大作💇
2025-07-01 16:18:32 推荐
436 188****4956
三星堆挖出酷似“飞碟”青铜器?不实🕺
2025-07-01 01:34:17 不推荐
262 152****3222
网友实拍石家庄冰雹🙅
2025-07-01 07:50:36 推荐
74 街头足球
抗癌东东胃癌晚期去世🙋
2025-06-29 18:26:38 推荐