北大AI奥数评测,o1-mini比o1-preview分数还高

北大AI奥数评测,o1-mini比o1-preview分数还高

全红婵老家成景点团队投稿量子位公众号的系列一发布传统数学评测基准都显得不够用了满血版模型直接拿下分更难的奥数邀请赛也获得的准确率随着现有的评测集逐渐被攻克大家不禁开始好奇大模型能否胜任更具挑战性的数学...
  • 1
  • 共 1 页