第168章 重启SLRM研究 四
你在读故事,故事也在回应你。
  “算了,贪多嚼不烂。”
  徐辰果断放弃了死磕d-ltmn的念头。
  “先把slrm这碗饭吃到嘴里再说。”
  “只要把这篇关於slrm的论文发出去,拿到系统的经验奖励,把信息学等级提升到lv.1,到时候再回头来收拾这个d-ltmn,还不是手拿把掐?”
  打定主意后,徐辰不再纠结。
  ……
  不过,在正式整理论文之前,他决定先把“战绩”刷得更漂亮一点。
  光有一个clutrr数据集的成绩,虽然惊艷,但难免会被人质疑是“过擬合”或者“运气好”。
  要让审稿人闭嘴,最好的办法就是——全方位碾压。
  他打开了ing face的排行榜,挑选了几个公认最硬核的逻辑测试集:
  - snli (stanford natural language inference):斯坦福自然语言推理数据集。这是nli任务的鼻祖,要求模型判断两个句子之间的逻辑关係,比如蕴含、矛盾、中立等。虽然经典,但对於大模型来说,依然存在“逻辑陷阱”。
  - logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”。
  - proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proof generation)的数据集。这是对模型逻辑链条最严苛的考验。
  徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型,进行测试。
  徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。