首页 > 玄幻 > 学霸的征途是星辰大海 > 第168章 重启SLRM研究 四

第168章 重启SLRM研究 四

你在读故事,故事也在回应你。

⚡ 自动续章 读到章尾自动进入下一段回响
⚡ 开启自动续章更爽 看到章尾自动进入下章,故事不断线。

  “算了,贪多嚼不烂。”

  徐辰果断放弃了死磕d-ltmn的念头。

  “先把slrm这碗饭吃到嘴里再说。”

  “只要把这篇关於slrm的论文发出去,拿到系统的经验奖励,把信息学等级提升到lv.1,到时候再回头来收拾这个d-ltmn,还不是手拿把掐?”

  打定主意后,徐辰不再纠结。

  ……

  不过,在正式整理论文之前,他决定先把“战绩”刷得更漂亮一点。

  光有一个clutrr数据集的成绩,虽然惊艷,但难免会被人质疑是“过擬合”或者“运气好”。

  要让审稿人闭嘴,最好的办法就是——全方位碾压。

  他打开了ing face的排行榜,挑选了几个公认最硬核的逻辑测试集:

  - snli (stanford natural language inference):斯坦福自然语言推理数据集。这是nli任务的鼻祖,要求模型判断两个句子之间的逻辑关係,比如蕴含、矛盾、中立等。虽然经典,但对於大模型来说,依然存在“逻辑陷阱”。

  - logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”。

  - proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proof generation)的数据集。这是对模型逻辑链条最严苛的考验。

  徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型,进行测试。

  徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

共振标签: 历史 科幻 武侠 都市 仙侠 玄幻 同人 游戏