第168章重启SLRM研究四

你在读故事，故事也在回应你。

⚡ 自动续章 读到章尾自动进入下一段回响

⚡ 开启自动续章更爽 看到章尾自动进入下章，故事不断线。

&emsp;&emsp;“算了，贪多嚼不烂。”

&emsp;&emsp;徐辰果断放弃了死磕d-ltmn的念头。

&emsp;&emsp;“先把slrm这碗饭吃到嘴里再说。”

&emsp;&emsp;“只要把这篇关於slrm的论文发出去，拿到系统的经验奖励，把信息学等级提升到lv.1，到时候再回头来收拾这个d-ltmn，还不是手拿把掐？”

&emsp;&emsp;打定主意后，徐辰不再纠结。

&emsp;&emsp;……

&emsp;&emsp;不过，在正式整理论文之前，他决定先把“战绩”刷得更漂亮一点。

&emsp;&emsp;光有一个clutrr数据集的成绩，虽然惊艷，但难免会被人质疑是“过擬合”或者“运气好”。

&emsp;&emsp;要让审稿人闭嘴，最好的办法就是——全方位碾压。

&emsp;&emsp;他打开了ing face的排行榜，挑选了几个公认最硬核的逻辑测试集：

&emsp;&emsp;- snli (stanford natural language inference)：斯坦福自然语言推理数据集。这是nli任务的鼻祖，要求模型判断两个句子之间的逻辑关係，比如蕴含、矛盾、中立等。虽然经典，但对於大模型来说，依然存在“逻辑陷阱”。

&emsp;&emsp;- logiqa：这是由公务员考试题目组成的逻辑推理数据集，包含演绎推理、归纳推理等多种题型，难度极高，被称为“ai的智商测试”。

&emsp;&emsp;- proofwriter：这是一个要求模型不仅给出答案，还要生成完整逻辑证明过程（proof generation）的数据集。这是对模型逻辑链条最严苛的考验。

&emsp;&emsp;徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型，进行测试。

&emsp;&emsp;徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

第168章 重启SLRM研究 四