第168章 重启SLRM研究 四

作品:《我的系统能刷数学经验

    虽然SLRM在工程上有很多缺点要解决,但不妨碍被验证是有效的。


    他将目光投向了系统手稿中的另一个核心模块——动态长时记忆网络(D-LTMN)。


    然而,当徐辰满怀期待地翻开这部分的草稿时,一盆冷水当头浇下。


    太残缺了。


    相比于SLRM部分还算完整的理论框架,D-LTMN这部分简直就是“灾难现场”。


    关键的图更新算法只写了一半,公式推导到最关键的地方突然断掉,取而代之的是一串乱码般的墨迹。关于注意力权重如何在图结构和序列结构之间动态分配的机制,更是只有寥寥几句语焉不详的描述。


    “这……这让我怎么补?”


    徐辰看着屏幕上的残卷,眉头紧锁。


    徐辰尝试着推导了几步,但很快就卡住了。


    这不仅仅是数学问题,更涉及到了极其复杂的认知科学和信息检索理论。


    “看来,LV.0的信息学等级,确实是硬伤啊。”


    徐辰叹了口气,不得不承认现实。


    虽然他靠着LV.3的数学直觉,硬生生啃下了SLRM这块硬骨头,但那是因为SLRM本质上是一个几何问题。


    而D-LTMN,更多的是一个工程和算法问题。


    没有足够的信息学底蕴,想要凭空补全这些缺失的环节,无异于盲人摸象。


    “算了,贪多嚼不烂。”


    徐辰果断放弃了死磕D-LTMN的念头。


    “先把SLRM这碗饭吃到嘴里再说。”


    “只要把这篇关于SLRM的论文发出去,拿到系统的经验奖励,把信息学等级提升到LV.1,到时候再回头来收拾这个D-LTMN,还不是手拿把掐?”


    打定主意后,徐辰不再纠结。


    ……


    不过,在正式整理论文之前,他决定先把“战绩”刷得更漂亮一点。


    光有一个CLUTRR数据集的成绩,虽然惊艳,但难免会被人质疑是“过拟合”或者“运气好”。


    要让审稿人闭嘴,最好的办法就是——全方位碾压。


    他打开了Hugging Face的排行榜,挑选了几个公认最硬核的逻辑测试集:


    - SNLI (Stanford Natural Language Inference):斯坦福自然语言推理数据集。这是NLI任务的鼻祖,要求模型判断两个句子之间的逻辑关系,比如蕴含、矛盾、中立等。虽然经典,但对于大模型来说,依然存在“逻辑陷阱”。


    - LogiQA:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“AI的智商测试”。


    - ProofWriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(Proof Generation)的数据集。这是对模型逻辑链条最严苛的考验。


    徐辰继续用他的Qwen-7B模型搭配SLRM模块组成的新模型,进行测试。


    徐辰首先看了下原始版本的Qwen-7B模型在这些数据集上的表现。


    以LogiQA为例,原始的Qwen-7B-Chat在零样本(zero-shot)下的准确率大约在35%-40%之间,在少样本(few-shot)下也很难突破50%的天花板。而像GPT-4这样的巨无霸,在这个榜单上常年霸榜,分数在75%以上。


    徐辰决定先用SLRM模块进行少样本学习,然后再将其与qwen-7b结合起来。


    “如果我能用一个7B的小模型,加上我0.5B的SLRM模块,在逻辑推理这个单项上,干翻GPT-4……”


    徐辰嘴角勾起一抹玩味的笑容。


    这就像是给一辆五菱宏光装上了曲率引擎,然后去纽北赛道上跟法拉利飙车。


    ……


    第一战:SNLI。


    原本,Qwen-7B在面对一些带有否定词或双重否定的句子时,经常会晕头转向。


    但现在,每当Qwen-7B生成一个推理步骤,SLRM就会在后台的高维几何空间里构建一个“逻辑盒子”。如果下一步的推理超出了这个盒子的范围,SLRM会立刻施加惩罚梯度,强迫它修正逻辑。


    测试开始。


    进度条走动。


    最终分数定格:94.5%。


    “嘶……”徐辰自己都吸了口凉气。


    原始水平:~75%。


    加持后:94.5%。


    GPT-4水平:~92%。


    “在NLI这种基础任务上,直接超越了SOTA(当前最佳)!”


    ……


    第二战:LogiQA。


    这是一个硬骨头。题目全是类似“如果A去,B就不去;如果B不去,C必须去……”这种绕口令。


    Qwen-7B原始水平大约是38%,这个水平基本就是蒙的。


    GPT-4的水平大约是76%。


    徐辰加载模型,运行测试。


    十分钟后。


    最终分数:81.2%。


    翻倍!直接翻倍!


    在这个榜单上,即便是千亿参数的LLaMA-3-70B,也还在65%左右徘徊。徐辰用7B的模型,跑出了比GPT-4还高5个点的成绩!


    ……


    第三战:ProofWriter。


    这是终极考验。不仅要对,还要对得有理有据。


    Qwen-7B原始水平大约是45%,会经常胡编乱造证明过程)。


    LAART (Qwen-7B + SLRM):98.4%。


    “98.4%……”


    徐辰看着这个数字,忍不住感叹SLRM的逻辑能力确实够强。


    “虽然推理速度慢得像蜗牛,泛化能力也有限,但在‘逻辑严谨性’这一块,它就是当之无愧的王者。”


    “有了这些数据,这篇论文,稳了。”


    ……


    随着徐辰将一份份测试结果上传到Hugging Face的Leaderboard,整个AI界,再次被那个神秘的“X”给震动了。


    这一次,不再是CLUTRR一个榜单的孤立事件。


    SNLI、LogiQA、ProofWriter……


    几乎所有主流的、公认最难啃的逻辑推理榜单,在一夜之间,全部被那个简单的字母“X”给血洗了!


    而且,分数不是微弱的领先,而是断层式的碾压!


    在LogiQA这种“智商测试”榜单上,X的模型甚至比第二名高出了整整5个百分点!


    那一连串绿色的“New SOTA”标志,就像是一排排闪烁的霓虹灯,刺痛了所有AI巨头的眼睛。


    更可怕的是,这些成绩的背后,依然没有公开任何模型权重,没有一行代码,甚至连那个“X”到底是谁,依然是个谜。


    ……