act 自动评分引擎crase5是怎么来的，还有它到底能不能顶事儿

听说了没，ACT刚放出来一个大报告，说的是他们新版的自动评分引擎CRASE5。这个报告有31页呢，是在2026年1月发布的，主要就是讲讲这个新引擎怎么来的，还有它到底能不能顶事儿。咱们先来聊聊这个CRASE5是怎么回事。它是2025年研发的，是在老版本CRASE的基础上加了不少新功能。比如能检测文章是不是跑题了、有没有坏内容，还能判断模型拟合得好不好，甚至能告诉你评分有多自信。为了验证它行不行，ACT团队把以前CRASE+的那一套研究框架搬了出来，拿了大概14000篇之前考试的人工评分作文来练手。这其中有8862篇用来训练模型，剩下的5128篇是用来验证的。这就好比是在考试里找人把关一样。这报告还专门拿1-6分和2-12分这两个分数尺度来做了测试。结果特别亮眼，1-6分这个范围里，CRASE5跟人给的分数精确一致率都超过了60%，加了相邻分数也算的话更是高达99%，那个叫二次加权Kappa系数的指标也达到了0.82以上，比人给的分还准！到了2-12分这个大尺度下，虽然精确一致率稍微掉了点，但整体得分分布跟人工记录的一模一样，QWK系数甚至能冲到0.88以上。按题目类型细分的时候也不错，就是个别提示下个别指标没达标。还有一个重点就是按ETS那种方法做了子组分析。他们查了查性别、西班牙裔身份还有种族民族这些方面，发现除了少数几个子群的差异稍微大点外，大部分都没啥差别。看来这个评分引擎还挺公平的。除了打分准之外，CRASE5还加了一个预评分的流程。它能自动给文章加条件码，比如看看是不是空着没写、是不是用了别的语言、是不是跑题或者字迹太潦草。要是有啥让人不安的内容它也能识别出来。另外它也保留了老规矩：如果字数不够25个字或者大写字母超过20%，这种文章还是得给人工去评。总的来说这版模型跟老版比起来效果相当甚至还更优一些。新增的这些功能让评分更全面也更靠谱了。这次实验的数据来源也挺可靠的——全是从ACT国际考试和州级考试里找的真实试卷数据。这么一看这个CRASE5真的挺值得期待的啊！