听说了没,ACT刚放出来一个大报告,说的是他们新版的自动评分引擎CRASE5。这个报告有31页呢,是在2026年1月发布的,主要就是讲讲这个新引擎怎么来的,还有它到底能不能顶事儿。咱们先来聊聊这个CRASE5是怎么回事。它是2025年研发的,是在老版本CRASE的基础上加了不少新功能。比如能检测文章是不是跑题了、有没有坏内容,还能判断模型拟合得好不好,甚至能告诉你评分有多自信。为了验证它行不行,ACT团队把以前CRASE+的那一套研究框架搬了出来,拿了大概14000篇之前考试的人工评分作文来练手。这其中有8862篇用来训练模型,剩下的5128篇是用来验证的。 这就好比是在考试里找人把关一样。这报告还专门拿1-6分和2-12分这两个分数尺度来做了测试。结果特别亮眼,1-6分这个范围里,CRASE5跟人给的分数精确一致率都超过了60%,加了相邻分数也算的话更是高达99%,那个叫二次加权Kappa系数的指标也达到了0.82以上,比人给的分还准!到了2-12分这个大尺度下,虽然精确一致率稍微掉了点,但整体得分分布跟人工记录的一模一样,QWK系数甚至能冲到0.88以上。 按题目类型细分的时候也不错,就是个别提示下个别指标没达标。还有一个重点就是按ETS那种方法做了子组分析。他们查了查性别、西班牙裔身份还有种族民族这些方面,发现除了少数几个子群的差异稍微大点外,大部分都没啥差别。看来这个评分引擎还挺公平的。 除了打分准之外,CRASE5还加了一个预评分的流程。它能自动给文章加条件码,比如看看是不是空着没写、是不是用了别的语言、是不是跑题或者字迹太潦草。要是有啥让人不安的内容它也能识别出来。 另外它也保留了老规矩:如果字数不够25个字或者大写字母超过20%,这种文章还是得给人工去评。总的来说这版模型跟老版比起来效果相当甚至还更优一些。新增的这些功能让评分更全面也更靠谱了。 这次实验的数据来源也挺可靠的——全是从ACT国际考试和州级考试里找的真实试卷数据。这么一看这个CRASE5真的挺值得期待的啊!