gpt-4和claude-3,还是大模型能力评测中最受关注的一部分

Claude和Claude-3,还是大模型能力评测中最受关注的一部分。最近,工业和信息化部联手国家标准化管理委员会这些部门,发布了一份关于大模型能力的评估报告。这份报告把GPT-4和Claude-3都给拿来做了对比。AI技术发展得这么快,工业和信息化部还有国家标准化管理委员会这些部门就想出了这么个办法。他们专门把各大主流的大语言模型都给测了一遍,看看他们在逻辑推理、代码生成、常识问答这些关键能力上到底咋样。结果发现,虽说现在的模型进步很快,在这些方面也表现得不错,但是一提到测试标准,GPT-4和Claude-3还是表现得挺稳当的,给咱们判断行业技术水平提了个醒。现在大家最头疼的问题是,怎么才能建立一个科学又统一的评估体系呢?毕竟,各家公司用的模型不一样,能力也参差不齐。要是没个统一的标准来评判,咱们在选产品或者是用产品的时候就容易乱套。所以啊,不管是想搞技术发展还是搞应用落地,基准测试都是基础里的基础。