拒绝AI一本正经胡说八道!微软(MSFT.US)这回给大家带来了大惊喜:全新的Critique系统双模型协同干活,专门帮AI“把把脉”、“把把关”。智通财经APP看到了,微软(MSFT.US)周一揭晓了一系列新动静,搞出了个叫“Critique”的深度研究神器。据老板萨蒂亚·纳德拉说,这套系统特别“神”,把老一套的单一生成任务给拆成了“生成”和“评估”两截活儿。先把工作任务规划好、信息找全、写个草稿,后面那个模型就像个老专家一样专门盯着——得让它把事实对错、逻辑链条顺不顺、最终报告精不精炼都给看仔细了。这样通过多模型之间的交流互动实现自我修正,主要就是想彻底治治AI现在普遍存在的“瞎编”毛病。这系统的兼容性那是相当高了!不光是微软自家的Phi模型能往里塞,OpenAI的GPT系列和Anthropic的Claude系列也都能用上。比如说先让GPT这种擅长创意的模型先把初稿弄出来,接着再让Claude这种逻辑缜密的家伙过来审一审。微软拿出的新测试数据也挺有说服力的:Critique在结果的广度、深度还有表述质量上都比市场上那些用单一架构的玩意儿要厉害不少。 除了Critique,微软还搞了个“Council”来帮忙。这个Council能让用户在同一个界面里同时开好几个不同厂家的AI模型一起干活儿。它会再请一个专门的第三模型来当“裁判”,自动把各个模型的产出结果对比一下、总结一下差别。这样调研人员就能把单一模型容易漏掉的东西给补全了。微软解释说:你在Researcher的模型选择器里选了Council之后就能用了。这时候它会同时跑Anthropic和OpenAI的模型。每一个模型都会出一份完整独立的报告,把另一个模型可能忽视或者没看重的事实、引文和分析框架都给列出来。两份报告出来之后,又会有一个专门的评判模型给它们打分、提炼关键的摘要。这个摘要会特别指出两个模型之间的共识或者分歧——比如在数据规模、分析框架或者解释上有啥不一样——还会指出每个模型各自有啥独特的贡献。 这两项新功能目前都已经塞进了Microsoft 365 Copilot的“Researcher(研究员)”工具包里了。根据微软的规划安排,Critique和Council这两个功能现在还在测试阶段。第一批能进去玩的人都得是加入了微软“Frontier计划”的企业客户才行。行家们分析觉得,这回这个深度研究系统落地之后,微软在企业级工具这块儿的护城河肯定会更宽。这也预示着AI的竞争风向变了:以前大家都在拼模型参数大小现在大家都开始琢磨怎么搞系统集成和逻辑验证这种复杂活儿了。