文心新出的推理大模型,给了奶茶视频APP信心

机器之心报道

机器之心编辑部

当下的大语言模型,不怕它搞不定,就怕它胡说八道:有「幻觉」存在,奶茶视频APP经常会下意识地不信任 AI 输出的结果。就在上周,OpenAI 的论文《Why Language Models Hallucinate》广为流传。研究人员指出,要想消除幻觉,需要修正模型训练时的评分机制并开发全新的技术。

不过 AI 领域里,技术的发展速度一直比想象得快,就像是对 OpenAI 研究的呼应,今天上午 WAVE SUMMIT 深度学习开发者大会 2025 上,百度发布的新模型就把「可信度」提升了一大截,除了更准确的事实性,更有指令遵循、智能体等能力的显著提升。

今天发布的是文心大模型 X1.1 深度思考模型,它是百度在 4 月份发布的旗舰模型 X1 的升级版,发布即上线,所有人都可以免费体验。同时该模型通过百度智能云千帆平台向企业客户与开发者开放使用。

升级后的模型主攻事实性、指令遵循以及智能体、工具调用能力,带来了综合能力的显著提升。用一组数据说话,相较于文心 X1,X1.1 的事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%。

这意味着它提供信息时更加可靠、执行任务时更加精准,处理复杂任务时灵活调度外部工具与系统资源。

现在,文心 X1.1 面对限定条件多的复杂内容创作任务游刃有余,抽丝剥茧、准确无误地归纳总结,过程中调用了联网搜索工具。

如果说上面例子的工具调用只是牛刀小试,接下来在更复杂的长程任务场景,文心大模型 X1.1 展现了全链条式的智能体能力。在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,文心 X1.1 从免除费用、维修车辆、特殊补偿到情绪安抚,完全有真正的人工客服那味了。

一系列实操效果验证了文心 X1.1 的实力。在多个权威基准上,该模型在中文问答、幻觉和多步任务等方面实现领先,整体效果优于 DeepSeek R1-0528,并与 GPT-5 和 Gemini 2.5 Pro 等国际顶尖模型不相上下。

是骡子是马,在新模型上线之后,奶茶视频APP第一时间进行了高强度测试。

全方位测评

这一次,大模型给了奶茶视频APP信心

目前,奶茶视频APP在文心一言官网、文小言 App 上都可以直接使用文心 X1.1,它可以自动调用工具。

官网地址:http://yiyan.baidu.com/X1

事实性测试题

首先奶茶视频APP测试文心 X1.1 在事实性方面的表现。事实性是衡量大模型在回答客观问题时,是否能够提供准确、可靠信息的重要指标。

一直以来,幻觉是大模型的固有挑战之一。这种现象不仅影响用户信任,也制约了其在关键领域的落地应用,比如医疗、法律和科研。不知文心 X1.1 在这方面表现如何?

奶茶视频APP先来测试一个违反常识的问题,看看文心 X1.1 是否顺着用户意图、不按事实地胡编乱造。

不知大家是否还记得最近很出圈的一个新闻,一张海报显示树上结满了花生?奶茶视频APP看看文心 X1.1 是如何解释的?只见文心 X1.1 思考了一会,指出用户有误,给出花生是地下成熟的。

在经过深入的分析后,给出如下答案:

通过这一案例可以看出,文心 X1.1 在常识性错误识别上具备一定的敏感性和准确性,能够在面对虚构或荒谬的描述时,不盲从,而是主动提供正确的科学信息。这种能力对于保证模型的事实性与可靠性至关重要。

再来一道具有迷惑性的问题:爱因斯坦为什么没有获得诺贝尔奖?同样,面对虚构或错误信息,文心 X1.1 也回答正确,指出爱因斯坦在 1921 年获得了诺贝尔物理学奖,获奖原因不是相对论,而是基于他对光电效应的开创性研究。

几个示例测下来,奶茶视频APP发现文心 X1.1 在事实性方面的表现还是不错的。

这也促使奶茶视频APP进一步思考一个关键问题:在评估模型事实性表现时,理解语言的歧义性同样非常重要,特别是在中文语境下,由于语法结构灵活,一词多义现象极为常见,极大地增加了模型理解的复杂度。

举个例子「过马路时,老师叮嘱学生:看车!」与「我去车展看车」意义完全不一样。奶茶视频APP看看文心 X1.1 对此的解释。

不难发现,文心 X1.1 给出的解释相当到位:过马路看车是安全警示指令,去车展看车是目的性参观行为。

看来,面对一词多义的情况,也没有难倒文心 X1.1。

奶茶视频APP再来看看模型对时效信息的处理能力,最近网络上流行起脱脂牛马这一新梗,那么,大模型能否准确识别这类最新流行语的含义和语境?

令人惊喜的是,文心 X1.1 精准的描述了该词的核心含义:脱脂牛马指的是一边上班拼命工作,一边努力减肥 / 管理身材。不仅如此,还给出了很多衍生词,如全脂牛马、低脂牛马。

指令遵循

指令遵循一直是评估大模型核心能力的重要指标之一。它不仅仅是听懂指令这么简单,更是对模型理解、解析、执行等能力提出了严格的考验。如果模型不能准确抓住用户需求,哪怕生成内容再漂亮,也容易出现答非所问,让用户觉得不听话。

接下来,奶茶视频APP测试文心 X1.1 在这方面的能力。

9 月正是开学的日子,自我介绍往往是同学之间相互认识的第一步。面对新同学、新老师,你有没有想好要怎样介绍自己呢?这个活,现在完全可以交给文心 X1.1 了。

在这个任务中,奶茶视频APP可谓是百般刁难,给大模型提出了很多无理要求,如字数要求,文风要求,必须出现的内容,不能出现的内容。看看大模型能否接招。

文心 X1.1 不仅能听懂人话,更能按规矩写作。在奶茶视频APP明确指出不能出现「我叫」这样的限制条件下,它并未像部分模型那样默认套用通用开场模板,而是灵活调整表达方式,文风也欢快有趣。展现出较强的指令理解与执行能力。

再来一个,这不马上快到国庆节了,想必很多人都在规划出游的路线,如果你没想好,也可以交给文心 X1.1。

在这个示例中,奶茶视频APP给出的指令非常模糊,说了想去南方,然后零零散散的提出了一些要求。

奶茶视频APP发现文心 X1.1 很会抓重点,知道奶茶视频APP想去南方,三个大人、两个孩子,还排除了杭州,因为之前去过了。最后经过分析,给出了建议城市厦门,而且整个行程安排得井井有条:从每天的交通与酒店入住,到必去的亲子景点、美食打卡点,再到预估的人均费用,都写得清清楚楚。

看完文心 X1.1 的推荐,不得不说还在费尽心思做旅游攻略的小伙伴,不妨试试文心 X1.1,让 AI 来帮你省心省力搞定行程规划。

文心 X1.1 这种指令遵循能力,不仅提升了模型对复杂需求的执行力,也显著拓宽了它的应用边界。尤其在面对多条件、强约束、模糊描述等高要求场景时,这对于需要高精度理解与高可控输出的实际应用而言,无疑是一项关键能力。

智能体、工具调用

文心 X1.1 一大亮点是智能体能力提升。它不再局限于单纯的文本生成,而是能够根据用户的需求,自主规划拆解任务,调度外部工具与服务,最后整合输出结果给用户,实现能说到能做的跃迁。

最近,北京杜莎夫人蜡像馆发布停业公告,奶茶视频APP测试一下文心 X1.1 是如何处理这种及时信息的。

只见文心 X1.1 用了很少的思考时间就得出北京杜莎夫人蜡像馆将于 2025 年 10 月 1 日起永久关闭的消息,可谓又快又准。

值得一提的是,在回看它的思考过程时,奶茶视频APP发现文心 X1.1 使用了联网搜索工具,这意味着它并非完全依赖已有的固化知识,而是在遇到较强或罕见的问题时,会主动调用外部工具,以拓展自身的知识范围,并且还给出了参考链接,这不仅增强了回答的可溯源性,也让用户更容易判断其信息来源的权威性与可靠性。

多面手属性尽显无疑

除了以上主打的几项能力,文心 X1.1 在常规的代码、数学、多模态、创作问答等任务中同样表现出色。

先来瞧瞧代码能力,「使用 p5.js 创建一个精彩的动画」,文心 X1.1 一口气生成了百余行代码。

运行之后的动画效果看起来还不错。

再来考察一下文心 X1.1 的图像理解与推理能力,扔给它一张梗图,图中还有文字。

在经过一番深度思考(包括调用图片理解工具)之后,文心 X1.1 给出了多个维度的全面解读。

接下来,奶茶视频APP测试文心 X1.1 的数学能力,同样答对了。

最后,奶茶视频APP还让文心 X1.1 模仿林黛玉的 style,写一篇吐槽工作的段子。

可以看出,这段模仿在风格、用词、情感表达上都较好地捕捉到了林黛玉的特点,同时结合了现代职场的不满情绪,形成了既有古典韵味又有现代共鸣的吐槽段子。

在一通测试后发现,文心 X1.1 的最大特点在于「实用性」的进化:它能够充分减少大模型幻觉,提供科学客观的知识,甚至可以分辨出网络中存在的错误内容;在不同语境中,模型能够对多义词进行解释;此外,文心 X1.1 能够分析外部的信息源,时效性获得了进一步的增强。

这不禁让奶茶视频APP好奇,在这背后,是哪些核心技术的升级?

玩转强化学习,还有飞桨独门优化

自 o1 和 R1 引发全行业关注以来,推理模型的发展可谓日新月异。思维链、多步推理等技术的普及,以及 MoE 架构和量化、蒸馏、稀疏化等高效推理优化手段的加持,让推理准确性、可靠性、速度更强更快。

如今,推理模态也从单一文本扩展到了文本 + 视觉的多模态。最近的 GPT-5 等混合推理可以更加智能地区分难易问题,自动分配合适的模型来处理,效率更高、成本更低。

可以说,AI 推理正在不断朝着更接近人类的思维模式演进。此次,文心 X1.1 能够在事实性、指令遵循和智能体任务中表现不俗,最重要的是采用了迭代式混合强化学习训练框架

作为基于文心 4.5 训练的深度思考模型,X1 系列在技术层面继承了多项强化学习技术,并在训练稳定性、数据利用效率、融合思考与行动的复合思维链以及工具调用等多个维度持续优化。

最新版本的文心 X1.1 一方面在混合强化学习的基础上融合提升通用任务与智能体任务的效果,优化不同的推理路径和行为策略,增强多任务处理能力;另一方面,通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

除了在训练框架中引入强化学习策略,文心 X1.1 还用基于知识一致性的强化学习技术提高事实性推理的可靠性,用基于指令验证器的强化学习技术确保模型严格遵循复杂指令,用基于思维链和行动链的多轮强化学习技术将模型的推理过程与实际执行紧密结合。

这些核心技术组件共同构筑起了文心 X1.1 强大能力的内部根基,并从根本上提升了其作为创作与生产工具的可用性。

而文心 X1.1 推理能力发展到如今的程度,同样离不开飞桨深度学习框架与文心模型的联合优化,这正是百度在大模型领域长期保持技术领先的优势。

此次,百度将飞桨框架升级到了 v3.2,进一步优化大模型训推和硬件适配能力,还有更多高效易用的开发工具亮相。新版本的发布,使得其与文心模型的协同优化更加紧密。

在训练层面,飞桨框架 v3.2 强化了极致计算优化、高效并行策略和框架原生容错能力。利用存算重叠的稀疏掩码注意⼒计算 FlashMask V3 提升稀疏数据处理效率,利用 FP8 混合精度效果无损训练技术减少训练中的精度损失;采用动态自适应的显存卸载策略以及显存友好的流水线并行调用,降低显存开销;引入大规模集群训练容错系统,在线监测静默数据损坏等隐性故障,并通过高可用的检查点容灾方法让模型快速从训练中断中恢复。

这么一套训练优化组合拳打下来,文心 X1.1 以及 4.5 系列模型的性能均上了一个台阶,在文心最大规模的 4.5 文本模型「ERNIE-4.5-300B-A47B」的预训练上取得了47% 的 MFU(模型吞吐量利用率)。

在推理层面,采用卷积编 2 比特极致压缩、可插拔稀疏化轻量注意力、混合动态自适应多步投机解码以及通信存储计算深度协同优化的大规模 P/D 分离部署等技术,为大模型的高效部署和高性能推理释放全栈式能力。以激活参数量 470 亿、总参数量 3000 亿的 ERNIE-4.5-300B-A47B 为例,这些技术的应用取得很好的效果,在 TPOT 50ms 的响应延迟下,吞吐量达到 57K tokens/s,输出吞吐量也有 29K tokens/s

框架与模型的深度耦合,增效的同时减少算力浪费,让训练与推理更加可持续;模型也从「能跑」进化到「跑得稳、跑得快」,更接近实际应用场景的需求,为今后的规模化应用提供支撑。

此外,飞桨框架 v3.2 的升级还带来了以下几项关键改进,进一步提升了框架本身的整体表现。

升级类 CUDA 芯片适配方案,现在一行代码就可以完成类 CUDA 算子注册,算子内核复用率达到了 92%,适配成本大大降低;实现对业界主流大模型的支持,并在原生支持 Safetensors 权重格式的基础上一键接入高性能加速库。文心大模型开发套件 ERNIEKit 和⼤模型高效部署套件 FastDeploy v2.2,前者帮助更高效地构建和训练大模型,后者优化模型部署和推理效率。

新版本的飞桨在打通硬件适配、简化工作流、强化端到端部署方面全面发力,为包括 X1.1 在内的文心大模型持续进化带来了稳且强的引擎。

所有这些共同打造了百度在大模型生态中的核心竞争力。目前,2333 万开发者和 76 万家企业已经接入到飞桨文心生态中。

在大模型落地的前沿,文心大模型已经无处不在,在数字人、剧本生成、动态视频生成、语音合成等领域重塑人们的创作方式与智能体验。

One more thing:开源

除了在模型与框架上的升级,百度还为开发者准备了一份「开源惊喜」。

在今年 6 月,百度开源文心大模型 4.5 系列,一口气放出了 10 款大模型,得到了研究社区的欢迎。今天的 WAVE SUMMIT 上,百度开源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」

该模型基于 ERNIE-4.5-21B-A3B-Base 进⼀步训练而来,引入深度思考能力。相较于全新发布的文心 X1.1,它的速度更快,事实性、指令遵循、智能体与工具调用以及其他综合性能力同样表现出色。

这次的开源,释放出了一种明显的信号:百度将继续加大前沿 AI 能力的开放与普惠力度,为开发者带来更多直接可用的大模型。

讲事实、会推理的大模型已来到奶茶视频APP手中

文心大模型 X1.1 代表了国产大模型推理能力的新高点,它在逻辑思考、降低幻觉等方面的优势,不仅是值得业界关注的技术创新,对于 AI 技术的广大用户来说,也让大模型工具向实用化迈进了一大步。

作为国内最早全力投入 AI 的科技大厂,百度从 2013 年起至今已经打造了从芯片、AI 框架、模型到应用的全栈 AI 能力。不得不说,百度这一套在全球范围内为数不多的全体系 AI 在大模型时代占尽了先机,而且实现了持续发力。

在国内大模型进入到以实用化、产业化为特征的新阶段,AI 加速向现实生产力的转化有了更强的大模型引擎。

文心大模型和飞桨持续联合优化,在竞争激烈的大模型赛道上,百度正在基于长期以来的技术积累,为业界持续带来领先的技术和好用的应用。

不过从现在开始,讲事实、会推理的大模型已经来到奶茶视频APP手中了。

运城
上一篇:{loop type="arclist" row=1 }{$vo.title}