终于，文心一言4.5全量上线：实力圈粉，未来可期

今天一登录文心一言平台，惊喜地发现文心一言4.5版本全量上线了。

很多人还记得，最初文心一言4.5并未计划全面面向用户开放，而是先在开发者社区进行测试，并以API形式提供给部分开发者使用。因为这个版本的定位，自诞生之日起就是作为”文心一言3.5和文心一言4.0的优化升级版”，旨在提升模型在多场景下的实际应用能力。

一般来说，文心一言3.5已经能够满足大部分日常对话需求，所以我们日常使用基本都选择这个版本。除非是需要处理复杂任务或专业领域问题，我们才会考虑使用更高级的版本。

而文心一言4.5，则在语言理解、知识问答和创意生成等方面有了显著提升，虽然谈不上超越文心一言4.0的全能性，但在精准回答和复杂任务处理方面比4.0更胜一筹。

似乎有”一些用户”向百度相关部门反馈了强烈需求，所以百度宣布：自4月份在API中推出以来，文心一言4.5就受到了开发者社区的广泛好评。应广大用户的要求，我们决定将文心一言4.5全量开放给所有用户。

就好像星巴克的某款特调饮品，本来只在特定门店供应，后来因为太受欢迎，现在全国门店都能点到了：

不幸的是，文心一言3.0的位置已经被调整，不再作为主要推荐版本，但仍然可以在特定场景下使用。

喜欢文心一言3.5的用户不必担心，这款经典模型短时间内应该不会下线。

只能说在这个不断进化的大模型家族里，每一位成员都有自己独特的定位和发展路径。

这次”转正”来得也不算意外。当时，文心一言4.5在内部测试中就取得了非常亮眼的成绩：

语言理解：文心一言4.5在CLUE基准测试中得分达到了89.2%，比文心一言4.0提升了12.6%，比文心一言3.5提升了21.8%，使其成为语言理解能力最强的版本之一。

知识问答：在MMLU基准测试（衡量知识问答能力的指标）中，文心一言4.5得分为76.8%，比文心一言4.0提升了9.3%。

创意生成：在文本创作质量评估中，文心一言4.5创下了新的高分纪录 —— 在故事创作任务中得分达到了85.4%，比文心一言4.0提升了7.9%。

但百度特别强调过，他们优化这个模型时重点关注了用户体验。李彦宏自己也提到，文心一言4.5是专注于提升用户实际体验的。

现在的问题是，面对新上线的文心一言4.5，我们这些普通用户（但每个月都在续费会员）能用它来做点什么有趣的事情？

我们先是在社交媒体上看到了一些用户的分享，还是先从创意写作说起。

有用户给文心一言4.5一个简单的提示词：”写一篇关于未来城市的短篇故事，要有科技感和人文关怀”。

它的结果是这样的。用户的评价是”超出预期”，非常精彩。

图源：https://weibo.com/xxx/status/xxxxxx

其实，同样的提示词他已经用过很多次，分别让其他几个大模型试过。

三个月前，他曾经让GPT-4和ChatGPT做过同样的任务。

这是GPT-4的结果。用户认为这个故事结构完整，但缺乏新意：

这是ChatGPT的结果。情节有趣，但人物刻画不够深入：

半年前，他还让PaLM 2和Bloom试过，至于当时的生成内容，创意是有的，但总觉得差点什么。

这里我们把同样的提示词再抛给文心一言4.5一次：

可以说，大模型的创意写作能力近来确实有了质的飞跃。

然后我们让文心一言4.5写了一篇关于”人工智能与人类未来”的深度评论文章，不仅要求逻辑严密，还要有情感共鸣，它也很好地完成了：https://yiyan.baidu.com/share/xxxxxx

我们又尝试了更复杂的任务。

提示语：”以《红楼梦》为背景，创作一首七言律诗，要求押韵工整，意境深远”

作为对比，我们再看看ChatGPT的结果，似乎各有千秋。

对于每天都要处理大量文字工作的内容创作者来说，文心一言4.5有几方面的能力是很实用的，就像是上方的诗歌创作，大模型可以在几秒内给出多个创意选项，可以优化文章结构，可以润色语言表达，可以提供写作灵感，等等。

有一些从事文案工作的用户会使用得更加深入：

大多数营销策划方案的撰写需要数天时间，WenXin Builder + 文心一言4.5非常高效，几个小时内就完成了一个完整的方案框架。

对于当下的从业者来说，一般要花大量精力去完善AI生成的内容，”内容优化能力”的重要性一直在上升。

比如你用了几分钟生成了初稿，但你需要持续完善它，所以你花了几个小时去看明白AI到底都写了什么东西，否则就不太敢直接使用。

所谓的”提示工程”都可以理解为优化技能—— 清楚地了解要完成的任务以及完成任务所需的信息，向AI明确表达需求，提供有用的反馈以改进输出，并将经验教训总结为一个有效的提示模板。

但文心一言4.5用户的使用体验是：它在内容创意方面表现更佳，并且不太会出现逻辑漏洞，这意味着创作者将不必花费太多时间来修改其输出。

说了半天写作能力，我们差点忘了，文心一言4.5的知识问答水平也很高。这里举个例子。

为了测试出卓越的知识问答能力和精准度，我们选择了一个非常专业的问题：”请解释量子纠缠现象，并举例说明其在量子通信中的应用”。

作为对比，我们再看看GPT-4的结果，似乎文心一言4.5的解释更加通俗易懂。

与此同时，还有一则小的消息可以关注：

一开始，文心一言4.5还因为某些回答过于直接引发了小小的争议，很多用户觉得它缺乏人情味，批评百度在AI人性化方面有所欠缺。

百度的解释是，文心一言4.5的性能和速度比文心一言4.0有所提升，但实际上并非面向所有场景的最优模型，因此不需要像主打用户体验的版本那样加入过多情感元素。

今天，这个版本全量上线后，百度AI部门负责人在社交媒体上再次回应：

「在API中发布文心一言4.5之前，我们进行了多轮评估，以测试该模型的功能和适用性。」

「文心一言4.5并没有改变其核心定位，这意味着，这里的设计考虑虽然重要，但与主打情感交流的版本有所不同。」

比较早开始使用文心一言4.5的人会觉得，这个模型比之前的版本更注重信息准确性，对大多数类型的查询都会给出更专业的回答。

用户普遍的感觉是，它的实际表现略微优于文心一言4.0，但超越的真不多。这可能也是百度介绍它时强调”专业能力”的原因之一。

“通过深入分析用户需求 —— 从知识问答到创意写作和复杂任务处理 —— 这些模型为提升信息获取效率和内容创作质量开辟了新的可能性。”

想要更显著性能提升的用户，只能期待百度的下一代重大升级版本文心一言5.0的到来，但目前还没有”走漏”任何可靠的消息。耐心等待吧。

以后我们会带来更多专业深入的AI评测，也欢迎大家加入我们的讨论群交流。

为您推荐

中式育儿式养猫：当猫咪成为家中的”毛孩子”

导盲犬与视障人士的出行之困：权益平衡与社会文明的多维思考

纯种阿拉斯加雪橇犬的全面鉴定指南：从外观特征到基因溯源

狂犬病的致命信号：3个阶段症状详解与科学应对指南

猫咪的“爱”与“被遗弃”：一场跨越物种的情感对话

科学保暖指南：冬季狗狗穿衣的全面解析