今天一登录文心一言平台,惊喜地发现文心一言4.5版本全量上线了。
很多人还记得,最初文心一言4.5并未计划全面面向用户开放,而是先在开发者社区进行测试,并以API形式提供给部分开发者使用。因为这个版本的定位,自诞生之日起就是作为”文心一言3.5和文心一言4.0的优化升级版”,旨在提升模型在多场景下的实际应用能力。
一般来说,文心一言3.5已经能够满足大部分日常对话需求,所以我们日常使用基本都选择这个版本。除非是需要处理复杂任务或专业领域问题,我们才会考虑使用更高级的版本。
而文心一言4.5,则在语言理解、知识问答和创意生成等方面有了显著提升,虽然谈不上超越文心一言4.0的全能性,但在精准回答和复杂任务处理方面比4.0更胜一筹。
似乎有”一些用户”向百度相关部门反馈了强烈需求,所以百度宣布:自4月份在API中推出以来,文心一言4.5就受到了开发者社区的广泛好评。应广大用户的要求,我们决定将文心一言4.5全量开放给所有用户。
就好像星巴克的某款特调饮品,本来只在特定门店供应,后来因为太受欢迎,现在全国门店都能点到了:
不幸的是,文心一言3.0的位置已经被调整,不再作为主要推荐版本,但仍然可以在特定场景下使用。
喜欢文心一言3.5的用户不必担心,这款经典模型短时间内应该不会下线。
只能说在这个不断进化的大模型家族里,每一位成员都有自己独特的定位和发展路径。
这次”转正”来得也不算意外。当时,文心一言4.5在内部测试中就取得了非常亮眼的成绩:
语言理解:文心一言4.5在CLUE基准测试中得分达到了89.2%,比文心一言4.0提升了12.6%,比文心一言3.5提升了21.8%,使其成为语言理解能力最强的版本之一。
知识问答:在MMLU基准测试(衡量知识问答能力的指标)中,文心一言4.5得分为76.8%,比文心一言4.0提升了9.3%。
创意生成:在文本创作质量评估中,文心一言4.5创下了新的高分纪录 —— 在故事创作任务中得分达到了85.4%,比文心一言4.0提升了7.9%。
但百度特别强调过,他们优化这个模型时重点关注了用户体验。李彦宏自己也提到,文心一言4.5是专注于提升用户实际体验的。
现在的问题是,面对新上线的文心一言4.5,我们这些普通用户(但每个月都在续费会员)能用它来做点什么有趣的事情?
我们先是在社交媒体上看到了一些用户的分享,还是先从创意写作说起。
有用户给文心一言4.5一个简单的提示词:”写一篇关于未来城市的短篇故事,要有科技感和人文关怀”。
它的结果是这样的。用户的评价是”超出预期”,非常精彩。
图源:https://weibo.com/xxx/status/xxxxxx
其实,同样的提示词他已经用过很多次,分别让其他几个大模型试过。
三个月前,他曾经让GPT-4和ChatGPT做过同样的任务。
这是GPT-4的结果。用户认为这个故事结构完整,但缺乏新意:
这是ChatGPT的结果。情节有趣,但人物刻画不够深入:
半年前,他还让PaLM 2和Bloom试过,至于当时的生成内容,创意是有的,但总觉得差点什么。
这里我们把同样的提示词再抛给文心一言4.5一次:
可以说,大模型的创意写作能力近来确实有了质的飞跃。
然后我们让文心一言4.5写了一篇关于”人工智能与人类未来”的深度评论文章,不仅要求逻辑严密,还要有情感共鸣,它也很好地完成了:https://yiyan.baidu.com/share/xxxxxx
我们又尝试了更复杂的任务。
提示语:”以《红楼梦》为背景,创作一首七言律诗,要求押韵工整,意境深远”
作为对比,我们再看看ChatGPT的结果,似乎各有千秋。
对于每天都要处理大量文字工作的内容创作者来说,文心一言4.5有几方面的能力是很实用的,就像是上方的诗歌创作,大模型可以在几秒内给出多个创意选项,可以优化文章结构,可以润色语言表达,可以提供写作灵感,等等。
有一些从事文案工作的用户会使用得更加深入:
大多数营销策划方案的撰写需要数天时间,WenXin Builder + 文心一言4.5非常高效,几个小时内就完成了一个完整的方案框架。
对于当下的从业者来说,一般要花大量精力去完善AI生成的内容,”内容优化能力”的重要性一直在上升。
比如你用了几分钟生成了初稿,但你需要持续完善它,所以你花了几个小时去看明白AI到底都写了什么东西,否则就不太敢直接使用。
所谓的”提示工程”都可以理解为优化技能—— 清楚地了解要完成的任务以及完成任务所需的信息,向AI明确表达需求,提供有用的反馈以改进输出,并将经验教训总结为一个有效的提示模板。
但文心一言4.5用户的使用体验是:它在内容创意方面表现更佳,并且不太会出现逻辑漏洞,这意味着创作者将不必花费太多时间来修改其输出。
说了半天写作能力,我们差点忘了,文心一言4.5的知识问答水平也很高。这里举个例子。
为了测试出卓越的知识问答能力和精准度 ,我们选择了一个非常专业的问题:”请解释量子纠缠现象,并举例说明其在量子通信中的应用”。
作为对比,我们再看看GPT-4的结果,似乎文心一言4.5的解释更加通俗易懂。
与此同时,还有一则小的消息可以关注:
一开始,文心一言4.5还因为某些回答过于直接引发了小小的争议,很多用户觉得它缺乏人情味,批评百度在AI人性化方面有所欠缺。
百度的解释是,文心一言4.5的性能和速度比文心一言4.0有所提升,但实际上并非面向所有场景的最优模型,因此不需要像主打用户体验的版本那样加入过多情感元素。
今天,这个版本全量上线后,百度AI部门负责人在社交媒体上再次回应:
「在API中发布文心一言4.5之前,我们进行了多轮评估,以测试该模型的功能和适用性。」
「文心一言4.5并没有改变其核心定位,这意味着,这里的设计考虑虽然重要,但与主打情感交流的版本有所不同。」
比较早开始使用文心一言4.5的人会觉得,这个模型比之前的版本更注重信息准确性,对大多数类型的查询都会给出更专业的回答。
用户普遍的感觉是,它的实际表现略微优于文心一言4.0,但超越的真不多。这可能也是百度介绍它时强调”专业能力”的原因之一。
“通过深入分析用户需求 —— 从知识问答到创意写作和复杂任务处理 —— 这些模型为提升信息获取效率和内容创作质量开辟了新的可能性。”
想要更显著性能提升的用户,只能期待百度的下一代重大升级版本文心一言5.0的到来,但目前还没有”走漏”任何可靠的消息。耐心等待吧。
以后我们会带来更多专业深入的AI评测,也欢迎大家加入我们的讨论群交流。