还没等来DeepSeek – R2,DeepSeek – R1在昨天晚上悄悄更新了一波。 和上次V3 – 0324版本一样,这回DeepSeek又往Hugging Face上默默扔了一个DeepSeek – R1 – 0528,Model Card和官方的更新公告都没出。 在大伙儿还没反应过来的时候,R1新版本已经是大模型热搜榜的第一了。 大家热烈讨论R1新版本的同时,也不忘cue一下R2和V4的大版本更新。由于每次DeepSeek都喜欢赶在中国传统节日前后出点新东西,国外网友已经开始从国庆和端午的放假时间,来推测发布日期了。难道这也是计划的一部分吗?(手动狗头) 值得一提的是,今天也是NVIDIA Q1财报发布的日子。遥想上次R1技术报告给大模型训练算力带来的拷打,还好这次只是DeepSeek小更,并没有公布算力信息,不然真的有点难绷。 话说回R1这次更新,DeepSeek官方表示,R1 – 0528的推理性能大幅提升、前端开发能力更强、工具使用能力更智能。 从官方案例来看,R1 – 0528在物理世界的推理能力确实比Claude – 4 – Sonnet要优秀。小球在破坏砖块墙后,砖块的不规则倒塌更符合物理规律。 等实际测试完了这次更新,只想说:虽然R1 – 0528编程推理能力有提升,但达不到惊艳。至于它的长文本生成能力,愿称DeepSeek为大模型里掌管中文的神。 精彩的东西咱放在前面看,本来以为这只是一次普通的测试,没想到事情没那么简单。 给R1的提示词只有简单的:“请给我写一篇10000字的科幻小说。”其余从文章的大纲到内容全是它自己完成。 “霓虹像永不凝固的液态宝石”,“整座城市浸泡在一种迷幻而冰冷的蓝紫色调里”。此刻,只恨不能把全篇小说截给大家,感兴趣的可以去文末链接阅读全文。 作为一篇悬疑科幻小说,DeepSeek行文流畅,科幻氛围浓厚,人物描写细致入微,从情节到逻辑都无可挑剔。 写出这样的故事,DeepSeek只思考了40秒。而一直以来被大家认为文字功底很强的Gemini 2.5 pro表现一般,写出来的小说像是辞藻堆砌,有些晦涩难懂。 有一说一,看完DeepSeek写的小说,心情非常复杂。这篇小说甚至可以说比大部分网文都优秀,又有速度又有质量,大模型恐怖如斯。难道失业的风也要吹到……只能表示瑟瑟发抖。 咱再说说代码生成上的更新。其实R1 – 0528的代码能力也有显著的提升,只不过比起它的长文本生成,就有点不够看了。 在大模型代码能力测试基准LiveCodeBench上,DeepSeek – R1 – 0528已经跃升到了榜单第四,略逊于o4 – Mini(Medium),但和o3 – Mini打得有来有回,直接被闭源的OpenAI包围了。 既然编程能力这么强,就先拿经典问题——五边形小球弹跳测一测。可能还有印象,之前评测V3 – 0324版本的时候也把老R1拿出来溜了溜,结果那时候R1的表现非常拉垮。 不过,这次R1 – 0528的表现确实出乎意料,比起老R1好了不是一点半点。不仅代码一次启动成功,不像老版的飞檐走壁,新版本小球弹跳的效果明显更符合物理规律,在五边形拐角处的丝滑回弹更是细节到位。 除了物理效果提升,R1 – 0528生成的界面也很美观,甚至可以自定义重力强度、旋转速度、弹性系数、摩擦系数的参数,还能实时看到小球运动的各种物理参数。 不过可能因为在提示词里并没有让它干这些事,虽然物理参数是实时显示变化的,但动画参数控制滑块仅供观赏,没啥实际用途。 还看到有网友说R1 – 0528能和Claude Sonnet 4碰一碰。记得上次测V3 – 0324的时候,Claude Sonnet 3.7赢得很彻底。不知道这回DeepSeek的前端审美有啥优化? 测试完觉得,R1真的没输。给两个模型分别只一次机会,相同的提示词,生成的结果该是啥样就是啥样,不能重来。 首先从画面美观度和功能完整度来说,两者算打个平手。R1 – 0528的界面明显不像V3时期那么简陋了。功能方面,Sonnet 4有的,R1 – 0528通通都有,R1还贴心地加上了使用说明。 但是,实测Claude Sonnet 4的清空画板和保存键并不好用。而且两者的取色功能都存在bug,取色器会穿到色卡的下面去,只能说还有一定进步空间。 除此之外,也有网友表示这回更新之后,DeepSeek的深度思考直接停不下来了。 为了提升模型深度思考的能力,R1 – 0528似乎有意拉长了大模型的思考时长。但这个改动带来的具体效果还是看个人需求,毕竟要是一个问题想上25分钟,即使答案更完美,作为用户也确实有点捉急。 总的来说,这次更新DeepSeek依然延续了他们过往的风格:轻描淡写小更一下,但是整个大活儿。 DeepSeek – R1 – 0528不管是纵向和自己比,还是横向和其它大模型比,表现都丝毫不输,甚至在中文长文本生成方面一骑绝尘。 这次DeepSeek带来的惊喜,让大家对国产大模型又有了新的期待。DeepSeek – R1 – 0528向大家展示了,它们不仅可以和闭源模型卷性能,还有不可替代的本土化优势。想体验的朋友,现在上官网就能用到R1最新的0528版本啦。