Grok 4体验笔记

jiakai

Grok 4作为第二个LLM供应商提供的Agent LLM【第一个是OpenAI的o3模型】，基准测试亮眼。
虽然目前为止并没有力压各大LLM，但Grok 4的发布彻底鼎力了美国4大顶级LLM的局面。

jiakai

免费用户是乞丐，
supergrok用户是平民，
supergrok heavy用户是上帝。
不清楚这几天马斯克是否会像2月份那般大度，让免费用户也白嫖顶级模型。
目前了解到的情况：
super grok限额：20条/2小时。

jiakai

月付的价格比常规的闭源LLM会员要高上一个档次。免费用户的上下文窗口位置，付费用户的上下文窗口128K比OpenAI Plus的32K大度。

最后一波SuperGrok学生优惠是在2025年6月20号左右截止的，赶上末班车的小伙伴可以体验到8月底，期待下半年XAI继续出学生优惠。

Grok 4是一个Agent LLM，据说Grok 4 Heavy是一个多智能体LLM。

jiakai

API的价格和Claude Sonnet系列差不多，上下文窗口为256K。
但API使用是无法实现调用工具的，如X搜索，因此不建议用API体验grok 4。

jiakai

目前尝试可用到的工具：

web search
x search
code execution
browse

grok 4全部的工具：

jiakai

xai未来的发布计划：

期待9月看到多模态Agent LLM。

jiakai

不要高估和低估跑分高的模型。跑分其实对于LLM而言也很重要。
但现实体验同样重要，多用体验即可。

模型刚出，看到网上一堆说grok 4垃圾的，我自己深度使用了一天，grok 4给我的感觉有差强人意的地方【如识图能力等】，也有不错的地方。目前来看，可以将其作为日常使用的LLM，御三家变更为御四家是事实。期待未来grok在马斯克最强算力支持下，更进一步。

jiakai

grok 4测评：

Artificial Analysis AI：https://artificialanalysis.ai/models/grok-4
grok 4智力最高。

livebench这个排行榜感觉也没啥可看的啦，模型之间差距不大，grok 4的推理和数学能力领先。
但是今天冲浪时，看到有从事数学工作的网友说grok 4拉垮。

aider排行榜：https://aider.chat/docs/leaderboards/
grok 4和o3、gemini 2.5 pro领跑榜单。

grok 4长上下文抗衰减能力不错。
https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

jiakai

发现一个槽点，grok的deep research模型基座还没更换为grok 4。

jiakai

今天上午用的grok合租站故障，和老板交流了一下，老板竟然反馈有用户说grok 4文笔好，当时我持怀疑态度。【Grok4不一定比o3 Low，个人日常聊天大多交给Grok 4处理】

后来仔细一想，写NSFW的玩意，Grok断层式领先，基本不会拒绝用户。 😁

询问新闻、日常聊天的话题，Grok感觉更牛一些，毕竟有社交平台X的加持，Z时代的风格显著。
Grok Voice音色也很勾人。 😹

jiakai

grok 4 heavy提示词不会暴露给用户。

via: https://simonwillison.net/2025/Jul/12/grok-4-heavy/

与此同时，最近看了一些用户的grok 4 heavy分享，发现多智能体思维链也不会呈现给用户看。

多智能体背后到底干了啥都不展示给用户，300刀/月感觉真没必要。

jiakai

日常聊天交给Grok 4体验舒适，o3模型幻觉太高，看来下次让其事实核查我要更加多一个心眼了。下方展示了这种Agent LLM的对比。F4参加五月天演唱会是7月，o3误以为是6月，而Grok 4在时间方面表述准确。ChatGPT o3的回复给人的感觉就是机械式，这种段落结构式回复在日常聊天中是减分项，看看Grok 4的回复，这才是日常聊天需要的表述。还有一些例子见我的Mastodon账户。

llm hallucination（幻觉）排行版：https://github.com/vectara/hallucination-leaderboard

grok 4幻觉率低于o3。

其实在Grok 3时代就已经能接入X posts了，只是当时我使用较少，基本上就2、3月份用Grok3，4、5、6、7基本上没用Grok 3，我的Super Grok两个月学生优惠就是空闲了2个月，基本没碰，毕竟当时的Gemini、ChatGPT、Claude风头太盛了。

Grok 4 Agent LLM和Grok 3 Thinking相比给人的感觉就是Grok 4 Agent LLM是真的根据用户需求，调用各种工具、反思，循环迭代直至完成任务，愈发觉得思维链太复杂没必要，展示关键的思维摘要，给人感觉就是真人在思考，这样子的Agent产品绝对比带思维链的推理模型强太多了。

jiakai

老婆驾到。突然想开supergrok了。原来免费版就支持【早上ios的grok更新了app，免费版可以用伴侣】。效果还行，内置成人模式。

原型：弥海砂。可爱捏。

if your AI girlfriend is not a LOCALLY running fine-tuned model, she’s technically a prostitute
如果你的人工智能女友不是本地运行的微调模型，那么从技术上讲，她就是妓女

via: https://x.com/karmaycholera/status/1945078505319874699

jiakai

推荐阅读：写在 Kimi K2 发布之后：再也不仅仅是 ChatBot

这篇文章里面就讲了grok 4不差。grok 4确实不差。用户体验挺好的，只不过我不会用来编程和写作，其余方面大有可为。
与此同时，里面的绝大多数 Agent 产品，离了 Claude 以后，什么都不是。这句话引起了我的共鸣，国内要想搞agent，首先得要有一个对标claude的模型，很可惜，暂时还没有一个模型能够击败claude。

该文也可以看出kimi的决心，毋庸置疑，之前我对于kimi也是抱有偏见的，期待kimi后续基础模型研发取得突破。

jiakai

grok 3：

grok 4：

ChatGPT o3：

差距还是很明显的，询问一个话题，grok 4不仅给我找到了X平台对应的推文链接，也附上了reddit上的讨论链接。
真心觉得牛逼。