最近一直有人问我一个问题:
现在这么多顶级大模型,到底能不能像一个顾问团一样,帮我们一起解决一个具体问题?
这次外贸作战台的规划,刚好给了我一次完整实验的机会。
我把 Claude、Codex、Gemini、DeepSeek Pro 都拉进了同一个项目里。它们面对同一套产品材料、同一批 demo、同一个前端设计目标,分别提出方案、打分、挑刺、互相出现分歧,最后再由我根据业务判断做取舍。
这个过程很有意思。
因为它让我越来越清楚:顶级模型之间很少存在“谁永远压过谁”。更准确的说法是,它们像四个性格很不一样的顾问。
这次在外贸作战台的前端设计里,最后是 Claude 赢了审美主导权。但换到后端架构、数据流程、内容表达,主导模型完全可能轮换。
这才是“AI 顾问团”真正有价值的地方。
先说这个项目为什么值得做
外贸作战台不是凭空冒出来的新工具。
它背后是我们最近在 AI+外贸年度会员和线下 AI+外贸培训课里反复遇到的问题:课程、直播、飞书知识库、群答疑都在增加,但学员每天真正开工时,仍然需要一个更直接的入口。
飞书适合深度沉淀,但飞书不一定适合“今天立刻干活”。
一个业务员早上打开电脑,可能没有时间重新翻课程、看直播回放、搜索一堆资料。
他更需要的是:我今天要背调一个客户,能不能直接拿到一条描述词?我今天要写开发信,能不能直接进入任务?我已经有了客户线索,能不能先判断值不值得跟?
所以这次外贸作战台的底层逻辑很简单:
深学去飞书,开干来作战台。
这个产品第一版不追求“大而全”,先围绕外贸主动开发这条最具体的业务线展开。客户背调、写开发信、搜索客户、行业调研,这四件事就是首版最重要的任务入口。
它服务的是外贸业务里每天都会发生的动作,抽象的“AI 学习”要退到后面。
四位顾问各自是什么性格
这次项目的参与者,其实可以理解成我和四位 AI 顾问。
为了让没参与这个项目的人更好理解,我更愿意把这四个模型拟人化来看。
Claude 像审美总监。
它对“少一点”这件事特别敏感。它总会提醒我:不要把首页做成数据驾驶舱,不要让每个模块都抢注意力,不要为了证明自己能做而把功能都摆出来。在前端审美这件事上,它最擅长把复杂东西压出呼吸感。纸感、深墨、朱砂红、留白,这些最终成为 v5 的主审美。
Codex 像工程总监。
它最关心这东西能不能落地。路由怎么组织,组件怎么拆,mock 数据怎么替换成真实接口,页面状态会不会越写越乱,交互能不能真的跑起来。它不一定永远给最漂亮的审美答案,但它会不断把方案拉回“能不能实现、能不能维护、能不能继续迭代”。
Gemini 像内容编辑和叙事顾问。
它更在意普通读者能不能读懂。一个概念是不是太绕,一个页面是不是太像工具后台,一段文字是不是太像写给开发者看的说明。它的价值在于提醒我们:产品最后要让没参与过的人也能理解。
DeepSeek Pro 像信息架构师。
它很擅长管结构、阈值、表格、筛选和边界。比如弹药库到底要不要独立?描述词超过多少条以后需要搜索?SOP 和 FAQ 放卡片内部还是外部?这些问题 Claude 会更在意气质,DeepSeek Pro 会更在意效率和可发现性。
这四个角色放在一起,就很像一个真实会议。
审美总监会说:别吵,留白。
工程总监会说:好看可以,别后面维护不了。
内容编辑会说:外人看不懂就白搭。
信息架构师会说:超过 10 条资产,没有筛选就是折磨用户。
这比单独问一个模型有趣得多。
第一阶段:先把方案落成
整个项目第一阶段,是把外贸作战台的方向先定下来。
我先让公认审美能力很强的 Claude 做顶层设计和规划。
这一步不急着写页面,而是先定产品气质:它到底是课程站、工具箱,还是一个可以让业务员当天开干的作战台。
Claude 最早帮我把方向压得比较清楚:外贸作战台不能变成另一个资料库,也不能变成一个复杂后台。它应该是一个外贸人打开以后,就知道今天可以干什么的入口。
方向确定以后,我再让 Claude、Codex、Gemini、DeepSeek Pro 围绕同一套目标,分别推演和完成不同版本的 demo。
可以猜猜每个demo分别是谁做的
这几版 demo 不需要详细区了,简单说就是:
- 有的版本更像工具箱,把 Skill、FAQ、任务入口放在一起,能用,但还要用户自己找重点。
- 有的版本开始有了作战台的骨架,出现任务、弹药库、描述词卡、公司画像这些更贴近实操的东西。
- 有的版本能力最完整,有角色、有状态、有失败态,也有更强的前端设计,但复杂度也开始上来。
到这里,我已经能明显感受到一个问题:
页面越来越完整,不代表用户越来越容易用。
外贸业务员打开作战台,最关心的还是今天能不能更快完成一个动作。客户背调、写开发信、搜索客户、行业调研,这些动作越清楚,作战台越有价值。
所以我们后来把“外贸工作台”调整成“外贸作战台”,核心原因不在名字好听。我们想把产品气质从“摆工具”推向“带你开干”。
工作台这个词听起来像工具集合。
作战台更接近业务现场:今天打哪一仗,先看哪个客户,先写哪封信,下一步动作是什么。
第二阶段:第一次四方会谈
四版 demo 出来以后,我没有直接凭感觉选。
这时候 Claude 准备了一份 Markdown 格式的评测和讨论表。你可以把它理解成一张“讨论桌”。
所有顾问都坐到同一张桌子上,但不是开语音会,也不是实时吵架。它们看同一份材料,用同一套问题,各自独立评测,再把结论写进同一份文档。
这一步很重要。
因为多模型协作里,最怕的是四个模型互相影响,最后说出一堆听起来都对、但无法判断优先级的话。
所以我给它们定了很清楚的规则:
- 只要四个顾问都通过,就直接落地。
- 如果出现 3:1,就默认少数服从多数,少数意见留下来做风险备注。
- 如果出现 2:2,才需要我来拍板。
有意思的是,这一次大部分关键问题最后都收敛了,并没有走到必须由我强行拍板的地步。
更有意思的是,每个模型在这个过程中都有自己的坚持,也有自己的让步。
Claude 一开始最在意“不要复杂”,后来也接受了弹药库独立存在,因为当描述词超过一定数量以后,没有检索会影响效率。
Codex 一直坚持工程可落地,提醒我们不要只看画面,要考虑组件、状态、真实数据接入。
Gemini 在一些地方更激进,想砍掉更多导航和独立页面,但它也承认,如果用户真的要管理描述词资产,完全没有弹药库也不现实。
DeepSeek Pro 很坚持信息组织,它一直提醒我们:作战台不是画册,用户以后会积累资产,检索、筛选、阈值这些东西不能完全不考虑。
这场四方会谈最终帮我确定了两件事:
第一,外贸作战台的价值不是“做得多完整”,而是让用户更快拿到能用的描述词。
第二,第一版要克制,但不能把未来一定会增长的资产管理问题完全忽略。
这一步之后,最终方案基本定下来了。
第三阶段:前端风格敲定
方案定下来以后,第三阶段才进入前端页面设计风格。
这一轮,我让四个顾问根据最终方案,各自给出倾向的前端设计风格。
Claude 给的是纸感深墨和东方留白。
Codex 更偏技术克制、扫读效率和工程精确。
Gemini 更偏阅读感和文字气质。
DeepSeek Pro 更偏文档工具流和信息组织。
为了更直观地判断,我又让 Codex 使用 image2 做出了四张 demo 页面。
这个动作很重要。只看文字讨论,很容易每个方案都觉得有道理。但页面一出来,审美差异就非常直观了。
最后我基本确定:外贸作战台第一版的视觉主导,应该采用最后 Claude 的方案。
它更轻、更安静,也更适合我们想要的“打开就能开干”的感觉。
但这不代表其他模型输了。
这一轮真正有价值的地方,是在 Claude 主导的风格基础上,其他三个顾问继续提出改进。
Codex 继续从工程落地角度补充:哪些状态要有、哪些交互要可实现、哪些组件要方便后续接真实数据。
Gemini 继续从表达角度提醒:页面文案要让没参与过项目的人也看得懂,不要变成内部术语堆叠。
DeepSeek Pro 继续从信息组织角度补充:弹药库的筛选、排序、阈值要提前想好,不然以后资产一多就会乱。
最后得到的不是平均混合出来的四不像,而是一个很清楚的分工:
Claude 做主审美,Codex 补工程,Gemini 补表达,DeepSeek Pro 补信息结构。
这才体现出了 AI 顾问团的价值。
不是每个模型都要主导全局,而是根据这个项目最需要解决的问题,选一个主导顾问,再让其他顾问补盲区。
这次是 Claude 主导。
下一次如果做后端流程、权限系统、数据同步,也许 Codex 或 DeepSeek Pro 会更适合主导。
如果做一篇面向外部传播的品牌文章,也许 Gemini 的权重会更高。
现在外贸用户会怎么用
目前这个外贸作战台已经在优化和上线准备中。这里我想单独说一下外贸作战台真正有用的地方。
它不是把提示词堆到一个页面里。
它真正有价值的,是把描述词和业务场景组合起来。
比如“客户背调描述词”,单独看只是一段配合了我们定制的GitHub skill的提示词。但如果它和公司画像、客户信息、配套 Skill、常见 FAQ、飞书知识库链接放在一起,它就会升级成一件可以被业务员反复使用的作战工具。
这也是我们后来一直强调的结构:
- GitHub 上是 Skill 骨架
- 作战台里是描述词血肉
- 用户自己的公司画像负责个性化
- 龙虾负责把它真正跑起来
四件事组合起来,作战台才开始从“资料页”变成“实操入口”。
接下来,我们所有 AI+外贸线下课学员和年度会员,都会逐步享受到自己的权限。TikTok 陪跑营用户,也会有进一步的专项权限。
对外贸用户来说,其实不需要深度理解这么多复杂工具。
你不需要搞懂每一个模型怎么协作,也不需要自己去搭完整工作流。
你只需要拥有一个绑定了优质大模型的龙虾,就可以利用这套工具快速进行主动开发的落地。最多再配套一个GPT做云端大脑就够了。
比如客户背调、开发信、搜索客户、行业调研,这些动作会被整理成你能直接使用的任务入口和描述词资产,甚至可以自定义自己的skill资产。
至于给龙虾使用的大模型,我目前自己的实测会推荐两个:
1. DeepSeek V4,平时用 V4 flash 已经完全足够,如果你有一些基础的编程需求,V4 pro 也够用了。
2. Minimax m2.7 highspeed,主打一个量大管饱,性价比还是挺高的。
外贸用户真正要关注的,不是工具名越多越好,而是自己的业务动作有没有被跑起来。
对 AI 重度用户的启发
如果你是 AI 重度用户,这次实验也有另外一层参考价值。
很多人现在都在尝试多模型协作。
但我越来越觉得,让多个模型像人一样辩论,并不一定是最高效的方式。
这一点 Claude 说得很明白:模型之间的“辩论”很容易变成互相迁就,或者顺着前一个答案继续补充。看起来热闹,结果未必更好。
更好的方式,是让它们先独立给出建议。
每个模型有自己的强项,也有自己的局限。
一个模型可能审美很好,但工程落地不是最强。
一个模型可能结构感很好,但文字表达不一定最自然。
一个模型可能很会写,但对产品取舍不一定够狠。
所以更高效的流程是:
先给同一份材料。
再让它们独立判断。
然后用一到两轮评测,让它们彼此看到分歧、做必要让步。
最后根据规则收敛。
比如:
- 全票通过就直接做。
- 3:1 就少数服从多数。
- 2:2 再由人来拍板。
事实证明,这样足够高效,也能得到不错的结果。
最后说回 5 月线下课和年度会员
这次外贸作战台,本质上也是我们 AI+外贸课程体验的一次升级。
5 月的线下课,我们会继续围绕外贸企业真正能落地的 AI 工作流来做。
不是只讲模型多厉害,也不是只演示几个新工具,而是从业务动作出发,把客户背调、开发信、主动开发、公司画像、龙虾部署这些东西连成线。
AI+外贸年度会员,也会继续承接课后的长期陪跑。
飞书里深学。
作战台里开干。
龙虾负责把这些动作真正跑起来。
如果你也想把 AI 真正用到外贸业务里,欢迎直接来聊。
你也可以把你现在最卡的那个业务环节发给我,我们从一个真实问题开始拆。