公众号全文发布稿 - 半斤九两科技

最近一直有人问我一个问题：

现在这么多顶级大模型，到底能不能像一个顾问团一样，帮我们一起解决一个具体问题？

这次外贸作战台的规划，刚好给了我一次完整实验的机会。

我把 Claude、Codex、Gemini、DeepSeek Pro 都拉进了同一个项目里。它们面对同一套产品材料、同一批 demo、同一个前端设计目标，分别提出方案、打分、挑刺、互相出现分歧，最后再由我根据业务判断做取舍。

这个过程很有意思。

因为它让我越来越清楚：顶级模型之间很少存在“谁永远压过谁”。更准确的说法是，它们像四个性格很不一样的顾问。

这次在外贸作战台的前端设计里，最后是 Claude 赢了审美主导权。但换到后端架构、数据流程、内容表达，主导模型完全可能轮换。

这才是“AI 顾问团”真正有价值的地方。

先说这个项目为什么值得做

外贸作战台不是凭空冒出来的新工具。

它背后是我们最近在 AI+外贸年度会员和线下 AI+外贸培训课里反复遇到的问题：课程、直播、飞书知识库、群答疑都在增加，但学员每天真正开工时，仍然需要一个更直接的入口。

飞书适合深度沉淀，但飞书不一定适合“今天立刻干活”。

一个业务员早上打开电脑，可能没有时间重新翻课程、看直播回放、搜索一堆资料。

他更需要的是：我今天要背调一个客户，能不能直接拿到一条描述词？我今天要写开发信，能不能直接进入任务？我已经有了客户线索，能不能先判断值不值得跟？

所以这次外贸作战台的底层逻辑很简单：

深学去飞书，开干来作战台。

这个产品第一版不追求“大而全”，先围绕外贸主动开发这条最具体的业务线展开。客户背调、写开发信、搜索客户、行业调研，这四件事就是首版最重要的任务入口。

它服务的是外贸业务里每天都会发生的动作，抽象的“AI 学习”要退到后面。

四位顾问各自是什么性格

这次项目的参与者，其实可以理解成我和四位 AI 顾问。

为了让没参与这个项目的人更好理解，我更愿意把这四个模型拟人化来看。

Claude 像审美总监。

它对“少一点”这件事特别敏感。它总会提醒我：不要把首页做成数据驾驶舱，不要让每个模块都抢注意力，不要为了证明自己能做而把功能都摆出来。在前端审美这件事上，它最擅长把复杂东西压出呼吸感。纸感、深墨、朱砂红、留白，这些最终成为 v5 的主审美。

Codex 像工程总监。

它最关心这东西能不能落地。路由怎么组织，组件怎么拆，mock 数据怎么替换成真实接口，页面状态会不会越写越乱，交互能不能真的跑起来。它不一定永远给最漂亮的审美答案，但它会不断把方案拉回“能不能实现、能不能维护、能不能继续迭代”。

Gemini 像内容编辑和叙事顾问。

它更在意普通读者能不能读懂。一个概念是不是太绕，一个页面是不是太像工具后台，一段文字是不是太像写给开发者看的说明。它的价值在于提醒我们：产品最后要让没参与过的人也能理解。

DeepSeek Pro 像信息架构师。

它很擅长管结构、阈值、表格、筛选和边界。比如弹药库到底要不要独立？描述词超过多少条以后需要搜索？SOP 和 FAQ 放卡片内部还是外部？这些问题 Claude 会更在意气质，DeepSeek Pro 会更在意效率和可发现性。

这四个角色放在一起，就很像一个真实会议。

审美总监会说：别吵，留白。

工程总监会说：好看可以，别后面维护不了。

内容编辑会说：外人看不懂就白搭。

信息架构师会说：超过 10 条资产，没有筛选就是折磨用户。

这比单独问一个模型有趣得多。

第一阶段：先把方案落成

整个项目第一阶段，是把外贸作战台的方向先定下来。

我先让公认审美能力很强的 Claude 做顶层设计和规划。

这一步不急着写页面，而是先定产品气质：它到底是课程站、工具箱，还是一个可以让业务员当天开干的作战台。

Claude 最早帮我把方向压得比较清楚：外贸作战台不能变成另一个资料库，也不能变成一个复杂后台。它应该是一个外贸人打开以后，就知道今天可以干什么的入口。

方向确定以后，我再让 Claude、Codex、Gemini、DeepSeek Pro 围绕同一套目标，分别推演和完成不同版本的 demo。

可以猜猜每个demo分别是谁做的

这几版 demo 不需要详细区了，简单说就是：

有的版本更像工具箱，把 Skill、FAQ、任务入口放在一起，能用，但还要用户自己找重点。

有的版本开始有了作战台的骨架，出现任务、弹药库、描述词卡、公司画像这些更贴近实操的东西。

有的版本能力最完整，有角色、有状态、有失败态，也有更强的前端设计，但复杂度也开始上来。

到这里，我已经能明显感受到一个问题：

页面越来越完整，不代表用户越来越容易用。

外贸业务员打开作战台，最关心的还是今天能不能更快完成一个动作。客户背调、写开发信、搜索客户、行业调研，这些动作越清楚，作战台越有价值。

所以我们后来把“外贸工作台”调整成“外贸作战台”，核心原因不在名字好听。我们想把产品气质从“摆工具”推向“带你开干”。

工作台这个词听起来像工具集合。

作战台更接近业务现场：今天打哪一仗，先看哪个客户，先写哪封信，下一步动作是什么。

第二阶段：第一次四方会谈

四版 demo 出来以后，我没有直接凭感觉选。

这时候 Claude 准备了一份 Markdown 格式的评测和讨论表。你可以把它理解成一张“讨论桌”。

所有顾问都坐到同一张桌子上，但不是开语音会，也不是实时吵架。它们看同一份材料，用同一套问题，各自独立评测，再把结论写进同一份文档。

这一步很重要。

因为多模型协作里，最怕的是四个模型互相影响，最后说出一堆听起来都对、但无法判断优先级的话。

所以我给它们定了很清楚的规则：

只要四个顾问都通过，就直接落地。

如果出现 3:1，就默认少数服从多数，少数意见留下来做风险备注。

如果出现 2:2，才需要我来拍板。

有意思的是，这一次大部分关键问题最后都收敛了，并没有走到必须由我强行拍板的地步。

更有意思的是，每个模型在这个过程中都有自己的坚持，也有自己的让步。

Claude 一开始最在意“不要复杂”，后来也接受了弹药库独立存在，因为当描述词超过一定数量以后，没有检索会影响效率。

Codex 一直坚持工程可落地，提醒我们不要只看画面，要考虑组件、状态、真实数据接入。

Gemini 在一些地方更激进，想砍掉更多导航和独立页面，但它也承认，如果用户真的要管理描述词资产，完全没有弹药库也不现实。

DeepSeek Pro 很坚持信息组织，它一直提醒我们：作战台不是画册，用户以后会积累资产，检索、筛选、阈值这些东西不能完全不考虑。

这场四方会谈最终帮我确定了两件事：

第一，外贸作战台的价值不是“做得多完整”，而是让用户更快拿到能用的描述词。

第二，第一版要克制，但不能把未来一定会增长的资产管理问题完全忽略。

这一步之后，最终方案基本定下来了。

第三阶段：前端风格敲定

方案定下来以后，第三阶段才进入前端页面设计风格。

这一轮，我让四个顾问根据最终方案，各自给出倾向的前端设计风格。

Claude 给的是纸感深墨和东方留白。

Codex 更偏技术克制、扫读效率和工程精确。

Gemini 更偏阅读感和文字气质。

DeepSeek Pro 更偏文档工具流和信息组织。

为了更直观地判断，我又让 Codex 使用 image2 做出了四张 demo 页面。

这个动作很重要。只看文字讨论，很容易每个方案都觉得有道理。但页面一出来，审美差异就非常直观了。

最后我基本确定：外贸作战台第一版的视觉主导，应该采用最后 Claude 的方案。

它更轻、更安静，也更适合我们想要的“打开就能开干”的感觉。

但这不代表其他模型输了。

这一轮真正有价值的地方，是在 Claude 主导的风格基础上，其他三个顾问继续提出改进。

Codex 继续从工程落地角度补充：哪些状态要有、哪些交互要可实现、哪些组件要方便后续接真实数据。

Gemini 继续从表达角度提醒：页面文案要让没参与过项目的人也看得懂，不要变成内部术语堆叠。

DeepSeek Pro 继续从信息组织角度补充：弹药库的筛选、排序、阈值要提前想好，不然以后资产一多就会乱。

最后得到的不是平均混合出来的四不像，而是一个很清楚的分工：

Claude 做主审美，Codex 补工程，Gemini 补表达，DeepSeek Pro 补信息结构。

这才体现出了 AI 顾问团的价值。

不是每个模型都要主导全局，而是根据这个项目最需要解决的问题，选一个主导顾问，再让其他顾问补盲区。

这次是 Claude 主导。

下一次如果做后端流程、权限系统、数据同步，也许 Codex 或 DeepSeek Pro 会更适合主导。

如果做一篇面向外部传播的品牌文章，也许 Gemini 的权重会更高。

现在外贸用户会怎么用

目前这个外贸作战台已经在优化和上线准备中。这里我想单独说一下外贸作战台真正有用的地方。

它不是把提示词堆到一个页面里。

它真正有价值的，是把描述词和业务场景组合起来。

比如“客户背调描述词”，单独看只是一段配合了我们定制的GitHub skill的提示词。但如果它和公司画像、客户信息、配套 Skill、常见 FAQ、飞书知识库链接放在一起，它就会升级成一件可以被业务员反复使用的作战工具。

这也是我们后来一直强调的结构：

GitHub 上是 Skill 骨架

作战台里是描述词血肉

用户自己的公司画像负责个性化

龙虾负责把它真正跑起来

四件事组合起来，作战台才开始从“资料页”变成“实操入口”。

接下来，我们所有 AI+外贸线下课学员和年度会员，都会逐步享受到自己的权限。TikTok 陪跑营用户，也会有进一步的专项权限。

对外贸用户来说，其实不需要深度理解这么多复杂工具。

你不需要搞懂每一个模型怎么协作，也不需要自己去搭完整工作流。

你只需要拥有一个绑定了优质大模型的龙虾，就可以利用这套工具快速进行主动开发的落地。最多再配套一个GPT做云端大脑就够了。

比如客户背调、开发信、搜索客户、行业调研，这些动作会被整理成你能直接使用的任务入口和描述词资产，甚至可以自定义自己的skill资产。

至于给龙虾使用的大模型，我目前自己的实测会推荐两个：

1. DeepSeek V4，平时用 V4 flash 已经完全足够，如果你有一些基础的编程需求，V4 pro 也够用了。

2. Minimax m2.7 highspeed，主打一个量大管饱，性价比还是挺高的。

外贸用户真正要关注的，不是工具名越多越好，而是自己的业务动作有没有被跑起来。

对 AI 重度用户的启发

如果你是 AI 重度用户，这次实验也有另外一层参考价值。

很多人现在都在尝试多模型协作。

但我越来越觉得，让多个模型像人一样辩论，并不一定是最高效的方式。

这一点 Claude 说得很明白：模型之间的“辩论”很容易变成互相迁就，或者顺着前一个答案继续补充。看起来热闹，结果未必更好。

更好的方式，是让它们先独立给出建议。

每个模型有自己的强项，也有自己的局限。

一个模型可能审美很好，但工程落地不是最强。

一个模型可能结构感很好，但文字表达不一定最自然。

一个模型可能很会写，但对产品取舍不一定够狠。

所以更高效的流程是：

先给同一份材料。

再让它们独立判断。

然后用一到两轮评测，让它们彼此看到分歧、做必要让步。

最后根据规则收敛。

比如：

全票通过就直接做。

3:1 就少数服从多数。

2:2 再由人来拍板。

事实证明，这样足够高效，也能得到不错的结果。

最后说回 5 月线下课和年度会员

这次外贸作战台，本质上也是我们 AI+外贸课程体验的一次升级。

5 月的线下课，我们会继续围绕外贸企业真正能落地的 AI 工作流来做。

不是只讲模型多厉害，也不是只演示几个新工具，而是从业务动作出发，把客户背调、开发信、主动开发、公司画像、龙虾部署这些东西连成线。

AI+外贸年度会员，也会继续承接课后的长期陪跑。

飞书里深学。

作战台里开干。

龙虾负责把这些动作真正跑起来。

如果你也想把 AI 真正用到外贸业务里，欢迎直接来聊。

你也可以把你现在最卡的那个业务环节发给我，我们从一个真实问题开始拆。