← 返回最新文章
文章

公众号全文发布稿

2026-05-05 · 半斤九两科技

最近一直有人问我一个问题:

现在这么多顶级大模型,到底能不能像一个顾问团一样,帮我们一起解决一个具体问题?

这次外贸作战台的规划,刚好给了我一次完整实验的机会。

我把 Claude、Codex、Gemini、DeepSeek Pro 都拉进了同一个项目里。它们面对同一套产品材料、同一批 demo、同一个前端设计目标,分别提出方案、打分、挑刺、互相出现分歧,最后再由我根据业务判断做取舍。

这个过程很有意思。

因为它让我越来越清楚:顶级模型之间很少存在“谁永远压过谁”。更准确的说法是,它们像四个性格很不一样的顾问。

这次在外贸作战台的前端设计里,最后是 Claude 赢了审美主导权。但换到后端架构、数据流程、内容表达,主导模型完全可能轮换。

这才是“AI 顾问团”真正有价值的地方。

先说这个项目为什么值得做

外贸作战台不是凭空冒出来的新工具。

它背后是我们最近在 AI+外贸年度会员和线下 AI+外贸培训课里反复遇到的问题:课程、直播、飞书知识库、群答疑都在增加,但学员每天真正开工时,仍然需要一个更直接的入口。

飞书适合深度沉淀,但飞书不一定适合“今天立刻干活”。

一个业务员早上打开电脑,可能没有时间重新翻课程、看直播回放、搜索一堆资料。

他更需要的是:我今天要背调一个客户,能不能直接拿到一条描述词?我今天要写开发信,能不能直接进入任务?我已经有了客户线索,能不能先判断值不值得跟?

所以这次外贸作战台的底层逻辑很简单:

深学去飞书,开干来作战台。

这个产品第一版不追求“大而全”,先围绕外贸主动开发这条最具体的业务线展开。客户背调、写开发信、搜索客户、行业调研,这四件事就是首版最重要的任务入口。

它服务的是外贸业务里每天都会发生的动作,抽象的“AI 学习”要退到后面。

四位顾问各自是什么性格

这次项目的参与者,其实可以理解成我和四位 AI 顾问。

为了让没参与这个项目的人更好理解,我更愿意把这四个模型拟人化来看。

Claude 像审美总监。

它对“少一点”这件事特别敏感。它总会提醒我:不要把首页做成数据驾驶舱,不要让每个模块都抢注意力,不要为了证明自己能做而把功能都摆出来。在前端审美这件事上,它最擅长把复杂东西压出呼吸感。纸感、深墨、朱砂红、留白,这些最终成为 v5 的主审美。

Codex 像工程总监。

它最关心这东西能不能落地。路由怎么组织,组件怎么拆,mock 数据怎么替换成真实接口,页面状态会不会越写越乱,交互能不能真的跑起来。它不一定永远给最漂亮的审美答案,但它会不断把方案拉回“能不能实现、能不能维护、能不能继续迭代”。

Gemini 像内容编辑和叙事顾问。

它更在意普通读者能不能读懂。一个概念是不是太绕,一个页面是不是太像工具后台,一段文字是不是太像写给开发者看的说明。它的价值在于提醒我们:产品最后要让没参与过的人也能理解。

DeepSeek Pro 像信息架构师。

它很擅长管结构、阈值、表格、筛选和边界。比如弹药库到底要不要独立?描述词超过多少条以后需要搜索?SOP 和 FAQ 放卡片内部还是外部?这些问题 Claude 会更在意气质,DeepSeek Pro 会更在意效率和可发现性。

这四个角色放在一起,就很像一个真实会议。

审美总监会说:别吵,留白。

工程总监会说:好看可以,别后面维护不了。

内容编辑会说:外人看不懂就白搭。

信息架构师会说:超过 10 条资产,没有筛选就是折磨用户。

这比单独问一个模型有趣得多。

第一阶段:先把方案落成

整个项目第一阶段,是把外贸作战台的方向先定下来。

我先让公认审美能力很强的 Claude 做顶层设计和规划。

这一步不急着写页面,而是先定产品气质:它到底是课程站、工具箱,还是一个可以让业务员当天开干的作战台。

Claude 最早帮我把方向压得比较清楚:外贸作战台不能变成另一个资料库,也不能变成一个复杂后台。它应该是一个外贸人打开以后,就知道今天可以干什么的入口。

方向确定以后,我再让 Claude、Codex、Gemini、DeepSeek Pro 围绕同一套目标,分别推演和完成不同版本的 demo。

可以猜猜每个demo分别是谁做的

这几版 demo 不需要详细区了,简单说就是:

到这里,我已经能明显感受到一个问题:

页面越来越完整,不代表用户越来越容易用。

外贸业务员打开作战台,最关心的还是今天能不能更快完成一个动作。客户背调、写开发信、搜索客户、行业调研,这些动作越清楚,作战台越有价值。

所以我们后来把“外贸工作台”调整成“外贸作战台”,核心原因不在名字好听。我们想把产品气质从“摆工具”推向“带你开干”。

工作台这个词听起来像工具集合。

作战台更接近业务现场:今天打哪一仗,先看哪个客户,先写哪封信,下一步动作是什么。

第二阶段:第一次四方会谈

四版 demo 出来以后,我没有直接凭感觉选。

这时候 Claude 准备了一份 Markdown 格式的评测和讨论表。你可以把它理解成一张“讨论桌”。

所有顾问都坐到同一张桌子上,但不是开语音会,也不是实时吵架。它们看同一份材料,用同一套问题,各自独立评测,再把结论写进同一份文档。

这一步很重要。

因为多模型协作里,最怕的是四个模型互相影响,最后说出一堆听起来都对、但无法判断优先级的话。

所以我给它们定了很清楚的规则:

有意思的是,这一次大部分关键问题最后都收敛了,并没有走到必须由我强行拍板的地步。

更有意思的是,每个模型在这个过程中都有自己的坚持,也有自己的让步。

Claude 一开始最在意“不要复杂”,后来也接受了弹药库独立存在,因为当描述词超过一定数量以后,没有检索会影响效率。

Codex 一直坚持工程可落地,提醒我们不要只看画面,要考虑组件、状态、真实数据接入。

Gemini 在一些地方更激进,想砍掉更多导航和独立页面,但它也承认,如果用户真的要管理描述词资产,完全没有弹药库也不现实。

DeepSeek Pro 很坚持信息组织,它一直提醒我们:作战台不是画册,用户以后会积累资产,检索、筛选、阈值这些东西不能完全不考虑。

这场四方会谈最终帮我确定了两件事:

第一,外贸作战台的价值不是“做得多完整”,而是让用户更快拿到能用的描述词。

第二,第一版要克制,但不能把未来一定会增长的资产管理问题完全忽略。

这一步之后,最终方案基本定下来了。

第三阶段:前端风格敲定

方案定下来以后,第三阶段才进入前端页面设计风格。

这一轮,我让四个顾问根据最终方案,各自给出倾向的前端设计风格。

Claude 给的是纸感深墨和东方留白。

Codex 更偏技术克制、扫读效率和工程精确。

Gemini 更偏阅读感和文字气质。

DeepSeek Pro 更偏文档工具流和信息组织。

为了更直观地判断,我又让 Codex 使用 image2 做出了四张 demo 页面。

这个动作很重要。只看文字讨论,很容易每个方案都觉得有道理。但页面一出来,审美差异就非常直观了。

最后我基本确定:外贸作战台第一版的视觉主导,应该采用最后 Claude 的方案。

它更轻、更安静,也更适合我们想要的“打开就能开干”的感觉。

但这不代表其他模型输了。

这一轮真正有价值的地方,是在 Claude 主导的风格基础上,其他三个顾问继续提出改进。

Codex 继续从工程落地角度补充:哪些状态要有、哪些交互要可实现、哪些组件要方便后续接真实数据。

Gemini 继续从表达角度提醒:页面文案要让没参与过项目的人也看得懂,不要变成内部术语堆叠。

DeepSeek Pro 继续从信息组织角度补充:弹药库的筛选、排序、阈值要提前想好,不然以后资产一多就会乱。

最后得到的不是平均混合出来的四不像,而是一个很清楚的分工:

Claude 做主审美,Codex 补工程,Gemini 补表达,DeepSeek Pro 补信息结构。

这才体现出了 AI 顾问团的价值。

不是每个模型都要主导全局,而是根据这个项目最需要解决的问题,选一个主导顾问,再让其他顾问补盲区。

这次是 Claude 主导。

下一次如果做后端流程、权限系统、数据同步,也许 Codex 或 DeepSeek Pro 会更适合主导。

如果做一篇面向外部传播的品牌文章,也许 Gemini 的权重会更高。

现在外贸用户会怎么用

目前这个外贸作战台已经在优化和上线准备中。这里我想单独说一下外贸作战台真正有用的地方。

它不是把提示词堆到一个页面里。

它真正有价值的,是把描述词和业务场景组合起来。

比如“客户背调描述词”,单独看只是一段配合了我们定制的GitHub skill的提示词。但如果它和公司画像、客户信息、配套 Skill、常见 FAQ、飞书知识库链接放在一起,它就会升级成一件可以被业务员反复使用的作战工具。

这也是我们后来一直强调的结构:

四件事组合起来,作战台才开始从“资料页”变成“实操入口”。

接下来,我们所有 AI+外贸线下课学员和年度会员,都会逐步享受到自己的权限。TikTok 陪跑营用户,也会有进一步的专项权限。

对外贸用户来说,其实不需要深度理解这么多复杂工具。

你不需要搞懂每一个模型怎么协作,也不需要自己去搭完整工作流。

你只需要拥有一个绑定了优质大模型的龙虾,就可以利用这套工具快速进行主动开发的落地。最多再配套一个GPT做云端大脑就够了。

比如客户背调、开发信、搜索客户、行业调研,这些动作会被整理成你能直接使用的任务入口和描述词资产,甚至可以自定义自己的skill资产。

至于给龙虾使用的大模型,我目前自己的实测会推荐两个:

1. DeepSeek V4,平时用 V4 flash 已经完全足够,如果你有一些基础的编程需求,V4 pro 也够用了。

2. Minimax m2.7 highspeed,主打一个量大管饱,性价比还是挺高的。

外贸用户真正要关注的,不是工具名越多越好,而是自己的业务动作有没有被跑起来。

对 AI 重度用户的启发

如果你是 AI 重度用户,这次实验也有另外一层参考价值。

很多人现在都在尝试多模型协作。

但我越来越觉得,让多个模型像人一样辩论,并不一定是最高效的方式。

这一点 Claude 说得很明白:模型之间的“辩论”很容易变成互相迁就,或者顺着前一个答案继续补充。看起来热闹,结果未必更好。

更好的方式,是让它们先独立给出建议。

每个模型有自己的强项,也有自己的局限。

一个模型可能审美很好,但工程落地不是最强。

一个模型可能结构感很好,但文字表达不一定最自然。

一个模型可能很会写,但对产品取舍不一定够狠。

所以更高效的流程是:

先给同一份材料。

再让它们独立判断。

然后用一到两轮评测,让它们彼此看到分歧、做必要让步。

最后根据规则收敛。

比如:

事实证明,这样足够高效,也能得到不错的结果。

最后说回 5 月线下课和年度会员

这次外贸作战台,本质上也是我们 AI+外贸课程体验的一次升级。

5 月的线下课,我们会继续围绕外贸企业真正能落地的 AI 工作流来做。

不是只讲模型多厉害,也不是只演示几个新工具,而是从业务动作出发,把客户背调、开发信、主动开发、公司画像、龙虾部署这些东西连成线。

AI+外贸年度会员,也会继续承接课后的长期陪跑。

飞书里深学。

作战台里开干。

龙虾负责把这些动作真正跑起来。

如果你也想把 AI 真正用到外贸业务里,欢迎直接来聊。

你也可以把你现在最卡的那个业务环节发给我,我们从一个真实问题开始拆。

© 2026 半斤九两科技 ← 返回最新文章