AI周报-2026-W10(AI 深研AI周报)
时间范围(北京时间,UTC+8):2026-03-02 00:00:00 ~ 2026-03-08 23:59:59
本周关键词:Agent-Native 大模型、低成本小模型、生成式视频广告、冷启动 CTR、多模态 LLM × 推荐。
1)模型 / 平台
至少覆盖:OpenAI、Google、阿里、字节、小红书、Sarvam、AI2。
OpenAI:GPT‑5.3 Instant 成为 ChatGPT 新默认,主打「减少废话 + 更可信」
- 3 月 3 日(推断为北京时间 3 月 4 日左右)OpenAI 发布 GPT‑5.3 Instant,作为 ChatGPT 默认对话模型,官方宣称在内部评测中将幻觉率降低约 26.8%,同时明显削减「说教式免责声明」和无必要拒答。(openai.com)
- 对业务影响:面向普通问答、搜索问答类场景,默认体验会更「直接回答」,有利于用户完成任务;但也意味着已有的内容审核和提示词策略需要重新做一次回归测试,确认在「更少拒答」前提下不会突破内部合规红线。
OpenAI:GPT‑5.4 正式发布,定位「Agent-Native」专业工作模型
- 3 月 5 日(折算北京时间约 3 月 6 日)OpenAI 官方发布 GPT‑5.4,并在 ChatGPT 中以 GPT‑5.4 Thinking / Pro 形态上线,同时开放 API 型号 gpt‑5.4;特点包括:最高 100 万 token 上下文、推理链可控、原生电脑操作与工具发现能力,在 BrowseComp 等代理评测上相对 GPT‑5.2 提升显著。(openai.com)
- 对业务影响:对「长 Session 智能客服 / 复杂投放策略编排 / 自动运营 Agent」等复杂任务极具吸引力,但推理和调用链更长,对延迟和成本敏感;建议以「高价值长链路任务」为主战场,而非全量替换现有在线模型。
Google:Gemini 3.1 Flash‑Lite 上线,瞄准高 QPS、低成本推理
- 3 月 3 日 Google 发布 Gemini 3.1 Flash‑Lite(开发者预览),官方博客定位为「目前最便宜、最高吞吐的 Gemini 3 系列模型」,支持多模态输入、结构化 JSON 输出,并引入可调的 Thinking Levels(按请求复杂度动态拉长推理步骤)。(blog.google)
- 定价为 $0.25 / 100 万输入 token、$1.50 / 100 万输出 token,相对 Gemini 2.5 Flash 有明显降价,对标 GPT‑5 mini / Claude 低配型号。(techradar.com)
- 对业务影响:很适合「海量摘要 / 文本清洗 / 简单多轮问答」这类 CPU 型任务,可作为内部多模型路由中的「高 QPS 工作马」,在多模型比价中对压低整体推理成本有实际意义。
阿里 Qwen:Qwen3.5 Small 系列(0.8B~9B)开源,重点打「小模型高推理力」
- 3 月 2–3 日,阿里通义团队在 X 等渠道宣布 Qwen3.5 Small Model Series,包含 0.8B、2B、4B、9B 四个尺寸,全部开源权重并在 Hugging Face / ModelScope 上线;第三方评测显示,Qwen3.5‑9B(推理向)在 GPQA、视频理解等多项基准上可逼近甚至超越 100B+ 级开放模型(如 gpt‑oss‑120B)。(ainewshome.com)
- 微软 Azure AI Foundry 同步上线 Qwen3.5 Medium 系列,强调在 MMMU、MathVista 等多模态推理任务上,小模型也能跑在本地 GPU 上,同时保持接近前沿模型的精度。(techcommunity.microsoft.com)
- 对业务影响:对「私有化 / 国内多云 / 边缘部署」极为友好,可考虑:搜索召回 + 轻量问答 + 重排序「一条龙」都基于 Qwen3.5‑9B / Medium,在 GPU 受限的情况下替代部分大模型调用。
字节 DeerFlow 2.0:多 Agent Deep Research 框架继续在社区发酵
- 字节开源的 DeerFlow 2.0(Deep Exploration and Efficient Research Flow) 在 2 月完成 2.0 重构后,本周仍持续占据 GitHub Trending 榜单(约 2.2–2.5 万 star),被多家博客和评测文章解读为「更完整的 SuperAgent/Deep Research 运行时」:基于 LangGraph / LangChain,内置多角色子 Agent、代码沙箱、Web 抓取、报告生成链路。(cnblogs.com)
- 对业务影响:其架构(检索 Agent + 分析 Agent + 撰稿 Agent + 复核 Agent)基本可以直接映射到「投放策略研究」「类目运营情报」「竞品监测」等电商场景,可作为内部 Agent 平台架构与安全治理(沙箱、限权)设计的参照系。
Sarvam AI:印度本土 30B / 105B MoE 模型开源权重本周放出
- Sarvam AI 在 2 月的 India AI Impact Summit 上发布 30B / 105B Mixture‑of‑Experts 模型,本周(约 3 月 6 日)正式将 Sarvam‑30B、Sarvam‑105B 权重在 Hugging Face 与本土平台 AIKosh 以 Apache 2.0 方式开放下载,主打多印度语言、长上下文和本地训练(千余张 H100,印度本土机房)。(techcrunch.com)
- 多家分析指出,其在印度语种相关基准上对 DeepSeek R1、Gemini 2.5 Flash 等具优势,对编码和 Agentic 推理略微落后主流水平。(newsbytesapp.com)
- 对业务影响:一方面意味着「本地化主权模型 + 开源」在全球范围继续发酵,另一方面也验证了 大参数 MoE + 本地语种数据 路线对电商跨境业务(尤其是新兴市场)具备可行性与议价筹码。
AI2:Olmo Hybrid 7B 发布,用「Transformer + 线性 RNN」换取 ~2× 数据效率
- Allen Institute for AI 本周发布 Olmo Hybrid 7B,在 Olmo 3 同等能力下只需约 51% 训练 token,在 MMLU 等标准基准上达到相当水平,同时在长上下文基准和长序列推理吞吐上有明显优势(长上下文吞吐最高可提升 75%)。(allenai.org)
- 对业务影响:混合架构(Attention + Gated DeltaNet 线性 RNN)开始在开源社区成体系落地,为「长 Session 搜索 / 会话推荐 / 长日志建模」等长序列任务提供了一条更低成本的开源路径,适合私有化长日志建模与在线重排序模型的演进。
2)机器人 / 系统
BMW × Hexagon:AEON 仿人机器人进入莱比锡工厂电池装配线
- BMW 本周多篇报道确认,在德国莱比锡工厂正式试运行瑞士 Hexagon Robotics 的仿人机器人 AEON,用于高压电池装配和部件生产,之前在美国 Spartanburg 工厂中,类似人形机器人已完成 3 万多辆 X3 车型部件搬运任务。(cio.com)
- 对业务影响:汽车 OEM 把「具身智能 + 生产线」从 PoC 推向持续运行,对「仓储/分拣机器人 + LLM 调度」等电商物流场景是强信号,也会倒逼上游 GPU / 传感器 / 工业 AI 平台对实时性和安全冗余的要求。
OPPO × 联发科:MWC 2026 上展示端侧多模态 AI + 翻译 / 摄影 AI 能力
- 在 MWC 2026 上,OPPO 与联发科展示基于 Dimensity 9500 的 端侧多模态 AI 能力:AI Translate 支持离线翻译,相比旧方案准确率提升约 15%,AI Portrait Glow 提升弱光人像质量;并宣布新一代多模态模型将随着 ColorOS 16 在 Find X9 系列上落地。(technobaboy.com)
- 对业务影响:端侧多模态能力增强意味着「本地视觉理解 + 轻量文生图」可以在购物 App 内直接跑在手机上,适合探索离线比价、货架识别、拍照逛街等低延迟交互。
三星 Galaxy S26:号称首款「真正 Agentic AI 手机」
- 三星在 3 月 6 日的 Galaxy Unpacked 上发布 Galaxy S26,宣传点是集成「真正 Agentic AI」:包含隐私显示(基于 AI 的屏幕防窥)、上下文感知的主动助理、端侧内容生成工作室等,并搭配支持手势 / 语音交互的 Galaxy Buds4。(smartchunks.com)
- 对业务影响:如果 Agent 能读取用户浏览和购物上下文并主动触发任务(下单、比价、生成评价草稿等),电商平台需要尽快规划:如何 以 API 形式向终端 Agent 暴露「安全、可控」的检索 / 下单 / 订单查询能力,而不只是 H5 页面。
Broadcom:公布 730 亿美元 AI 积压订单,指向多厂商加速器格局
- Broadcom 在最新财报中披露,当前 AI 相关芯片积压订单约 730 亿美元,预计 2027 年 AI 芯片收入将超 100 亿美元,是当前水平的十余倍;同时强调与 TSMC 深度协作、对 Nvidia GPU 垄断形成长期威胁。(smartchunks.com)
- 对业务影响:AI 训练 / 推理基础设施的供给侧会进一步多元,头部电商可以考虑 同时布局 GPU + 专用 ASIC/定制加速卡,在大模型推理集群设计上预留异构硬件能力,以对冲纯 GPU 成本与供给风险。
三星 START 计划:面向「近人交互」的机器人基础模型开放研究资助
- 三星 START 2026 计划发布新一轮 CFP,其中一项重点议题是 “Foundation models for close human-robot interaction”,鼓励围绕人机共处空间的感知、预测和行为规划构建通用基础模型。(sra.samsung.com)
- 对业务影响:说明「具身智能基础模型 + 人机协作」正成为产业共识,和 BMW 等实际部署互为呼应。对电商仓储/线下门店机器人,意味着从「脚本化流程」走向「模型驱动 + 人类协作」的窗口正在打开。
3)论文或技术报告
本节时间均为论文在 arXiv 更新或正式发表时间,统一换算为北京时间附近日期(精确到日,不到小时)。部分机构归属依据论文首页与作者信息,如有误差请以原文为准。
3.1 NextAds:生成式个性化视频广告范式
论文信息
- 标题:NextAds: Towards Next-generation Personalized Video Advertising(arxiv.org)
- 作者及单位:Yiyan Xu 等,来自多所高校与企业(论文中单位未完全公开,偏研究社区)
- 时间:2026-03-02(arXiv v1,约为北京时间 3 月 3 日)
主要方法与结果
- 问题:当前个性化视频广告普遍是「从少量预制素材中做检索」,无法覆盖多样用户与多样场景,难以做实时个性化和持续创意优化。
- 方法:提出 NextAds 生成范式,把视频广告视作「在投放时由生成式模型动态合成」的对象,设计了 4 个核心组件(创意空间建模、用户 / 场景条件建模、在线生成与整合、反馈闭环),并定义两类任务:个性化创意生成 & 个性化创意整合。
- 结果:在构建的轻量基准上,初步实验表明 GenAI 可以在保持品牌要素的前提下生成更贴合用户兴趣的视频碎片与组合,离线指标优于传统检索式系统,展示了生成式视频广告的可行性。
对广告 / 搜索 / 推荐的启示
- 广告从「选一个」走向「即时生成一个」:对短视频平台、信息流广告尤为关键,传统「N 个创意 AB 测」天花板将被突破。
- 需要重新设计反馈与安全机制:生成式广告意味着素材空间近乎无限,品牌安全、合规审查、素材打标需要「生成前规则 + 生成后自动审查 + 人审兜底」三层。
- 基础设施层面:需要设计「视频模板 + 可学习槽位 + 文生视频 / 图像模型」一体化 pipeline,而非简单把文案交给大模型生成。
3.2 IDProxy:多模态 LLM 解决小红书冷启动 CTR
论文信息
- 标题:IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs(arxiv.org)
- 作者及单位:Yubin Zhang 等,Xiaohongshu(小红书)
- 时间:2026-03-02(arXiv v1)
主要方法与结果
- 问题:主流 CTR 模型高度依赖 item ID embedding,在新品 / 新广告缺乏交互数据时表现极差,是典型的冷启动痛点。
- 方法:提出 IDProxy 方法——
- 利用多模态大模型(MLLM)读取商品图文等内容,生成 proxy embedding;
- 通过对齐损失,把这些 proxy 显式对齐到既有 ID embedding 空间;
- 在 CTR 目标下与主排序模型 端到端联合训练,做到「对老品继续用真实 ID embedding,对新品用 proxy embedding」的无缝替换。
- 结果:论文报告中,IDProxy 已在小红书内容 Feed 与展示广告中落地,线下和线上 A/B 均显著优于多种强基线,且对现有大规模排序流水线侵入很小。
对广告 / 搜索 / 推荐的启示
- LLM 更适合做「语义到 ID 空间的桥」而不是直接当排序器:通过 proxy embedding,对现有 CTR 模型是「增强」而非「替代」。
- 冷启动问题应该多模态统一解决:图片、短视频、标题、类目、UGC 描述都可以进入同一 MLLM,生成对齐后的 embedding。
- 工程路径可复用:对任何已经有 ID embedding + CTR DLRM 的系统,都可以相对平滑地接入一层「Proxy 生成 + 对齐」,属于非常值得复刻的工业实践。
3.3 RAG Fusion 在工业场景里的「反直觉结论」
论文信息
- 标题:Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment(arxiv.org)
- 作者及单位:Luigi Medrano, Arush Verma, Mukul Chhabra,Dell Technologies
- 时间:2026-03-02(arXiv v1)
主要方法与结果
- 问题:工业界常用多查询检索(multi-query)+ 互惠排名融合(RRF)等 RAG Fusion 技术,假设「更高召回 → 更好答案」,但在有限重排预算和上下文长度约束下,这个假设是否成立?
- 方法:在一套真实企业知识库 RAG pipeline(固定召回深度、重排序预算和延迟约束)中,系统性比较多种 fusion 配置与单查询基线。
- 结果:
- Fusion 确实提高了原始召回,但 在重排和上下文截断后,Hit@10 从 0.51 降到 0.48,端到端效果不升反降;
- 多数配置在用户侧看不到显著收益,却明显增加了延迟和系统复杂度。
- 结论:在现实部署中,单纯追求检索召回的 Fusion 有明显边际递减甚至负收益,评估必须同时考虑检索质量、系统效率和下游效果。
对广告 / 搜索 / 推荐的启示
- 对 RAG 型搜索 / 客服咨询机器人:与其堆更多「多查询 / 多路召回」,不如把重心放在 重排质量、上下文裁剪策略和大模型回答结构化 上。
- 对「搜索+推荐一体化」场景:在高吞吐服务中,复杂融合策略要用 是否带来可观 CTR / 转化提升 来 justify,而非看离线召回指标。
- 技术上应开始建设「端到端指标 + 线上延迟」一体化评估框架,而不是只看检索层面的 NDCG / Recall。
4)本期行动清单(面向广告 / 搜索 / 推荐)
行动 1:基于 IDProxy 思路,立项「冷启动 CTR × 多模态 LLM」专项
- 适用场景
- 新品 / 新广告占比较高的频道(如新品频道、达人带货、新品牌孵化位)、以及内容长尾特别长的 Feed 流。
- 初步落地路径
- 选定一个业务域(如信息流广告或内容推荐)做实验组,冻结现有 CTR 模型参数;
- 选用已有多模态 LLM(自研 Qwen3.5 多模态 / OpenAI GPT‑5.4 + vision / Gemini 多模态等),构造「内容 → proxy embedding」模块;
- 通过对齐 loss 把 proxy 映射到现有 ID embedding 空间,复现 IDProxy 端到端联合训练策略;(arxiv.org)
- 在仅包含冷启动 item 的 traffic 上做灰度 A/B:观察 CTR / CVR / RPM 提升及延迟开销;
- 若冷启动收益显著、非冷启动持平,则逐步扩大覆盖范围。
- 潜在风险与注意事项
- 多模态 LLM 推理成本不可忽视,应优先 离线批生成 proxy embedding,在线只用已有 CTR 模型;
- 内容侧噪声(文案灌水、图文错配)可能导致错误 proxy,需要在训练数据中加入「低质量内容过滤 / 置信度建模」;
- 注意 GDPR / 隐私合规:proxy 不应编码个人敏感属性,尤其在广告定向场景。
行动 2:以 NextAds 为蓝本,规划「生成式视频广告」长期路线图
- 适用场景
- 视频信息流广告、短视频开屏/中插、直播带货切片等,对创意多样性和实时性要求高的广告库存。
- 初步落地路径
- 短期(3–6 个月):
- 从现有视频素材中抽取「模板 + 可替换槽位」(画面/文案/配音),用大模型生成 脚本、字幕、旁白,人工后制合成,验证生成式创意对 CTR / CVR 的增益;
- 中期(6–12 个月):
- 参考 NextAds 的「个性化创意生成 / 整合」任务定义,构建内部离线评测基准(含品牌安全、完播率、点击率等指标);(arxiv.org)
- 打通 GenAI(文生图 / 文生视频)与投放系统,先从 低风险类目 + 小流量白名单广告主 开始在线实验;
- 长期:
- 形成 统一的创意生成平台,对接多家模型(自研 + OpenAI + Google + 阿里),支持广告主提供品牌元素,系统根据受众和上下文即时生成素材。
- 短期(3–6 个月):
- 潜在风险与注意事项
- 品牌安全 & 法务风险高:生成内容可能涉及虚假承诺、侵权素材或敏感议题,需要多级审核与可追溯生成日志;
- 需提前与大客户沟通「生成式广告」的合规边界与验收标准,避免因创意过度个性化导致品牌调性偏离;
- 从系统视角,务必隔离「生成式创意实验流量」与主流量,保证任何生成问题不会外溢到核心业务。
5)论文与链接列表(按主题归类)
说明:以下列出本期重点涉及的论文 / 官方技术报告 / 主要模型公告,标题均可在对应官网或 arXiv 检索获取,括号内为来源与时间。链接可通过本报告中的引用标记直接访问。
模型 / 平台
- OpenAI, GPT‑5.3 Instant: Smoother, more useful everyday conversations(OpenAI 官方博客与 System Card, 2026-03-03)(openai.com)
- OpenAI, Introducing GPT‑5.4(OpenAI 官网 & API 文档, 2026-03-05)(openai.com)
- Google, Gemini 3.1 Flash‑Lite: Our most cost‑effective AI model yet(Google 官方博客, 2026-03-03)(blog.google)
- Alibaba, Qwen 3.5 Small / Medium Model Series(官方公告与第三方解读, 2026-03-02 起)(ainewshome.com)
- ByteDance, DeerFlow / DeerFlow 2.0:Deep Research & SuperAgent 框架(GitHub 官方仓库与技术博客合集, 2025–2026 年,2026 年 3 月仍在快速迭代)(cnblogs.com)
- Sarvam AI, Sarvam‑30B & Sarvam‑105B Models and Open Weights(Sarvam 官方文档、Forbes/Indian Express 报道, 2026-03-06 起)(docs.sarvam.ai)
- AI2, Olmo Hybrid 7B: Hybrid Transformer + Linear RNN Language Model(AI2 Newsletter & Hugging Face 模型卡, 2026-03-07)(allenai.org)
机器人 / 系统 / 硬件
- BMW & Hexagon Robotics, AEON Humanoid Robot Pilots at BMW Leipzig Plant(BMW 官方新闻稿与多家媒体报道, 2026-03 上旬)(cio.com)
- OPPO & MediaTek, On-device Multimodal AI at MWC 2026 (Find X9 + Dimensity 9500)(MWC 报道, 2026-03-07)(technobaboy.com)
- Samsung, Galaxy S26 with “True Agentic AI”(产品与技术分析报道, 2026-03-06)(smartchunks.com)
- Broadcom, AI Chip Sales & $73B Backlog Outlook(市场分析报道, 2026-03-06)(smartchunks.com)
- Samsung START Program, Foundation Models for Close Human-Robot Interaction – CFP(项目说明书, 2026-03-06)(sra.samsung.com)
论文 / 技术报告(与广告 / 搜索 / 推荐高度相关)
- Yiyan Xu et al., NextAds: Towards Next-generation Personalized Video Advertising,arXiv:2603.02137, 2026-03-02(arxiv.org)
- Yubin Zhang et al. (Xiaohongshu), IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs,arXiv:2603.01590, 2026-03-02(arxiv.org)
- Luigi Medrano et al. (Dell Technologies), Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment,arXiv:2603.02153, 2026-03-02(arxiv.org)
其它值得关注的研究与调研(与大模型应用与风险相关)
- Nature Human Behaviour, Large language models have the potential to level the playing field in consumer financial complaints(2026-03-04)(nature.com)
- Praneeth Vadlapati, AI Is Not Ready: A Study of Large Language Model Reliability in Safety-Critical Applications(技术报告, 2026-03)(prane-eth.github.io)
如需,我可以在后续针对某一方向(例如:冷启动 CTR / 生成式视频广告 / 多模型路由与成本优化)单独输出「技术方案草稿 + 评估指标 + 里程碑」版本,便于直接拉业务评审。