aixpilot.com

Pilot Your Work with AI

浏览每日/每周/每月的广告与 AI 洞察报告,掌握行业动向

← 返回首页
AI日报

AI日报 - 2026-03-25

📅 周期:2026-03-25 ~ 2026-03-25

📝 字数:10622 字

⏰ 生成时间:2026-03-26 05:35:01 CST

AI 深研AI日报-2026-03-25

说明:本日报基于截至北京时间 2026-03-25 的公开信息,重点覆盖近 2–4 周内对「大模型 × Agent × 机器人 × 系统」有实质影响的进展,并结合电商广告 / 搜索 / 推荐场景给出可落地启示。若结论存在不确定性,已显式标注为「[不确定]」。


1)模型 / 平台

  1. Google Research 推出 KV 缓存 / 向量搜索压缩方案 TurboQuant

    • 3 月 24 日,Google Research 发布博客,系统介绍 TurboQuant 及其组成的 PolarQuant、Quantized JL 等量化算法,在 Gemma、Mistral 等 LLM 上实现 KV cache 3.5 bit 量化基本无质量损失,同时显著压缩向量索引并保持召回,为长上下文推理和大规模向量检索在搜索、推荐中的「降本不降质」提供了工业级路线。(research.google)
  2. Qwen3-Coder-Next:面向 Coding Agent 的 80B MoE 开源模型

    • 阿里巴巴千问团队在技术报告中提出 Qwen3-Coder-Next:80B 总参数但仅激活 3B,通过大规模可验证编程任务和环境交互强化「智能体式」训练,在 SWE-Bench、Terminal-Bench 等基准上以远低于同档模型的推理成本取得竞争力表现,非常适合作为内部代码 Agent、数据管道自动化和搜索 / 推荐特征工程 Agent 的主力模型。(arxiv.org)
  3. DeepSeek-OCR 2:PDF / 文档理解专用多模态模型

    • DeepSeek 发布 DeepSeek-OCR 2:Visual Causal Flow,以 Qwen2-0.5B 为轻量视觉编码器,采用双流注意力和「视觉因果流」重排策略,将视觉 token 用量削减约 80%,在 OmniDocBench v1.5 上整体得分提升至约 91%,在复杂表格、公式、长文档版面解析上超过 Gemini 3 Pro;对大规模 RAG、商品图文解析、合规审核等场景的算力成本与吞吐有直接利好。(finance.sina.com.cn)
  4. Kimi K2.5 与 Kimi Agent:办公文档全品类智能体能力上线

    • 月之暗面在 Kimi K2.5 基础上升级 Kimi Agent,可对 Word / Excel / PPT / PDF 进行排版、金融建模、合同审查、报表分析和咨询级 PPT 生成等操作,将数小时办公流程压缩到十几分钟,意味着「文档即工作流」的 Agent 形态可直接迁移到广告投放报告、商家运营报表和搜索词洞察等 B 端场景。(finance.sina.com.cn)
  5. MiniMax Agent:桌面级与「专家 Agent」双线升级

    • MiniMax 宣布 MiniMax Agent 新增桌面端与专家型 Agent,可直接接入本地文件系统完成多源检索、归档和专业分析,并通过预注入特定领域知识与流程,以一句指令触发完整任务执行,为「运营专家 Agent」「品类专家 Agent」等电商场景提供现实参考范式。(finance.sina.com.cn)
  6. Volcengine Mem0:大模型长期记忆基础设施产品化

    • 字节跳动火山引擎推出记忆系统 Mem0,结合向量检索与图检索的「Mem0g」图基记忆架构,相比直接把全历史塞入上下文显著降低延迟与 token 成本,同时兼容 LangChain / LangGraph / LlamaIndex 等主流框架,为多会话、跨任务 Agent 在客服、智能导购、教育等场景提供工业级长记忆底座。(finance.sina.com.cn)
  7. Ensu:完全本地运行的通用 LLM 应用

    • 隐私存储厂商 Ente 发布本地 LLM 应用 Ensu,可在手机与桌面端离线运行、支持端到端加密同步,核心逻辑开源并统一使用 Rust 实现,为「本地私域 Agent」和端侧推荐 / 个性化搜索创造技术样板,尤其适合需严格数据出境管控的电商与金融客户进行 PoC。(ente.com)
  8. [不确定] Google 3 月核心 / 垃圾信息更新加大 AI 内容打击力度

    • 多家 SEO 机构与博客披露所谓 「March 2026 Core Update + Spam Update」 主要针对大规模低质量 AI 内容和链接垃圾,强调 E-E-A-T 与原创数据,但截至 3 月 25 日,Google Search Status / 官方博客尚未给出完全一致的命名与细节说明,[不确定] 其是否为单一「核心更新」还是 Discover / Spam 系列更新叠加。(pxlpeak.com)

2)机器人 / 系统

  1. Arm 发布 Arm AGI CPU:面向 Agentic AI 的数据中心 CPU 产品线

    • Arm 在 3 月下旬正式发布 Arm AGI CPU,宣称在满柜配置下可较最新 x86 系统实现 2 倍以上每机架性能,聚焦「Agent 成为主要工作负载」下的编排、网络与数据面计算,并已获得 Meta、OpenAI、Cerebras、Cloudflare 等作为首批合作伙伴,有望在下一代检索 / 广告 / 推荐集群中作为「Agent 调度中枢」替代通用 x86。(newsroom.arm.com)
  2. NVIDIA Rubin / Vera 平台:六芯协同构建 AI 工厂级算力底座

    • NVIDIA 在年初新闻稿中正式推出 Rubin 平台,由 Vera CPU、Rubin GPU、NVLink 6 交换芯片、ConnectX-9 SuperNIC、BlueField-4 DPU 与 Spectrum-6 以太网交换机构成一体化机架级 AI 系统,主打训练与大规模推理统一架构,并在 GTC 2026 上持续扩展生态——对需要「多任务、长上下文、Agent 编排」的搜索 / 广告主站意义在于:推理 QPS 与多模型混部成本有望再下一个台阶。(nvidianews.nvidia.com)
  3. Hypura:把超大模型搬上 32GB Mac 的分层推理调度器

    • 开源项目 Hypura 在 GitHub 上持续迭代,提出针对 Apple Silicon 的「存储层感知」推理调度:将归一化 / embedding 等小而高频模块常驻 GPU,把 MoE Expert 与大 FFN 权重按访问模式分层放在 RAM / NVMe,并结合专家路由拦截与缓存,将 31GB Mixtral 8x7B 在 32GB Mac mini 上跑到 2.2 tok/s,而同等模型在 llama.cpp 中会直接 OOM,这为「本地多模态搜索 / 推荐」和开发机上的高效实验提供了现实可行的系统方案。(github.com)
  4. NVIDIA Cosmos-Predict2.5:面向具身智能的世界视频基础模型

    • NVIDIA 在更新的技术报告中发布 Cosmos-Predict2.5 / Cosmos-Transfer2.5,基于流模型统一 Text2World / Image2World / Video2World,并结合 Cosmos-Reason1 做物理场景理解,支持高保真长时序视频模拟与 Sim2Real 迁移,已开源代码与权重;这为仓储机器人、无人配送等「具身电商场景」提供了更逼真的仿真训练环境,有助于在不占用真实库容的情况下优化路径规划和操作策略。(arxiv.org)

3)论文或技术报告

本期选取 4 篇与「大模型压缩 / Coding Agent / 文档多模态解析 / Agent 安全」高度相关、且对广告 / 搜索 / 推荐具直接启发的工作。

  1. 《Qwen3-Coder-Next Technical Report》——阿里巴巴 Qwen 团队

    • 时间 & 作者:2026-02-28 投稿,Ruisheng Cao 等,隶属阿里巴巴 Qwen 团队。(arxiv.org)
    • 主要方法:提出 80B MoE 架构但仅激活 3B 参数的开源编码模型 Qwen3-Coder-Next,通过大规模可执行编程任务、环境交互与 RL 进行「Agent 式训练」,让模型从代码执行反馈中学习错误恢复、工具调用和长程推理。(arxiv.org)
    • 关键结果:在 SWE-Bench、Terminal-Bench 等面向智能体编程的基准上,Qwen3-Coder-Next 以远低于同档模型的推理 FLOPs 获得可比性能,并提供 Base / Instruct 两个开源权重版本。(arxiv.org)
    • 对广告 / 搜索 / 推荐的启示:可用作内部「DevOps / 特征工程 / 检索管道」Agent 的主力骨干模型,在 8–24GB 显存环境下即可支撑复杂 SQL 生成、特征脚本重构与日志埋点改造,显著加快搜索 / 推荐系统的实验节奏,同时成本可控。
  2. 《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》——Google Research

    • 时间 & 作者:2025-04-28 投稿,Amir Zandieh 等,Google Research。(arxiv.org)
    • 主要方法:提出数据无关的在线向量量化算法 TurboQuant,通过随机旋转把高维向量变成集中 Beta 分布,再对每一维使用标量量化,并在残差上叠加 1bit 的 Quantized JL 以消除内积偏差,在理论上接近信息论最优失真率。(arxiv.org)
    • 关键结果:在 KV cache 量化中,以 3.5 bit / channel 达到几乎零质量损失、2.5 bit 仅有轻微下降;在向量最近邻检索任务中,相比主流 Product Quantization 同时提升 recall 并降低索引构建时间,在 Google 后续博客中被证明在 LongBench、RULER 等长上下文基准上维持模型表现。(arxiv.org)
    • 业务启示:搜索 / 推荐主干若采用 KV 缓存(如长会话模型、Session-based Ranking)和向量召回,可优先在中小规模模型上试点 TurboQuant 类方案:一方面压缩 KV / embedding 存储与带宽,降低 GPU 显存与内存成本;另一方面测试在 CTR / GMV 关键指标上的质量折损,为大规模 Rollout 预估「性价比曲线」。
  3. 《DeepSeek-OCR 2: Visual Causal Flow》——DeepSeek AI

    • 时间 & 作者:2026-01-27 前后发布,DeepSeek 团队,多位研究者联合署名。(arxiv.org)
    • 主要方法:用轻量 Qwen2-0.5B 构建 DeepEncoder V2,提出「视觉因果流」编码方式,以双流注意力解耦全局视觉表征与序列因果建模,支持根据图像语义动态重排 token,并在训练中大量采用 OCR / PDF / 网页截图等数据做三阶段训练(编码器预训练 + 查询增强 + 解码器微调)。(arxiv.org)
    • 关键结果:在 OmniDocBench v1.5 上整体达到约 91 分,比前代提升约 3.7 分;在保持与 Gemini 3 Pro 相当的 token 预算下,将视觉 token 数压缩最高 16–20 倍,显著减少复杂文档输入成本。(finance.sina.com.cn)
    • 业务启示:对电商平台尤为关键——可用于 大规模商品说明书 / 发票 / 合同 / PDF 报告的结构化抽取,并接入 RAG / 推荐特征管线:例如从长 PDF 中抽取关键属性、价格条款、品牌约束,反哺搜索过滤和精准定价,同时通过 token 压缩控制多模态 RAG 的线上成本。
  4. 《Authenticated Workflows: A Systems Approach to Protecting Agentic AI》——企业级安全工作流方案

    • 时间 & 作者:2026-02-11 投稿,Mohan Rajagopalan、Vinay Rao 等(作者隶属企业安全与系统工程背景,[不确定具体公司])。(arxiv.org)
    • 主要方法:提出「Authenticated Workflows」框架,把 Agent 系统的安全问题抽象为四个边界(Prompt、Tool、Data、Context)的意图与完整性校验,并设计 AI 原生策略语言 MAPL,通过分层策略 + 密码学证明约束 Agent 的可调用操作;同时提供统一安全运行时,零侵入式接入 MCP、LangChain、AutoGen、LlamaIndex 等九大框架。(arxiv.org)
    • 关键结果:在 174 个测试用例上实现 100% 攻击检测召回且零误报,可覆盖 OWASP Top 10 中 9 类风险,并完全阻断两起已公开的高危 Agent 相关 CVE 漏洞,对实际企业环境中防止越权 API 调用、数据外泄有现实意义。(arxiv.org)
    • 业务启示:对广告 / 搜索 / 推荐中的 「可操作 Agent」(可调预算、可改出价、可写配置) 极具参考价值:应借鉴其「策略语言 + 密签证明」思路,把额度调整、出价修改、索引重建等敏感操作纳入「可审计、可回滚」的工作流,而非只依赖自然语言 Guardrail。

4)本期行动清单(面向广告 / 搜索 / 推荐)

  1. 在检索 / 排序链路中试点 KV / 向量压缩,构建「成本–收益」基线

    • 适用场景:长上下文召回(如多轮对话搜索、会话推荐)、大规模向量召回(Embedding ANN)、以及使用 KV cache 的智能客服与广告生成模型。
    • 落地路径
      1)选取 1–2 条与主站解耦度高的链路(如「搜索建议」「召回候选扩展模型」)做 PoC,引入 TurboQuant 类量化方案压缩 KV 与向量索引;
      2)在相同硬件上测量吞吐、延迟与 GPU 显存占用变化,并在线 A/B 对 CTR / GMV / 问答满意度进行监控,评估在 2.5–3.5 bit 不同档位下的质量–成本曲线;
      3)将实验结果沉淀为「压缩 SLO」,为之后大模型上线前强制评审的一部分。
    • 潜在风险 / 注意事项
      • 压缩可能对长尾 query / 冷门品类影响更大,需分层评估而非只看整体 CTR;
      • 与召回 / 排序多模型协同时,注意一致性——例如重排模型是否需要看到原始向量或解压后的特征,以免隐性分布漂移。
  2. 搭建「安全可审计的 Agent 工作流」样板,先从投放运营和内容治理切入

    • 适用场景:广告投放策略调优(预算分配、出价调整)、搜索配置管理(同义词、黑白名单)、内容审核 / AI 生成文案合规检查等。
    • 落地路径
      1)选定一条可控流水线(如「新品投放冷启动 Smart Campaign」),使用 Qwen3-Coder-Next / 本地 LLM + Mem0/自建记忆,将「拉数 → 诊断 → 生成建议 → 人审执行」封装为 Agent 工作流;
      2)借鉴 Authenticated Workflows 思路,在关键操作(改预算、改出价、改人群)前增加策略语言描述的白名单规则与强制签名记录(如谁审核、什么依据),所有动作记入审计日志;(arxiv.org)
      3)将同样框架复用到「AI 文案生成 + 反垃圾审核」链路,结合当前 Google 对 AI 内容收紧趋势,[不确定] 建立内部质量评分与人工抽检闭环,避免大规模 AI 内容被外部搜索生态集体打压。(pxlpeak.com)
    • 潜在风险 / 注意事项
      • 需要清晰划分「Agent 建议」与「最终决策」责任边界,短期建议仍保留人工确认;
      • 策略语言与审计系统本身要保持简单可维护,避免「为了安全引入第二套复杂系统」,可优先选用 YAML/DSL 级别的轻量表达与已有权限系统集成。

5)论文与链接列表

以下为本期提及的主要论文与官方 / 一手技术链接(按主题归类)。

大模型与 Agent

  • Qwen3-Coder-Next Technical Report

    • 论文:https://arxiv.org/abs/2603.00729 (arxiv.org)
    • 官方模型页:https://qwen-ai.com/qwen-coder/ (qwen-ai.com)
  • TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

    • 论文:https://arxiv.org/abs/2504.19874 (arxiv.org)
    • Google Research 博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ (research.google)
  • Authenticated Workflows: A Systems Approach to Protecting Agentic AI

    • 论文:https://arxiv.org/abs/2602.10465 (arxiv.org)
  • Agentics / 物理世界模拟相关

    • World Simulation with Video Foundation Models for Physical AI(Cosmos-Predict2.5 / 2.5-Transfer):https://arxiv.org/abs/2511.00062 (arxiv.org)

多模态 / 文档理解

  • DeepSeek-OCR 2: Visual Causal Flow
    • 论文:https://arxiv.org/abs/2601.20552 (arxiv.org)
    • GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2 (arxiv.org)

记忆系统与 Agent Infra

  • Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

    • 论文:https://arxiv.org/abs/2504.19413 (arxiv.org)
  • Volcengine 记忆库 Mem0 产品介绍(中文综述)

    • 报告:https://finance.sina.com.cn/stock/roll/2026-02-08/doc-inhmfivi9199791.shtml (finance.sina.com.cn)

模型 / 平台与应用

  • Arm AGI CPU 官方博客

  • Ensu - Ente's Local LLM App

    • 博客:https://ente.com/blog/ensu/ (ente.com)
    • Ensu 开源代码入口:文末 GitHub 链接集合。(ente.com)
  • Hypura:Run models too big for your Mac's memory

    • GitHub:https://github.com/t8/hypura (github.com)
  • NVIDIA Rubin / Vera 平台

    • 官方新闻稿(Rubin 平台):https://nvidianews.nvidia.com/_gallery/download_pdf/695c39b23d633240d175d8e6/ (nvidianews.nvidia.com)
  • DeepSeek-OCR 2 新闻与技术解读

    • MarkTechPost 解读:https://www.marktechpost.com/2026/01/30/deepseek-ai-releases-deepseek-ocr-2-with-causal-visual-flow-encoder-for-layout-aware-document-understanding/ (marktechpost.com)

搜索生态与 AI 内容(第三方汇总,仅作趋势参考)

  • Google March 2026 Core Update 分析(第三方)

    • PxlPeak:https://pxlpeak.com/blog/seo/google-march-2026-core-update (pxlpeak.com)
  • Google 以往算法更新与 2025–2026 走势梳理

    • RankMath Google 更新时间线:https://rankmath.com/google-updates/ (rankmath.com)

注:上述部分 SEO 链接为非官方解读,仅用于把握「AI 内容治理」外部环境趋势,不应视作 Google 官方政策;关键决策前仍建议直接查阅 Google Search Status 与 Search Central 官方文档进行对照验证。