齐思洞见2026/07/01「Blackwell将GPU编程从同步线程改为异步数据流；智能代理演进聚焦共享知识图谱、数据驱动多模型流水线与代理—评估者/Prover–Verifier循环，强化记忆、推理与企业化落地」 - 齐思

## 目录 - [⚙️ 技术与工程 (17条)](#⚙️-技术与工程) - [托管版MCP服务器推动AI工具快速接入平台](#💡-技术洞见-1) - [共享知识图谱提升AI代理的记忆效率与协作能力](#💡-技术洞见-2) - [Transformer Explainer工具让模型学习更直观高效](#💡-技术洞见-3) - [GPU编程从同步线程协作转向异步数据流调度](#💡-技术洞见-4) - [机器人学习的瓶颈在于数据基础设施而非模型改进](#💡-技术洞见-5) - [从文件化知识库到工程化企业知识库的演进路径](#💡-技术洞见-6) - [高效智能代理的迭代路径在于数据驱动的多模型流水线设计](#💡-技术洞见-7) - [Hermes Agent 提升网页读取速度并降低成本](#💡-技术洞见-8) - [Riverside 2.0 打造端到端视频创作闭环工具](#💡-技术洞见-9) - [Gemini Live 构建自然流畅且可靠的语音代理系统](#💡-技术洞见-10) - [CS2-10k 数据集为世界模型和动作条件视频生成研究提供新工具](#💡-技术洞见-11) - [ASPIRE 通过技能库优化实现机器人能力的持续学习与迁移](#💡-技术洞见-12) - [人为审核与定期复查可提升知识系统的长期一致性](#💡-技术洞见-13) - [增强代理能力比单纯放大模型参数更具企业价值](#💡-技术洞见-14) - [高质量标注与策略蒸馏可优化垂直场景模型性能与成本](#💡-技术洞见-15) - [隔离第三方模型输出可降低蒸馏与合同风险](#💡-技术洞见-16) - [桥水基金通过精调模型实现高效低成本的金融文档筛选](#💡-技术洞见-17) - [🔬 科学与发现 (3条)](#🔬-科学与发现) - [AI代理与评估者的共同进化提升自我改进能力](#💡-科研洞见-1) - [通过共进化实现代理与评估器的高效协作](#💡-科研洞见-2) - [Prover–Verifier 循环机制推动 LLM 迈向数学研究新高度](#💡-科研洞见-3) - [💰 商业与战略 (7条)](#💰-商业与战略) - [记忆与上下文是企业级AI的核心竞争力](#💡-商业洞见-1) - [超大上下文实时LLM API的性能与隐私权衡](#💡-商业洞见-2) - [事前验尸分析提升LLM决策稳健性](#💡-商业洞见-3) - [通过深度集成与指标驱动路径实现AI-agent产品化并被平台并购](#💡-商业洞见-4) - [Arena 通过社区规模与真实任务数据快速变现](#💡-商业洞见-5) - [AI 时代的护城河在于长期上下文和记忆的掌控权](#💡-商业洞见-6) - [优先保护用户利益可建立长期信任与竞争壁垒](#💡-商业洞见-7) - [🌐 行业与趋势 (4条)](#🌐-行业与趋势) - [社交媒体诈骗治理中的系统性偏差问题](#💡-行业洞见-1) - [AI正在重塑医疗诊断的工作流与患者角色](#💡-行业洞见-2) - [FAA 推动超音速飞行合法化迈出重要一步](#💡-行业洞见-3) - [独立审计基准揭示长文档抽取模型的实际性能差异](#💡-行业洞见-4) --- ## ⚙️ 技术与工程 ### 💡 技术洞见 #1 **托管版MCP服务器推动AI工具快速接入平台** 📝 **推文原文** > X刚刚推出了托管版MCP服务器，让AI工具可以直接连接到平台。 > > 你可以将Grok Build、Cursor、Claude、VS Code或者任何MCP客户端连接到两个官方服务器： > > - **X MCP** (httpx://api.x.com/mcp)：搜索帖子、管理书签、获取趋势/新闻，并根据你的账户权限撰写和发布文章。 > - **Docs MCP** (httpx://docs.x.com/mcp)：在工作流中即时搜索并阅读X API文档。 > > 快速设置Grok方法： > 访问[X开发者门户](httpx://developer.x.com/) > > 开工前准备： > 1. 在X开发者门户创建一个启用了 **OAuth 2.0** 的X应用。 > 2. 将重定向URI注册为https://localhost:8080/callback。 > 3. 复制你的 **CLIENT_ID** 和 **CLIENT_SECRET**，并用它们替换附图中的 **YOUR_X_APP_CLIENT_ID** 和 **YOUR_X_APP_CLIENT_SECRET**。 > > 接下来运行图片中提到的命令。然后验证设置： > > grok mcp doctor xapi > grok mcp list > > > 首次运行时需通过浏览器登录一次，之后令牌将本地缓存并自动刷新。 > > 这将为需要实时X数据的自主智能系统提供巨大支持！ 🧠 **深度解读** 通过将实时平台数据接口与在线 API 文档作为独立托管 MCP 端点，并提供现成工具与本地令牌自动续期，X平台为AI工具和开发者提供了快速接入的能力。这种架构不仅简化了开发者的接入流程，还为需要实时数据的智能系统提供了高效的支持，进一步推动了AI技术在实际场景中的应用。 🔗 **[查看原文](https://news.miracleplus.com/share_link/139871)** --- ### 💡 技术洞见 #2 **共享知识图谱提升AI代理的记忆效率与协作能力** 📝 **推文原文** > 转发 @ECalifornians：全新推出 Memory Stargraph，这是一个面向 GBrain 的人工智能记忆可视化工具！👏 > > Memory Stargraph 是一个本地网页服务，通过互动的星云实体图，助力探索 GBrain (人工智能知识库) 中的内容。 > > 我创建它的原因是：我的本地 AI Agent (人工智能代理) 集群现在在多个主机和代理运行时中共享了同一个基于 GBrain 的记忆架构。与其让每个代理无休止地存储更多上下文，不如依赖一个共享的、不断进化的知识图谱，这个图谱会随着时间保持紧凑、可搜索且始终有用。 > > Memory Stargraph 则让这种共享记忆一目了然。 > > 通过它，你可以看到代理们在 GBrain 中创建的内容，检查实体，探索关系，创建新的节点，连接它们，修改链接，附加媒体，并在新区域被按需加载时实时跟随地图的扩展。 > > 它集调试工具、知识浏览器和“等等，原来这些都被代理记住了？”的惊喜时刻于一体。 > > 而且真的是让人大开眼界！ > > 特别感谢 @garrytan 对 GBrain 的贡献，我很高兴能成为 #GBrain 的核心用户之一！ > > 如果你也想为自己的 AI 代理设置这个工具，请访问： > https://t.co/67RqdkCDre > > #AI #人工智能代理 #知识图谱 #本地AI #开源项目 #公开构建 #Codex #OpenClaw 🧠 **深度解读** 通过让分布式或多运行时的AI代理依赖一个紧凑、共享且可编辑的知识图谱作为长期记忆，并结合本地化的可视化工具按需加载邻域，Memory Stargraph提供了一种高效的架构模式。这种模式不仅提升了代理群体的记忆效率和可观测性，还增强了人机协作的可能性，为复杂系统的调试和优化提供了强有力的支持。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140038)** --- ### 💡 技术洞见 #3 **Transformer Explainer工具让模型学习更直观高效** 📝 **推文原文** > RT @DanKornas Transformers模型的学习变得更简单了，因为现在可以直接与模型进行交互。 > Transformer Explainer 是一个互动式可视化工具，可以帮助你学习基于Transformer架构的文本生成模型（例如GPT）的工作原理。 > 该工具通过在浏览器中运行实时的GPT-2模型来将模型架构与实际行为连接起来，你可以输入自己的文本，观察内部组件是如何协同工作来预测下一个词元（token）的。 > > 主要功能亮点包括： > • 浏览器内置实时GPT-2模型——无需单独搭建模型服务器即可直接实验 > • 自定义文本输入——输入你自己的提示语，观察模型如何处理这些输入 > • 内部组件视图——深入观察Transformer内部各部分如何联动工作 > • 专注下一个词元预测——将视觉化每一步与模型的词元预测直接关联起来 > • 本地开发路径——克隆代码库，安装依赖项，并通过npm运行模型进行更深入的研究与探索 > > 该工具是开源的（MIT许可证）。 > > 详情链接见回复👇 🔗 **[查看原文](https://news.miracleplus.com/share_link/140040)** 🧠 **深度解读** Transformer Explainer通过将小型Transformer模型嵌入浏览器并实时绑定内部状态与预测结果，降低了试验成本并提升了模型的可解释性。这种高杠杆的工程策略不仅为开发者提供了直观的学习路径，还形成了可复用的调试和研究工具链。 --- ### 💡 技术洞见 #4 **GPU编程从同步线程协作转向异步数据流调度** 📝 **推文原文** > ⚡ GPU 编程因 Tensor Core 的速度过快而发生改变 > 知乎用户 THU-PACMAN实验室分享了一篇犀利的分析，探索 NVIDIA GPU 编程如何从 Volta 演进到 Blackwell。 > 这不仅仅是“FP16升级成FP4”或“TFLOPS猛增”的故事，真正的转变更深层次：CUDA内核已不再只是同步运行的一组线程，它正在演变成一个跨计算单元、内存引擎、屏障、缓冲区和内存布局的异步数据流程序。 > > ⚙ 性能瓶颈转移到如何喂饱 Tensor Core > 从 V100 到 B100，FP16 峰值运算性能呈爆炸式增长： > - V100：112 TFLOPS，0.90 TB/s HBM（高带宽内存），约 124 FLOPS/Byte > - A100：312 TFLOPS，2.04 TB/s HBM，约 153 FLOPS/Byte > - H100：990 TFLOPS，3.35 TB/s HBM，约 296 FLOPS/Byte > - B100：约 1800 TFLOPS，8.00 TB/s HBM，约 225 FLOPS/Byte > > 在 Hopper 架构中，即便 HBM已完全饱和，每个从全局内存读取的字节都需要支持约 300 次浮点运算。因此，难点已不再是“我们是否拥有矩阵单元”，而是如何持续不断地为其提供足够的数据。 > > 🔄 数据流动变成硬件级流水线 > 在 Volta 中，CUDA 仍更像传统模式：线程计算地址，从全局内存加载数据，通过寄存器暂存，将数据写入共享内存，然后同步。 > Ampere引入了`cp.async`，使数据可以从全局内存直接移动到共享内存，而无需经过寄存器。Hopper进一步推动了这一模型，增加了 TMA（Tile Memory Accelerator），硬件自动处理块级地址生成、步幅、边界以及背景数据传输。 > Blackwell新增 TMEM（Tensor Memory），这是专属张量内存层，使内核的执行模式更像硬件驱动，而非传统线程程序。 > > 🧠 矩阵指令的含义也发生了改变 > - Volta 的 `wmma`：一个warp（线程束）同步合作完成计算。 > - Ampere 的 `mma.sync`：增加对矩阵形状和数据类型的控制，并要求显式定义共享内存布局。 > - Hopper 的 `mma.async`：Tensor Core 被视为异步的计算代理。 > - Blackwell 的 `mma.async`：累积结果可存储于 TMEM（一种新的 256 KB/SM 张量存储层）。 > 思维模式正在从“所有线程协同参与计算”转变为“向硬件单元发起任务，跟踪完成情况，并管理结果的存储位置”。 > > 🚦 同步不再只是“等待线程” > 传统 CUDA 的同步方法主要是控制流同步，例如`__syncthreads()`表示一个线程块中的所有线程都已到达同步点。 > 但在 TMA、WGMMA（Warp Group Matrix Multiply-Accumulate）以及 Blackwell 的异步 MMA 指令中，更重要的问题是：谁产生了数据？谁是使用者？哪个异步代理负责操作？什么信号证明数据已就绪？何时可以重用缓冲区？ > 在现代内核中，同步正在演变为精细化的数据依赖管理。 > > 📉 低精度不只是数据类型的变化 > FP8 和 FP4 常被描述为更小的数据类型。但在 Blackwell 中，低精度已成为一个完整的约束系统。 > 对于块级 MMA，编译器需要综合考虑数据类型、缩放向量大小、张量内存布局、操作数打包方式、对齐规则、物理布局、累加器类型、块形状、调度策略以及`tcgen05`指令是否合法。 > 因此，指令选择不再是后端最后一步的优化，而是直接与数据类型、打包方式、缩放位置、布局选择和后处理设计紧密关联。 > > 🚀 FlashAttention清晰展示了新编程模型 > 在 H100 上运行的 FlashAttention-3 将 GPU 视为一组可调度的硬件单元：一个 Warp Group 在 Tensor Core 上运行 WGMMA，另一个线程组在 CUDA Core 上并行处理 softmax，TMA 在后台预取下一个计算块。 > 这种“乒乓调度”显著提高了资源利用率：FlashAttention-2 仅使用了 H100 峰值性能的约 35%，而 FA3 FP16 达到 740 TFLOPS，FA3 FP8 接近 1.2 PFLOPS。 > FlashMLA（Flash Matrix Layout Acceleration）提供了另一个角度的启示。MLA解码处理一个 64×512 的输出块可能需要 32,768 个 32-bit 寄存器，但单个 SM 仅有 65,536 个寄存器。DeepSeek 的“跷跷板调度”将输出拆分成块，在 Warp Group 间交替运行，重叠 Tensor Core 和 CUDA Core 工作，同时尽早开始 GEMM（矩阵乘加运算）。 > 👉 优化现代内核的重点已不再是选择算法，而是设计硬件单元的调度方案。 > > 🧩 对编译器的启示 > 面向现代 AI 芯片的编译器或 DSL（领域专用语言）至少需要描述五个方面： > 1. 块形状 > 2. 内存流动 > 3. 物理布局 > 4. 异步生产者-消费者依赖 > 5. 拷贝、计算、同步和写回的调度 > > 没有这些，就难以验证正确性或解释性能表现。 > 这也意味着一个统一的前端语言无法自动产出最佳后端代码。不同的硬件仍需要专属的调度方式、同步策略、布局设计和资源模型。 > 从 Volta 到 Blackwell 的最大变革，不是更快的指令，而是重新定义了对 GPU 内核的认知方式：从同步线程协作转向硬件组件之间的异步数据流。 > > 🔗 全文分析： > https://t.co/RoKE6Runok > > #GPU #CUDA #AIInfra #Compiler #HPC #Blackwell #FlashAttention #Triton 🔗 **[查看原文](https://news.miracleplus.com/share_link/139926)** 🧠 **深度解读** 随着Tensor Core吞吐远超带宽，GPU内核编程已经从同步线程协作转向以异步数据流和可调度硬件单元为中心的调度问题；因此编译器/DSL必须把tile形状、内存移动、物理布局、异步生产-消费依赖和拷贝/计算/同步/写回的调度作为一等公民。 --- ### 💡 技术洞见 #5 **机器人学习的瓶颈在于数据基础设施而非模型改进** 📝 **推文原文** > RT @rohanpaul_ai “如果我们能打个响指，就立刻得到一堆数据……我们现在就可以解决通用机器人问题。” > > ——Figure公司CEO Brett Adcock > > 物理人工智能（Physical AI）/机器人学目前最大的问题并不是更好的模型，而是更完善的机器人数据基础设施。这就是@cyberorigin_ai 通过CyberCode正在解决的核心问题。 > > 机器人的数据非常昂贵，而且采集起来极为复杂困难。现实世界中的操作数据杂乱无章。 > > 机器人策略（robot policy）的学习方式并不是像人通过观看示范片段（clips）那样简单。机器人需要支持按任务、场景、动作、设备、采集者、结果质量和数据ID等维度来搜索的训练数据。 > > 它需要每一帧数据都可以追溯到来源。 > > 它还需要不同信号保持时间线上的严格同步。因为如果视觉、动作、语言、机器人状态和其他传感器数据流稍有不一致，模型就可能学到错误的东西。 > > CyberCode 将真实的人类操作数据转化为一个操作层，使数据在被送入模型之前可以被搜索、检查、追踪、同步、质量审核并方便评估。 > > 这听起来可能不如人形机器人演示那么酷炫，但却更接近问题的真正瓶颈所在。对于操作策略、世界模型以及视觉-语言-动作模型来说，更好的数据基础设施的作用与更优秀的模型架构一样重要，因为模型的学习能力受限于数据系统实际提供的结构、覆盖范围、时间同步性和数据质量。 > > 🧵1. 🧠 **深度解读** 在机器人操作学习中，优先构建可搜索、可追溯、时序同步并质量校验的数据基础设施，能带来与改进模型架构同等甚至更大的回报。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140043)** --- ### 💡 技术洞见 #6 **从文件化知识库到工程化企业知识库的演进路径** 📝 **推文原文** > Gbrain 在处理超过 10,000 个 Markdown 文件的个人知识库或企业知识库时非常有用。简单的 LLM Wiki（大语言模型维基）如何与 Gbrain 对比？ > > “第二大脑”正变得越来越受欢迎，它们是当前 AI 和智能代理发展的主要推动力之一。你提供给代理的上下文决定了它的表现如何。 > > 我使用过的两个框架是 LLM Wiki 和 Gbrain，下面是它们的对比，以及如何使用这两种工具： > > 从本质上来说，它们背后的理念是一样的——Karpathy 的 LLM Wiki：将原始信息源编译成相互关联的 Markdown 页面，供你的智能代理阅读，而不是每次都从头重新进行 RAG（检索增强生成，Retrieval-Augmented Generation）。 > > 这两种工具都可以导入你的信息源，构建图谱（graph）并附引用地给出答案，因此真正的问题在于它们的具体差异。 > > **LLM Wiki 的特点如下：** > - 它实际上就是 Markdown 文件和你的智能代理： > > 它会读取你的信息源并生成关联页面。 > > 你提出一个问题，它会阅读这些页面并给出答案。 > > 你通过代码检查（lint pass）来维护它的健康状态。 > > 没有数据库，只有文件，而且仅为单用户设计。 > - 它运行良好，不过 Karpathy 也指出了它的一些问题： > > 在经历多次更新后，综合效果会开始偏离初衷。 > > 随着 Wiki 规模变大，上下文的调用成本会增加。 > > 一旦某些错误信息固定下来，可能会被误认为是事实。 > > **Gbrain 则是在这个维基基础上，针对上述问题构建了一个引擎：** > - 更好的信息检索：结合向量（vector）、图（graph）以及重新排序器（reranker），代理不用直接阅读页面。 > - 基于 PostgreSQL 数据库，因此可扩展至人力无法完全覆盖的超大规模。 > - 24/7 的自动循环功能会自行丰富和修复 Wiki，无需手动代码检查。 > - 每个答案都有来源引用，并附上一段关于其当前不确定性的诚实说明。 > - 多用户支持，可根据个人或团队设置访问权限。 > > **如何选择：** > - 对于小型项目，使用 LLM Wiki 来收集和存储智能代理需要用到的上下文信息。当项目规模扩大时，可以直接将它的内容导入 Gbrain。 > - 对于更复杂、需要多人协作的场景，比如企业知识库或客户知识库，使用 Gbrain 提供更稳定且共享的解决方案。 > > 因此，这不是 “Wiki vs Brain” 的选择问题，而是同样的 Wiki，用于你掌控的小型项目，或者交由一个专为大规模操作设计的引擎来运行，为一个团队服务。 > > 从简单的 LLM Wiki 开始，当文件规模超出其能力范围时，迁移到 Gbrain。 🧠 **深度解读** 从文件化的 LLM Wiki 到工程化的公司级 brain：以检索+图谱+重排器替代让 agent 逐页阅读；把存储迁移到可扩展的数据库；并用持续的自动化循环修复与丰富知识，以在团队与规模上维持一致性与可用性。 🔗 **[查看原文](https://news.miracleplus.com/share_link/139929)** --- ### 💡 技术洞见 #7 **高效智能代理的迭代路径在于数据驱动的多模型流水线设计** 📝 **推文原文** > 目前的 V0 版本运行效果挺不错。我在 Qwen 4B（版本号 3.5）上进行了 GEPA（逐步增强预训练算法，Gradual Enhanced Pretraining Approach），成功实现了问题检测功能，例如对 Slack 消息的意图、输出需求等进行解析。 > > 目前信噪比大约在 60/40 左右。系统会在每周五向我发送目标数据，我会对其进行标注并执行更多次的 GEPA，或者在积累足够数据后进行完整 SFT（监督微调，Supervised Fine-Tuning），确保模型变得稍微强一些。这是我在探索如何成为一个高效智能代理（EA，Efficient Agent）过程中的一些随想。 > > 基本的核心在于——数据（这并不意外）。如果能在系统中设置足够的可观察点，你便可以将多个模型连接起来，从这些数据中提取信号并采取行动。 > > 具体而言，翻译成以下流程： > - 读取你的 Slack 消息及私信 (DMs)； > - 读取你的 Notion 活动； > - 读取你的电子邮件； > - 读取你的日程表。 > > 重点在于“读取”，然后根据个人需求授予极为有限的写入权限。但这不是替代你，而是一个智能辅助工具，所以权限应该非常有限。 > > 对我来说，这基本意味着网络中存在多个数据管道，当新模型发布时，利用它们完成按需写入到 Slack 和 Notion，仅此而已。 > > 现在有一系列模型正在加入，目前整个技术栈大致如下： > - numind/NuExtract-2.0-8B（信息抽取器，读取 json 日志中的信息）； > - katanemo/Arch-Router-1.5B（决策路由器，判断消息是否需行动，如果需要则决定采取何种行动）； > - Qwen/Qwen3-4B-Instruct-2507（json 数据验证器）； > - Qwen/Qwen3-Embedding-0.6B（主要用于生成嵌入向量）； > - BAAI/bge-reranker-v2-m3（用于重新排序相关内容）。 > > 最终的主控由 GLM 5.2 实现。 > > 总数据量约 80GB，不包括 GLM，基本可以看作“本地化”运行（假设硬件配置为 1 枚 6000 Blackwell 或大号 Mac 或 DGX Spark）。 > > 这一可观察层可以通过你选择的工具与其交互，例如 Claw、Hermes Agent 等。它应该能够根据捕获的信号行动，并用这些数据判断何时向你发送提醒，其目标是： > 例如早晨开始时，它可以告诉你“以下是我知道需要做的事情以及那些我不知道但你可能需要做的事情”。 🧠 **深度解读** 把个人助理拆成“读（高覆盖可观测）→多模型信号抽取与路由→由强驱动模型决定行动（但写权限极限）→周期性人类标注闭环用于GEPA/SFT”这条可迭代流水线，比试图一次性训练一个全能模型更可行且容易安全控制。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140044)** --- ### 💡 技术洞见 #8 **Hermes Agent 提升网页读取速度并降低成本** 📝 **推文原文** > 转自 @NousResearch：Hermes Agent 现在可以以多达60倍的速度读取网页，同时成本降低49%！ > > 爬取后端（scraping backends）会将干净的内容直接传递给代理（agent），无需多余的处理步骤；对于大型网页，内容会被本地保存并按需分页，因此您可以以极少的时间和成本获得相同的高质量体验。https://t.co/EwJThNmCXE 🧠 **深度解读** 将抓取与清洗作为一次性后端工作，并对大文档本地分页、按需传输，可在不损失质量的情况下显著降低代理的延迟与费用。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140046)** --- ### 💡 技术洞见 #9 **Riverside 2.0 打造端到端视频创作闭环工具** 📝 **推文原文** > 你觉得用 Google Meet 就能轻松制作高质量视频？ > > 我之前也是这么想的。 > > 直到今天，@RiversidedotFM 的 CEO @NadavKeyson 找我一起通过一次访谈展示他们的 2.0 新功能时，我亲自试用了，结果只能说：太震撼了！ > > 和 Google Meet 比较一下吧，你可以在我这主页的 Highlights 标签中找到用 Google Meet 制作的视频。对比后你会发现，差距一目了然。 > > Riverside 2.0 是提高你视频质量的绝佳利器，而 Nadav 的访谈中详细讲解了他们的新功能。 > > Riverside 2.0 首发的五大亮点： > ● **全新平台重建**：全新录制工作室和 AI 编辑器，整体速度更快，响应更灵敏，为内容创作者提供了更大的灵活性和控制权。 > ● **自动生成新闻通讯（Newsletters）**：可自动将任何录制内容生成电子新闻通讯，以网页形式发布，观众还能订阅未来更新。 > ● **社交媒体定时发布功能（Social Scheduling）**：直接从 Riverside 内规划并发布到各大社交平台，无需下载、重新上传或借助其他工具。 > ● **多人多机位本地录制**：通过 Riverside 的 Mac 应用，支持本地多机位及麦克风录制，音频和视频轨道自动同步，无论是面对面录制还是加入远程嘉宾都无缝操作。 > ● **MCP 集成（即将推出）**：可连接 AI 助手（如 Claude 和 ChatGPT），直接在 Riverside 内处理你的内容。 > > 赶紧试试吧：https://t.co/qKCl1aR0Gx > 使用优惠码：robertscoble，免费体验 30 天的 Riverside Pro。 > > 从此，我的所有访谈视频都将迁移到 Riverside。 > > 更多关于 2.0 的信息，听 Nadav 本人来讲解：https://t.co/6cSkOmaDRy > “AI 生成的视频全是流水线货，Riverside 2.0 打造的 AI 制作人，将让你轻松成为内容输出机器：https://t.co/qnBHEorlAS” 🧠 **深度解读** 面向创作者的下一代产品竞争力在于端到端把‘录制→AI处理→多渠道发布’串成一个低摩擦闭环；关键要素是本地多轨高质量采集、内置智能编辑/重用（如自动生成新闻简报与剪辑）、直接发布能力，以及通过开放连接把大型语言模型/助手嵌入到创作流程中。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140047)** --- ### 💡 技术洞见 #10 **Gemini Live 构建自然流畅且可靠的语音代理系统** 📝 **推文原文** > 如何使用 Gemini Live 构建语音代理系统（voice agent） > > 教程中使用了 Deepagents（深度代理）这一工具：可以将复杂任务分派给这个子代理，同时利用 Gemini Live 实现自然语音和低延迟性能。 > 构建语音代理通常需要权衡取舍： > > 💬 使用语音对语音（speech-to-speech）模型，带来更自然的对话体验 > VS > 🥪 采用三明治架构（sandwich architecture），实现更可靠的系统控制 > > 那么，如何构建一个能够兼具这两方面优势的语音研究代理呢？ > ✅ **Gemini Live**：实现低延迟且自然流畅的对话 > ✅ **Deepagents**：执行长时间运行的研究任务 > ✅ **LangSmith**：提供全流程跟踪与可观测性 🧠 **深度解读** 采用“sandwich”架构：低延迟前端（Gemini Live）+ 异步/长时子代理（DeepAgents）+ 全链路可观测（LangSmith），能同时实现自然的语音交互与对复杂后台任务的可靠管理。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140049)** --- ### 💡 技术洞见 #11 **CS2-10k 数据集为世界模型和动作条件视频生成研究提供新工具** 📝 **推文原文** > RT @RekaAILabs 🎮🕹️🖥️ CS2-10k 现已上线 @huggingface 🚀 > 超过 60 万段第一人称视角游戏视频，累计超过 1 万小时素材。 > > 每一帧都配有精确的键盘、鼠标输入和 3D 位置信息。 > 如果你从事世界模型（world models）、动作条件视频生成（action-conditioned video generation）或第一人称导航（egocentric navigation）相关研究，这套数据集已经可以下载并立即使用了。 🧠 **深度解读** CS2-10k 数据集通过将每帧视觉与精确控制输入和 3D 位姿配对，把视觉世界建模问题转化为可直接监督的动作—观测转移学习任务。这种设计非常适合用于预训练行动感知的世界模型、行为克隆/离线强化学习基线，以及学习动作与视图变化解耦的通用表示。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140050)** --- ### 💡 技术洞见 #12 **ASPIRE 通过技能库优化实现机器人能力的持续学习与迁移** 📝 **推文原文** > 今天，我们赋予机器人一个可以自我进化并无限复合的“技能库”！向大家介绍ASPIRE —— 一个解决第100个任务的机器人，将不再像首次解决任务时那样一头雾水。编码代理（coding agents）通过观察仿真环境和真实机器人中多模态（multimodal）感官轨迹，对控制程序进行进化搜索（evolutionary search），并将最佳的操作经验提炼进一个持续扩展的技能库。 > > ASPIRE代表了一种全新的持续学习（continual learning）方式： > - “训练”不再是梯度下降（gradient descent），而是技能优化。 > - “训练好的模型”不是浮点权重，而是一个传感器-运动技能库。 > - “分布式训练”不再是多个分块小批量（sharded minibatches）的处理，而是多个代理各自练习不同技能的协作。 > > 亮点在这里：ASPIRE为“模拟到现实迁移（sim2real transfer）”和“跨形态迁移（cross-embodiment transfer）”赋予了全新的意义！模拟到现实的过渡向来极其艰难，一个端到端的策略不得不同时克服视觉偏差（模拟画面相较真实相机显得过于玩具化）和接触物理的细微差别，而后者通常无法完全拟合。但ASPIRE避开了这些麻烦，因为它不是跨越迁移共享像素或权重，而是共享技能经验。机器人仍需在现实世界中练习（不是零样本训练，即zero-shot），但过程加快了许多，因为它无需从零开始重新摸索策略。同样，单臂到双臂设备的迁移通常需要重新收集数据并从头训练，而ASPIRE实现了最高约10倍的“迁移学习”计算效率的提升（是的，令牌 tokens 现在成了训练计算的新单位 ;)）。 > > 欢迎访问我们的网站，看看机器人自我学习的150多个任务和90多项技能的展示！简直不可思议——我们现在甚至可以将“学习到的权重”作为一个HTML页面发布，而不是一个GGUF文件。我们将开源整个技术堆栈，让你的机器人技能库可以直接从我们的库开始复合发展！ > > 详情深入解读请看连载帖子。 🧠 **深度解读** ASPIRE 通过将机器人能力建模为可扩展、可组合的技能库，并采用进化搜索与多代理并行练习的训练机制，显著提升了模拟到现实（sim2real）和跨载体迁移的效率。这种方法避免了传统端到端策略的局限性，实现了工件轻量化和训练成本的大幅下降。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140016)** --- ### 💡 技术洞见 #13 **人为审核与定期复查可提升知识系统的长期一致性** 📝 **推文原文** > 在这些Wiki记忆系统中引入“human in the loop”（人类参与环节）真的非常棒！@hwchase17 分享了我的一条规则：任何内容在添加到知识系统之前，我都会先亲自审核。这条规则至今让我受益匪浅，再加上每日和每周的站会/回顾，能够及时解决问题并更新过时状态。 🧠 **深度解读** 对记忆库实行人为审核的写入门槛、定期复查，以及要求记忆在真实工作中被独立观察到（例如出现两次）后才提升为可信条目，这种机制能够有效防止单次错误被放大，同时维持知识系统的长期一致性和可靠性。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140053)** --- ### 💡 技术洞见 #14 **增强代理能力比单纯放大模型参数更具企业价值** 📝 **推文原文** > 我们正在使用 Anthropic 的 Claude Sonnet 5，通过 Box AI Complex Work Eval（Box AI复杂工作评估）进行测试，这是我们的一项代理基准评测，旨在让模型从头到尾完成真实的企业文档工作。 > > Sonnet 5 在处理复杂的多步骤任务方面表现出了前沿级别的质量，并在多个核心企业领域中超越了 Sonnet 4.6，例如能源（提高4.7个百分点）、零售（提高4.4个百分点）和专业服务（提高2.6个百分点），以及其他涉及高度复杂非结构化数据的领域。 > > 以下是 Sonnet 5 相较于 Sonnet 4.6所展现的一些经典胜利案例，可以让大家感受其更为先进的推理能力： > > * **融资尽职调查**：Sonnet 5 从原始资产负债表中计算出了公司的流动性和杠杆率，并发现来源报告中给出的负债权益比（debt-to-equity ratio）将杠杆低估了，最终标出了违反的三项贷款契约（loan covenants），而不仅仅是报告中承认的部分。 > > * **检修成本分析**：Sonnet 5 根据公司自己的关键绩效指标（KPI）定义来确定“总成本”，正确区分了单独追踪的生产损失成本（Lost Production Cost），而不是简单地将资产负债表上的所有数字相加。它还识别并处理了电子表格中一个损坏的引用单元。 > > * **SKU收入分析**：在分段的销售数据中，Sonnet 5 针对正确的子类别分母计算了每个产品的贡献比例，避免了容易出现的将分子除以总类别数据的错误，并指出了为何没有任何宠物类别（Pet-category）的SKU进入前9名。 > > Sonnet 5 很快将在 Box AI Studio 中上线，供客户用来构建自定义代理。我们隆重推出 Claude Sonnet 5，这是迄今为止最具代理能力的 Sonnet。 > > 它能够规划任务，灵活使用浏览器和终端等工具，自主运行的能力达到了几个月前只有更大型、更昂贵的模型才能实现的水平。https://t.co/UKK8G7ww5h 🧠 **深度解读** 加强 agentic 能力和工具接口，比单纯放大模型参数，更能在企业级复杂多步文档任务上实现成本效率与性能提升。这种能力的提升使得中型模型也能在特定场景中超越更大型、更昂贵的模型。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140055)** --- ### 💡 技术洞见 #15 **高质量标注与策略蒸馏可优化垂直场景模型性能与成本** 📝 **推文原文** > 桥水（Bridgewater），全球最大的对冲基金，也是Tinker的客户，分享了他们如何精心优化一个专注于挖掘有趣金融新闻的模型。 > > 他们的优化模型表现更加高效，同时成本更低，超过了任何前沿模型。https://t.co/cMeAjtLua3 > > “筛选出哪些金融文档值得分析师花时间处理，对前沿的大型语言模型（LLMs，Large Language Models）来说是一个出人意料的难题。桥水利用标注专家数据集（expert-labeled dataset）和策略蒸馏（on-policy distillation），成功优化了一个模型，使其能够可靠且低成本地完成这一任务。” > > https://t.co/gyYzXq15zd 🧠 **深度解读** 针对垂直业务场景，投入高质量专家标注并采用 on-policy 蒸馏去微调定制模型，通常比直接依赖或调用前沿大模型更可靠且更省钱。这种方法能够在特定任务中实现更高的效率和更低的成本。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140056)** --- ### 💡 技术洞见 #16 **隔离第三方模型输出可降低蒸馏与合同风险** 📝 **推文原文** > 据@rohanpaul_ai转述，Meta（原名Facebook）的工程师已被限制使用Claude Code和Codex，因为这些竞争对手的模型输出可能会污染Meta自己的AI训练数据，并可能引发与Anthropic和OpenAI的合同纠纷。 > > 所谓的“蒸馏风险”（distillation risk）始于Meta的新模型从其他模型（如OpenAI或Anthropic）的输出中学习的情况。即便是无意间重复使用Claude或Codex的答案，也可能被看作Meta在使用竞争对手的能力，而不是独立开发完成的。 > > 根据OpenAI的条款，禁止利用其输出内容开发竞争性模型；Anthropic的条款也明确表示，Claude的输出不得用于训练与Anthropic系统竞争的模型。 > > 因此，无论是OpenAI还是Anthropic均在条款中禁止使用其输出，用于开发直接竞争的新模型。 > > 在我看来，目前最安全的策略可能是“配料追踪”（ingredient tracking）。即在使用竞争对手工具进行常规生产力工作时，确保这些工具的输出被严格排除在以下环节之外：模型训练管线、评估数据集、基准生成、训练后数据、奖励模型数据，以及会间接用于模型开发的内部数据集。 > > 当然，一场有力的诉讼往往需要更加直接或明确的不当行为作为证据，比如：大规模爬取数据（mass scraping）、使用虚假账户、突破速率限制、自动化提取、直接将输出当作训练标签使用，或是内部记录表明某些买家明知这是在复制竞争对手的系统。 > > 在这种情况下，典型的保护措施包括以下几点：遵守“隔离室”（clean-room）规则、使用经过批准的企业账户、敏感工作禁止使用普通消费者账户、记录训练数据来源、隔离特定数据集、“提示词与输出”的留存制度、通过自动化扫描工具检测“由某供应商AI生成”的材料，以及分开管理代码代理任务和模型训练数据的访问控制等。 🧠 **深度解读** 把第三方/竞争对手模型输出作为有标签、可隔离的“原料”管理：禁止其进入训练、评估、基准与内部数据回路，并通过溯源日志、配额账号与自动检测把生产力工具与模型开发路径物理/逻辑分离，从而同时降低蒸馏风险与合同风险。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140057)** --- ### 💡 技术洞见 #17 **桥水基金通过精调模型实现高效低成本的金融文档筛选** 📝 **推文原文** > 桥水基金（Bridgewater），作为全球最大对冲基金之一，也是 Tinker 的客户，分享了他们如何精心调整模型，以专注于发现有趣的金融新闻。他们的精调模型比任何前沿模型（frontier model）都更高效且成本更低。https://t.co/8Q26Qr2oZT > > “对前沿大型语言模型（LLM，Large Language Model）来说，筛选哪些金融文档值得分析师投入时间是一项非常棘手的任务。通过专业标注的数据集（expert-labeled dataset）和基于策略的蒸馏训练（on-policy distillation），桥水基金精调了一个模型，从而实现了可靠且低成本的任务处理。” > https://t.co/gyYzXq15zd 🧠 **深度解读** 桥水基金通过结合专家标注数据集和基于策略的蒸馏训练方法，对小型或专用模型进行微调，成功解决了金融文档筛选这一复杂任务。相比前沿的大型语言模型，这种方法不仅在准确性上表现更优，还显著降低了运行成本，为窄域高价值任务提供了高效解决方案。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140034)** --- ## 🔬 科学与发现 ### 💡 科研洞见 #1 **AI代理与评估者的共同进化提升自我改进能力** 📝 **推文原文** > 剑桥大学、NVIDIA和其他顶尖实验室推出了一篇新论文，展示了如何让AI代理（agent）和AI评估者（judge）一起改进，避免双方陷入停滞状态。 > > 这项研究将“自我改进AI”的发展方向从固定基准测试（fixed benchmark）转向以一种循环机制进行——在这一机制中，负责评估的AI也能不断改进。 > > 问题是，大多数自我改进的AI代理都是基于一个固定的基准或固定的评估器进行训练，这会导致得分变得无效、过于简单或者容易被“钻漏洞”。 > > 这篇论文提出的核心思路是让评估者（evaluator）也能改进，但改进只能发生在安全交接点（safe handoff points），这样每个训练阶段依然会有一个稳定的评判者。 > > 在每个阶段，AI代理会由当前的“冻结”评估器进行测试，而可能更好的评估器则会单独根据隐藏的人类答案或客观答案进行测试。 > > 研究作者将这一方法应用于编程（coding）、论文写作（paper writing）、论文评审（paper reviewing）、命题证明撰写（proof writing）和命题证明评估（proof grading）等任务中，其中有些任务有明确的答案，而另一些任务则需要依赖学习后的判断能力。 > > 在编程任务中，该系统超越了此前最佳的自我改进编程代理，同时使用的计算资源减少了1.35倍至1.72倍，因为“低成本代码评审者”能够提供有用的反馈。 > > 在论文写作任务中，共同进化（co-evolved）的写作者比采用固定评估器的基线系统获得了大约1.86倍更高的平均审稿小组接受率。 > > 核心观点是：更强大的AI系统可能需要随着其共同成长的更强评判者，因为固定的测试可能无法持续提供有意义的压力。 🧠 **深度解读** 这项研究提出了一种创新的“共同进化”机制，通过让AI代理和评估者同步改进，解决了传统自我改进AI中固定基准测试的局限性。通过在安全交接点更新评估器，确保了训练过程的稳定性和持续性。实验表明，这种方法在编程和论文写作等任务中显著提升了性能，同时降低了计算资源的消耗，为AI的自我改进开辟了新的方向。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140038)** --- ### 💡 科研洞见 #2 **通过共进化实现代理与评估器的高效协作** 📝 **推文原文** > 标题：《红皇后哥德尔机：共进化的代理与评估者》（The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators） > 洞见解释 > 通过在训练区间内冻结评估器并在独立验证（对照人类或客观答案）通过后于安全交接点替换评估器，可实现代理和评估器的共进化，避免固定测试变得过时或易被投机，同时提高样本/代币效率和最终任务质量。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140039)** 🧠 **深度解读** 该研究提出了一种新颖的共进化机制，通过在训练阶段冻结评估器并在验证通过后安全替换，解决了固定测试方法的局限性。这种方法不仅提升了样本和代币的利用效率，还能显著提高最终任务的质量，避免评估器被投机行为利用。 --- ### 💡 科研洞见 #3 **Prover–Verifier 循环机制推动 LLM 迈向数学研究新高度** 📝 **推文原文** > 即便是@OpenAI 最近的 Erdős 突破（数学家Paul Erdős的相关成果）也没能让我相信大型语言模型（LLM, Large Language Models）可以进行通用数学研究。然而，这次却让我改观了…… > > 利用一个巧妙的“证明者—验证者”（prover-verifier）LLM循环机制，该方法解决了理论计算机科学（Theoretical CS，理论计算机科学）领域内的9个重大公开问题，其中一个问题让我整整两年夜不能寐。 > > 这是我之前在哥伦比亚大学的合作者@binghuip、@runzhou_tao、Steven Wang和@HantaoYu_Theory 完成的令人叹为观止的杰出成果！ > > 接下来的计划是将这一方法扩展应用到科学的所有领域，敬请期待。 🧠 **深度解读** 'Prover–Verifier' 的 LLM 循环是一种创新的工程模式：通过一个或多个模型生成候选证明（prover），再用另一个模型或机制进行自动化验证（verifier），并将反馈循环回去以迭代优化。这种机制为 LLM 在数学研究和其他科学领域的应用开辟了新方向。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140052)** --- ## 💰 商业与战略 ### 💡 商业洞见 #1 **记忆与上下文是企业级AI的核心竞争力** 📝 **推文原文** > 值得细读：《记忆是护城河》 > > @nikesharora（尼克什·阿罗拉），@PaloAltoNtwks（Palo Alto Networks）的董事长兼CEO接受了@HarryStebbings（哈里·斯特宾斯）的采访 @20vcFund。 > > 总结：尼克什·阿罗拉将Palo Alto Networks从一个市值180亿美元的公司带到了如今的2250亿美元。他对企业AI的看法非常直接：大多数公司做错了方向，而大多数产品尚不成熟。他的核心观点是消费者可以容忍AI的错误，而企业却不能，因此资金将流向那些能够深入构建上下文（context）、记忆（memory）以及边界案例学习（edge-case training）的公司，这样AI代理就能在无人纠错的情况下独立运行。未来成功的公司将围绕AI进行重构，而不是把AI加入旧有的工作流中。而系统记住你的信息并积累起来的记忆，将成为企业的长期胜势。他预计，在未来三年中，token（代币）价格会下降90%，企业中一半的管理和行政岗位（G&A roles）将被淘汰，同时对于工程师和销售人员的需求将增加，而非减少。 > > 1. **上下文粘性**：AI的长期优势在于系统对你的上下文记忆，而不是模型本身。阿罗拉认为，前沿实验室正在加速研究，试图记住用户在过去30天、60天、90天内的需求，这样每次给出的答案会比上一次更精准，也让用户不愿意切换到其他平台。模型对用户了解越多，转换成本越高，而这种“粘性”就是护城河。对于企业来说同样如此：掌握上下文的公司将胜出，而仅仅租用最智能模型的公司会失败。 > > 2. **广度与深度**：前沿AI模型的最大问题是广度与深度的权衡。消费者可以接受误判，而企业却不能。阿罗拉曾让Gemini（双子AI）在4分钟内生成了一份投资备忘录，其中出现了一些错误，但这并不重要，因为有人会检查并纠正。然而，当AI代理独立行动时，误判就会变成实际上的失败。而消费者AI在“广度”和“品牌”上具有优势，企业AI的真正收入则来源于“深度”。 > > 3. **Waymo（自动驾驶技术）的标准**：Waymo是全球最大的自主代理产品，展示了“深度”真正的成本。要替代一个人类司机，就需要数百亿美元进行边界案例学习，以及大量独一无二的数据。你无法直接用新发布的Anthropic模型（前沿AI公司之一）让你的奔驰开车送你回家。任何真正替代人类的企业AI代理都需要这样的“深度”，这也是为什么大多数企业产品尚未准备好。 > > 4. **重新思考工作流**：企业失败的原因在于他们只是把AI稍微插入旧有的工作流程，而没有围绕AI重新设计流程。阿罗拉举例：例如通过AI扫描发票速度提升20%听起来不错，但真正的胜利在于让AI完成80%的思考，比如阅读所有简历，告诉你应该面试哪20个人，以及针对每个人都应该提哪些问题。这意味着要放弃对人的控制，而这是企业最抗拒的事情。未来三年内的赢家将是那些用AI重新设计公司运作逻辑的企业，而非只是优化单一任务。 > > 5. **有观点的软件**：下一波企业软件浪潮将具有“观点”，这是阿罗拉真正指出的改变。传统SaaS软件根据输入定义输出，但AI辅助工具会基于你的内容提供意见。例如，一个AI营销助手会阅读你的文案，指出它不符合品牌形象，并告诉你如何改进。这种“观点”让普通员工变得更聪明，而这也是为什么阿罗拉预测在未来三年内，像市场营销、财务及人事（G&A）的岗位将减少一半。 > > 6. **更多工程师而不是更少**：关于AI是否会减少岗位的担忧是错误的。流程性强的G&A岗位会压缩，但阿罗拉希望有更多的技术人员和销售人员。他的团队不断需要资源来重新设计市场营销和HR工具，而也需要更多能设计模型提示工程师、构建框架并收集独特数据的人。一款优秀的产品还需要更多销售人员推广：他上周在欧洲见了20位客户，其中半数都不了解他的这家20年的公司已经上市的现有产品。 > > 7. **代币价格将降到十分之一**：长期来看，代币价格应是当前的十分之一。目前计算成本是两年前的2到4倍，因为有一半以上的资源被用在亏损的消费类AI上，从而加大了企业和编码类工作负载的定价压力。而随着计算效率提升以及消费者使用量受到限制，价格将在3到5年内大幅下降。两年前的模型已经能完成90%的任务，难题是运行成本太高。 > > 8. **代币分配陷阱**：限制代币开销可能会伤害企业中最优秀的员工。阿罗拉采用的是“谨慎使用”的模式，而非不受限制的自由模式。他指出，最聪明、熟悉AI的员工消耗的代币可能是普通员工的20倍。过度压缩成本只会伤害高绩效员工，让他们学习变慢。更好的做法是跟踪使用情况，放任核心用户自由操作，只限制真正的“异常值”。 > > 9. **攻击者的新利器**：强大的编码模型同时造福防御者与攻击者。它被训练写出优秀算法，也能够识别糟糕代码。阿罗拉指出，针对他自己的系统，这种模型6周内完成了团队需要5到6年才能完成的漏洞发现工作。这些工具无法安全地自动修复问题，因为它们可能错误地修改30%的“本来没有问题”的内容。因此，它加速了攻击者的效率，从而让所有企业都必须更快地修复系统，这对网络安全公司的需求是好消息。 > > 10. **前沿工程师的标志**：如果一家初创公司需要派驻工程师帮助企业推销产品，那说明产品还不够完善。阿罗拉认为企业AI至今仅有12个月的进展，AI代理在不断变动，以至于厂商派工程师到客户处帮助实施产品时，技术不断变化。一个真正的派驻工程师应该带回改进代码并结合到产品中；而许多人只是充当用户适配顾问。可以预期客户会快速从一款工具转向另一款工具，下一个赛道从Windsurf和Devin迁移到Codex、Claude和Factory。 > > 11. **三个错失机会**：错过一个机会尚可生存，错过两个会被部分淘汰，而错过三个可能直接被时代抛弃。阿罗拉因此比以往投入更多时间学习，经常联系那些开发他尚未完全理解的产品的创始人。他会基于直觉早期投资，愿意以更高价格购买那些他认为能10倍或100倍增值的公司，而不是等待某家公司凭借可靠数据证明自己再以数十亿美元收购。他每周两次召开“AI EIO”会议，让公司前15名领导展示他们的最新成果。 > > 12. **沉没成本的思维方法**：阿罗拉的一位董事会成员教会他如何将努力与目标区分开。在经过数月努力推动近十亿美元的收购案后，他被建议去长时间散步并问自己一个问题：如果这个交易现在突然出现在面前，而根本不需要任何努力准备，我还会签这张支票吗？当前你没有花一分钱，因此唯一重要的问题是这笔交易是否独立有价值。同样的问题会困扰投资者，他们通常把竞争胜过其他8个风投机构等同于这笔交易很可能是好的。 🧠 **深度解读** 记忆（长期的用户/企业上下文）是企业级 AI 的真正护城河：比起“租用最聪明的模型”，拥有并不断积累可操作的上下文会形成高切换成本和持久粘性。深度胜出于广度：消费者场景允许容错、企业场景不允许，能处理大量边缘案例与真实世界数据的深度系统，才可能安全替代人工决策。构建深度很贵且非通用：像 Waymo 这类替换人的 agent 需要耗费大量边缘数据与训练，说明“把通用大模型直接嵌入现有设备/流程”是行不通的。用 AI 重构流程，而非在旧流程上做小幅加速：真正收益来自让 AI 承担大部分判断（例如筛选候选人并给出面试要点），这要求放弃部分人工控制，并重设成功衡量标准。企业软件将变得有‘立场’：带明确建议/修正的系统能提高低阶员工产出，从而压缩部分 G&A 岗位同时提高对工程/销售等角色的需求。代币/算力价格长期会显著下降，但短期内误用代币（随意限制或惩罚高产出使用者）会损害学习和高产员工表现：应跟踪使用、保护高产出用户、只限制极端滥用。强大编码模型同时提升防御与攻击能力，自动修补存在误修风险——这加速了企业必须修复自身系统的紧迫性，并扩大安全产品的市场机会。如果卖方向客户长期派驻工程师以完成交付，往往说明产品尚未成型：真正成熟的企业产品能把客户需求回写到产品中，而不是长期在客户现场实现。 🔗 **[查看原文](https://news.miracleplus.com/share_link/139869)** --- ### 💡 商业洞见 #2 **超大上下文实时LLM API的性能与隐私权衡** 📝 **推文原文** > 转发 @_xjdr 最终 GLM 5.2 服务统计数据： > 约 12000 个独立 API 密钥使用 > 总计约 3000 亿令牌（tokens） > 平均输出速度：每秒每 GPU 232 个令牌 > 最大持续输出速度：每秒每 GPU 431 个令牌 > 平均首次响应时间（TTFT，1M 上下文）：2.1 秒 > 第 95 百分位首次响应时间（TTFT，1M 上下文）：61 秒 > 平均输入规模：81k 令牌 > 缓存命中率：41% > 0 条聊天记录被保留（坚持“不作恶”原则） > > 再次感谢大家的支持，希望服务和令牌对你们有所帮助！ 🔗 **[查看原文](https://news.miracleplus.com/share_link/140041)** 🧠 **深度解读** 在支持超大上下文（1M token）的实时 LLM API 中，你能同时看到可观的总体吞吐（数百 tok/s/GPU）和极端的尾延迟（p95 达数十秒）；缓存（41% 命中）对成本/性能有实质性影响，但由于平均输入长度极大（~81k tokens）命中率受限；将“不过度保留聊天日志（0 chat logs）”作为默认策略，可成为吸引注重隐私用户的明显差异化点。 --- ### 💡 商业洞见 #3 **事前验尸分析提升LLM决策稳健性** 📝 **推文原文** > RT @itsolelehmann：你的视角：Claude（AI模型的名称）穿越到6个月后的未来，告诉你为什么你的下一步计划会失败。 > > 这被称为"事前验尸分析"（premortem，一种预先假设失败并分析原因的方法）。 > > 诺贝尔奖得主、著有《思考，快与慢》的心理学家丹尼尔·卡尼曼（Daniel Kahneman）称这是他最重要的决策技巧。 > > 谷歌（Google）、高盛（Goldman Sachs）和宝洁（Procter & Gamble）在重大项目启动前都会使用它。 > > 以下是它解决的问题： > > 当你问Claude“这个计划靠谱吗？”时，它会挖掘出所有支持计划可行的理由。 > > 这是Claude经过训练的结果。所以你觉得信心倍增，确信无疑。 > > 接着，你就开始执行这个计划，花了数周甚至数月构建在这个计划之上。 > > 然后计划崩了。 > > 你恍然大悟，问题早就摆在那，但你从未用压力测试验证过，因为Claude之前告诉你“没问题”。 > > 而“事前验尸分析”通过改变提问方式解决了这一问题。 > > 与其问“有什么可能出错？”，不如告诉Claude：“假设现在已经是6个月后，这个计划失败了。告诉我它是怎么失败的。” > > 这一改变关闭了Claude的乐观模式，因为前提已经假设了失败，没有必要乐观。 > > 于是Claude不再寻找计划可行的理由，而是开始解释计划如何崩塌。 > > Claude会回馈给你计划可能失败的所有方式，每一种失败都配有一个完整的失败故事和需要关注的早期预警信号。 > > 然后对这些线索进行综合分析，得出以下结论： > > - 哪种失败最有可能发生 > - 哪种失败最危险 > - 你最大的隐藏假设（这通常是最有价值的部分） > - 经过完善的修订版计划，填补所有漏洞 > > 你只需要说“做个事前验尸分析”，然后提供你的计划，剩下的交给这个技能来解决。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140042)** 🧠 **深度解读** 对 LLM 采用‘这是6个月后的失败情形——告诉我它是如何死掉的’这种反事实/逆向框架，比直接问‘这个计划好么？’能更有效挖出高价值的失败模式、关键假设与早期预警信号，从而提升决策稳健性。 --- ### 💡 商业洞见 #4 **通过深度集成与指标驱动路径实现AI-agent产品化并被平台并购** 📝 **推文原文** > 祝贺 HubSpot 和 Warmly 团队——对所有参与者来说，这真是个了不起的成果！期待看到你们接下来的新作品！ > **大新闻：@HubSpot（纽约证券交易所代码：HUBS）宣布收购 @warmlyai。** > > 写下这句话真是让人觉得有些梦幻。今天的兴奋感，就像七年前刚创业时一样！ > > 那时候，我充满了兴奋和期待，只是一个充满点子的人，和几位联合创始人一起希望能彻底改变 GTM（Go-To-Market，市场进入策略）的世界。 > > 然而，现实给了我们一次次的教训——创业实在是太难了！每天都在不断学习，减少失败，经历了六次业务方向的重大调整（“pivot”），直到 LLMs（大语言模型，Large Language Models）的进步，终于让我们实现了多年来追求的产品愿景。 > > **2023 年**，我们在自己多年的 GTM 实践中积累了无数经验教训，并全身心投入到构建 AI Agents（人工智能代理）的过程中，旨在彻底革新营销团队与销售团队之间的协作方式。然后，HubSpot 走进了我们的世界。 > > - **2023 年**，我们构建了第一个产品集成（是与 HubSpot 的集成）。 > - **2024 年**，我们有了 20 家客户集成使用 HubSpot。 > - **2025 年**，我们有了 100 家客户集成使用 HubSpot。 > - **2026 年**，我们已经拥有了 223 家付费客户在使用与 HubSpot 集成的产品！ > > 随着 Warmly 的成长，HubSpot 始终陪伴在我们左右。 > > 当 Warmly 的 AI Agents 开始为客户预订会议时，HubSpot 的 Data Hub（数据枢纽）是一个关键资源来源。 > 当 Warmly 的 Inbound Agent（入站代理）吸引并去匿名化（de-anonymize）网站访客时，HubSpot 的 Smart CRM（智能客户关系管理）成了我们存储聊天记录的地方。 > 当 Warmly 的 TAM Agent（Total Addressable Market，全地址市场代理）为客户生成独特且实时更新的潜在客户名单时，HubSpot 的仪表板帮助 GTM 团队高管看到我们为他们带来了多少销售线索的增长。 > > 到今天，我们已经决定联手，共同打造 AI 原生 (AI-native) GTM 解决方案的未来，帮助客户不仅以创新方式发展业务，而且充满温度与真心（Warmth 和 HEART，懂的自然懂）。 > > **接下来会发生什么呢？** > > **1/ 致我们的客户们：** 这仅仅是个开端！感谢你们对我们的信任，正是因为有你们，我们才能成为今天的 Warmly。敬请期待更多激动人心的产品更新，即将上线！ > > **2/ 致过往与现在的 Warmsters（Warmly 团队成员）：** 每一个推出的功能、每一位赢下的客户、每一个熬过的深夜，以及每一场艰难的对话，正是因为你们始终坚持我们的核心价值“Add A Comma”（永不止步），Warmly 才能存在至今。 > > **3/ 致我的联合创始人们，无论是新朋友还是老友：** @zhaolan_monk @carinaboo，Val @KeeganOtter7，Ryan——你们是我最好的朋友，让我有勇气面对每一个意外与挑战。我们一同攀爬过高山，也一起熬过低谷。谢谢你们！ > > **4/ 致我们的新队友们：** Angela、Richa、Jared、Duncan、Yamini——你们是站在巨人肩膀上的一代人。迫不及待要一起构建全新、超越想象的 AI 原生解决方案，为我们的客户创造 10 倍价值！ > > **5/ 致我自己：** 七年前的你绝不会相信有今天的自己，感到骄傲吧！我的希望是，七年后的你依旧可以继续让自己感到惊喜，因为你的潜力远超想象。 > > 我们一如既往地签署这份告别信，但这次满怀前所未有的激动与兴奋。 > > Warmly, > Max 🧠 **深度解读** 采用“集成优先 + 指标驱动的AI-agent”路径：先与目标平台做深度数据/工作流集成，确保AI产出能在平台的仪表盘上直接体现业务增量；在内部长期用自家GTM反复打磨场景与流程；当基础模型能力成熟时迅速将已验证的agent产品化并扩展客户，形成被平台并购的高杠杆路径。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140045)** --- ### 💡 商业洞见 #5 **Arena 通过社区规模与真实任务数据快速变现** 📝 **推文原文** > Arena 在推出我们的评估产品仅短短8个月后，年收入（annual revenue run rate）已达到1亿美元。我们起源于加州大学伯克利分校（UC Berkeley）的一个研究项目，使命非常明确：通过现实世界的应用来衡量人工智能（AI）的进步。随着AI从简单的聊天机器人逐步演变为承担更加复杂和高风险任务的智能代理（agents），这个问题变得前所未有的重要。 > > 如今，Arena 通过一个拥有数千万人的社区，来测量AI在现实世界中的实际效用。借助 Agent Arena，我们正在评估那些能够执行复杂、长时任务的智能代理，包括它们如何使用工具、如何适应反馈、从错误中恢复，以及达成人类设定的目标的能力。 > > 我们非常期待在智能代理评估（agentic evaluations）领域继续深入研究。 > > 以下是 @ml_angelopoulos 对这一里程碑的意义以及未来发展的解读： 🧠 **深度解读** 面向长期、交互式 agent 能力的‘现实世界效用’评测（工具使用、适应性、错误恢复与目标完成）是一个可产品化、可快速变现且高度可复用的产品方向，社区规模与真实任务数据是关键杠杆。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140010)** --- ### 💡 商业洞见 #6 **AI 时代的护城河在于长期上下文和记忆的掌控权** 📝 **推文原文** > “记忆是护城河”这句话应该让我们感到几分恐惧。 > > 这意味着每家人工智能（AI）厂商如今都有结构性激励去获取我们的记忆。 > > 记忆承载着连续性。对于个人而言，记忆是我们如何在时间中保持自我；对于一个组织而言，记忆是其共享的大脑：决策、错误、判断、客户背景以及文化，是让组织在时间中保持自身的根本。 > > 更大的风险在于，当AI厂商掌控我们的记忆时，他们就掌控了与我们身份相关的转移成本。 > > 最终，我们可能沦为从OpenAI、Anthropic、Google或者谁最终赢得界面之争的公司那里“租用”自己的大脑——个人记忆和团队多年积累的组织记忆。 > > 答案必须是：记忆属于创造它的人和组织。 > > 记忆必须免于被占有。从根本上说，“记忆是护城河”。 > > ——@nikesharora (@PaloAltoNtwks董事长兼首席执行官)，采访者：@HarryStebbings (@20vcFund) 🧠 **深度解读** 长期上下文（memory/context）是 AI 时代比模型更具粘性的护城河。掌控用户或组织的记忆意味着掌控切换成本与身份主导权。因此，企业与产品策略的核心任务应是确保记忆的所有权、可用性与深度训练，而非仅追逐最前沿模型。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140051)** --- ### 💡 商业洞见 #7 **优先保护用户利益可建立长期信任与竞争壁垒** 📝 **推文原文** > RT @four_xyg #CZ访谈关键点总结 > > 🔸这是 The Block 的新节目《The Starting Block》的第一集（2026年6月29日阿布扎比现场直播） > > 🔸主持人 Gareth Jenkinson（The Block 多媒体负责人）对 CZ（赵长鹏）进行了约1小时8分钟的深度专访。 > > 🔸1️⃣ 个人投资与X（Twitter） > CZ曾投资约5亿美元支持埃隆·马斯克收购Twitter（现称为X），认为言论自由是“货币自由”的前提条件。他希望 X 在未来实现原生全球支付功能，打破 Stripe 和 PayPal 等跨境支付的地域限制（但目前 X Money 仍聚焦于法币支付）。 > > 🔸2️⃣ #Binance 成功秘诀与用户至上核心竞争力 > 强大的团队、高速安全的撮合系统、BNB激励以及激进的联盟计划是 Binance 成功的关键。其中，用户保护尤为重要：甚至在短期亏损的情况下（例如，中国宣布禁止加密货币时，Binance动用了40%库存资金返还用户），CZ选择优先保护用户利益，从而赢得长期信任。“用户能感受到你是否真的在保护他们，这才是关键所在。” > > 🔸3️⃣ 监狱经历（访谈最重磅部分） > CZ因涉嫌违反美国《银行保密法》被判服刑4个月，本以为是软禁，但最终进入监狱系统。他提到美国监狱系统复杂（共53套不同规则），其中的不确定性让人倍感焦虑。为保护自己，他加入太平洋岛民团体，未遭遇敲诈。在监狱中结识了 Prison Professors 创始人 Michael Santos，并捐赠200万美元（每6个月50万美元），支持推进区块链教育进入监狱，帮助囚犯重新融入社会，从根源上打破犯罪循环。 > > 思考：如果能重来，他会直接禁止美国未持牌用户访问，避免“先做后道歉”（ask forgiveness, not permission）的策略在法庭中引发反噬。 > > 🔸4️⃣ 监管与合规 > 欧洲 MiCA 许可证申请受政治因素干扰（如希腊申请撤回据传与欧洲央行有关）。成功案例包括：Binance于2023年在日本成功获取牌照；Binance US自2019年起独立运营，近期恢复了银行合作。CZ强调合规的重要性，同时批评部分监管机构存在“双重标准”（例如，KYC规则的不一致）。 > > 🔸5️⃣ AI、竞争与行业未来 > CZ常用的AI工具包括 Ki（简单且低成本）、ChatGPT 和 Claude 等。他认为AI的应用可将开发速度提升20%-50%，但代码仍需人工审核确保安全。对于新兴竞争者如 Hyperliquid，CZ表示持开放态度：“希望他们能成功，为行业发展带来更高自由度。”预测市场（如 Polymarket 和 Kalshi）很值得关注，美国监管机构目前支持此领域，预测结果的准确性比传统民调更高。 > > 🔸6️⃣ 比特币与加密行业展望 > CZ极度看好比特币，并认为其遵循四年一周期的规律。他表示自己已历经四次“加密冬天”，并不是单纯比特币至上主义者。他支持多链共存（10至30条甚至更多），因为这将大幅推动创新；比特币网络的拥堵限制了其可编程性。关于价格预测，他不做具体预估，但提到每个周期3至5倍增长的可能性，2033年的价格或接近100万美元（市场仍远未饱和）。他认为整个行业会继续发展，AI将在推动区块链进步方面发挥重要作用。 > > 🔸7️⃣ 个人心态与当下重点 > CZ不太在意外界的“遗产”，他更希望临终前能说“我已经尽力了”。目前，他专注于帮助其他创业者、支持慈善事业（监狱教育）、为政府提供加密监管咨询，以及投资 Easy Labs（包括与 BNB Treasury 相关的事务，部分问题已解决）。他希望人们最终记住他是“加密圈的那个家伙”（the crypto guy）。 > > 🔸🔶🔸观后感🔹🔷🔹 > > 看完这场访谈，最让我感动的不是CZ的巨额财富或作为曾经“币圈首富”的光环，而是历经牢狱之灾后依然能够保持的冷静思考、韧性和建设者心态。 > > 他讲述监狱经历时异常平静，没有回避反思和后悔，这比任何励志故事都更真实。 > > 捐赠200万美元推动监狱区块链教育，这不是表演，而是他真正希望“打破犯罪循环”。从一个曾经叱咤风云的创始人身上，我看到他依然在用行动回馈社会。 > > 他对 Binance 成功的复盘也非常务实：用户的信任比短期利润更重要。这正是 Binance 经历多次危机却仍然能稳居CEX王座的原因。 > > 最振奋人心的，是他对未来的乐观展望——比特币周期论、多链创新、预测市场、AI与区块链结合……他给出了清晰的底层逻辑，而不仅是空谈牛市。 > > 尤其是那句“我不在意别人怎么记住我，只希望能对自己说‘我尽力了’”，如此朴实却充满力量。 > > 这场访谈不仅是《The Starting Block》的精彩开端，更为整个加密行业注入了一剂强心针：真正的建设者，从不因短期挫折定义自己。 > > CZ用行动证明，加密行业的未来，终将属于那些能低头深度反思、同时抬头望向远方的人。 > > 🔸完整视频：在 YouTube 搜索“The Starting Block - Live with CZ in Abu Dhabi”或原帖链接 https://t.co/asPB0aZZ4L > > @cz_binance #Binance #BNB @heyibinance 🧠 **深度解读** 把有限的资金优先用于立即保护用户（如用国库返还用户损失），即便导致短期利润受损，也能建立长期信任并成为持续的竞争壁垒；同时不要把“先行动后请罪”的策略当作通用法治环境下的经营准则，应结合合规路径前置决策。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140054)** --- ## 🌐 行业与趋势 ### 💡 行业洞见 #1 **社交媒体诈骗治理中的系统性偏差问题** 📝 **推文原文** > 转发 @cb_doge：据统计，85%的社交媒体诈骗投诉与Facebook有关，而𝕏的比例最低，仅为0.1%。 > > - 在收集到的社交媒体诈骗投诉中，Facebook被提及的比例高达85%。 > - 𝕏仅占0.1%，是主要平台中最低的。 > - Meta（原Facebook）内部文件显示，该公司每年通过诈骗与禁售商品广告可实现160亿美元（约占公司收入的10%）的收入。 > - 安全监督机构SafelyHQ已接到超过50,000份经过核实的诈骗报告，有专家称，实际的受害人数可能达到数千万。 > - 据报道，Meta仅在其系统95%确定广告客户涉嫌欺诈时才会封禁账户，而可疑广告客户则有可能被收取更高的广告费用。 🧠 **深度解读** Meta的风控策略将高置信度封禁阈值与对“可疑”广告客户的收费相结合，可能导致治理效果的系统性偏差。这种模式将风控的不确定性转化为收入来源，可能在假阳性与假阴性之间偏向于“不封禁、继续盈利”，从而对诈骗行为的容忍度提高，削弱了平台的整体安全性。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140037)** --- ### 💡 行业洞见 #2 **AI正在重塑医疗诊断的工作流与患者角色** 📝 **推文原文** > 为什么你应该用AI（人工智能）关注自己的健康，而不是完全依赖医生。 > “我是一个心脏科医生。在过去二十年间，我一直是那些信任我为他们解读身体健康状况的患者们的依靠。但今天，我必须告诉你一些大多数医生不愿公开承认的事情： > > **AI即将彻底改变你与医生之间的权力平衡。永远地改变。** > > 四天前，OpenAI的o3模型诊断出18名患有罕见疾病的儿童，而即使是波士顿儿童医院（Boston Children’s Hospital）最顶尖的专家也无法解决这些病例 —— 有一部分患者已经寻找答案近二十年了。此案例已发表在《新英格兰医学杂志》（New England Journal of Medicine）上。 > > 两周前，华盛顿大学（WashU）的研究人员证明，只需要九种常规血液指标，就可以计算出你的生物年龄（biological age），并在肿瘤形成之前的数年预测出癌症风险。他们还提供了一个供所有人免费使用的在线计算工具。 > > 上个月，AI增强的冠状动脉CT血管造影技术（AI-enhanced coronary CT angiography）在一些患者中检测到了动脉发炎的情况，而他们的常规压力测试结果显示“一切正常”。这些患者原本可能被医生告知无事可虑后回家，但实际情况却大错特错。 > > **这一趋势已经非常明确**。过去需要依赖专科医生、转诊、三个月的等待期、以及支付400美元自费诊金才能实现的诊断，如今正在迁移到你的手机、你的血液检测门户（bloodwork portal）和你自己的手中。 > > 在我的日常行医中，我已经看到了一些我从未预料到的景象： > 患者走进诊室时，了解的知识已经超过了我培养的一些住院医生。他们知道自己的PhenoAge分数（生物年龄计算指数），了解自己的ApoB（载脂蛋白B水平），甚至在我提到Lp(a)（脂蛋白a）之前，他们就已经读过相关研究。他们提出的问题非常具体，让我们从一个我训练多年才达到的起点展开讨论。 > > **这种情况曾经让医生感到威胁，但其实不该如此。这种变化应该是解放我们的契机。** > 因为老模式的问题在于：那种“医生在短短15分钟问诊时间内查看基础代谢面板（basic metabolic panel）的结果，随意扫一眼数据后说‘看起来不错’，然后让你回家”的模式从未足够科学和精准。这种模式让我们错过了75%的未来心脏病发作预警。它太晚才发现癌症。它告诉微血管疾病患者（尤其是女性）他们的问题只是焦虑。它将罕见疾病儿童归类为‘无解’。 > > **AI不会取代医生。** > 我之前说过这点，现在依旧坚持这一观点 —— 那些陪伴患者面对诊断的‘人性化时刻’，临床上的专业判断，以及落下诊断结论时医生搭在肩膀上的手，这些东西是不可替代的。 > > 但AI的确做到了一件老模式永远做不到的事：它让你以过去十年不可想象的深度与速度了解自己的身体。你可以跟踪自己的关键健康数据，计算生物年龄，带着具体的数据来到诊室，将对话从‘我生病了吗？’提升到‘我的健康走势如何？接下来我们应该怎么做？’ > > 携带ApoB、Lp(a)、hsCRP（超敏C反应蛋白）、PhenoAge计算结果，以及从最新研究中得到的具体问题走进诊室的患者，不会让我感到威胁。 > > **这种患者，在我的诊疗中反而是最容易挽救生命的人。** > 因为他们已经做到了一件多数患者从来不曾想到的事：他们不再等待“许可”去了解自己的身体。 > > 我之所以选择学医，是因为想帮助人们活得更久。而我学到的是，那些最长寿的患者其实是那些主动掌控——不是掌控我的工作，而是掌控他们自己的数据、问题和决策的人。 > > 工具已经在这里。研究已经发表。计算器是免费的。血液检测的费用甚至比一顿外出聚餐还便宜。 > > 你不需要等到体检才能得知自己的健康情况。你不需要别人批准你去了解自己的生物机能。你也不需要接受任何人，包括我的“看起来还好”这种回答，尤其是在科学已经提供了更具体的答案情况下。 > > **健康革命不是未来。它已经发生了。它就在你的手机里、在你的健康门户平台上、在你可以自己阅读的研究论文中。** > > 现在唯一的问题就是你是否会使用这些工具，还是继续等待别人告诉你‘是时候了’。 > > 你的身体。你的数据。你的人生。 > > 主动掌控吧。未来的自己会感谢现在的你。” 🧠 **深度解读** AI 正把专家级诊断能力下沉到患者端，产生一个以患者为中心的数据输入层，迫使医疗服务与产品从“医生为门槛”的模式转向“患者先行、医生复核”的工作流；因此最有杠杆的产品不是单纯的模型，而是把患者生成的生物指标转换为医生可直接采取行动的结构化、可信摘要并通过患者渠道传播的端到端路径。 🔗 **[查看原文](https://news.miracleplus.com/share_link/139932)** --- ### 💡 行业洞见 #3 **FAA 推动超音速飞行合法化迈出重要一步** 📝 **推文原文** > 美国联邦航空管理局（FAA）正式宣布将制定法规以合法化超音速飞行，其中包括我们在XB-1试验机上展示的无音爆巡航（Boomless Cruise，“马赫截止”）技术。 > > 这标志着朝超音速复兴迈出的重要一步。https://t.co/1in06V68Qk 🧠 **深度解读** 在受监管的硬科技赛道，通过演示可量化的运行级缓解措施来直接影响法规制定，是最快的市场进入路径之一。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140048)** --- ### 💡 行业洞见 #4 **独立审计基准揭示长文档抽取模型的实际性能差异** 📝 **推文原文** > 许多公司在他们自己设计的基准测试中都号称自己是第一。 > > 我们与 @micro1 合作创建了一个经过独立审计的基准测试，用于评估长文档的抽取性能。 > > LongExtractBench 的结果揭示了公司在实际场景中可能遇到的细微差异。micro1 对前沿模型（frontier models）进行了测试，这些模型在推理能力和文档处理平台的最强配置下表现出色。他们发现，大多数模型在精准度（precision）、召回率（recall）与完成度之间存在显著的权衡（tradeoffs）。 > > Reducto 的 Deep Extract 在行业中遥遥领先。 🧵 🧠 **深度解读** 通过独立审计的基准测试（如 LongExtractBench），可以在模型和平台的最强配置下揭示长文档抽取任务中精准度、召回率与完成度之间的实际权衡。这种方法弥补了供应方自设基准的局限性，帮助行业更清晰地理解模型在真实场景中的表现差异。 🔗 **[查看原文](https://news.miracleplus.com/share_link/140024)**

评论