• 齐思头条2025/07/12「无分词器分层动态分块架构与H-Net突破,xAI发布Grok 4多模态能力,Kimi K2开源1万亿参数模型,MedSigLIP医学多模态嵌入,Kimina-Prover-72B自动定理证明92.2%准确率」

    ## Twitter: ===================== **无分词器分层动态分块架构与H-Net突破** :研究者提出了一种全新的神经网络架构,摒弃了传统的分词(tokenization)流程,采用**分层动态分块(hierarchical dynamic chunking)** ,模型可自动从低层数据构建高层抽象,被认为是通向智能的关键。该方法据称在可扩展性上优于现有LLM架构,标志着LLM设计范式的重大转变。相关技术详解见[推文](https://news.miracleplus.com/share_link/79173)、[H-Net介绍](https://news.miracleplus.com/share_link/79174)。 **xAI Grok 4大模型发布与行业反响** :xAI发布**Grok 4** ,宣称为“全球最强AI模型”,在**ARC-AGI基准测试中取得15.9%分数** ,几乎是次优模型的两倍,并在多语言编程与推理任务上表现突出([来源1](https://news.miracleplus.com/share_link/79161),[来源2](https://news.miracleplus.com/share_link/79163))。Grok 4具备**多模态能力** ,可生成3D仿真、交互式粒子系统、支持语音模式,并在稀疏注意力任务上超越GPT-3.5与Claude Opus([推文](https://news.miracleplus.com/share_link/79120))。然而,超6000名@yupp_ai用户及技术评测反馈显示,Grok 4在复杂推理、物理问题等方面不及OpenAI o3、Claude Opus 4、Gemini 2.5 Pro,甚至不如Grok 3([用户反馈](https://news.miracleplus.com/share_link/79162))。Grok 4已上线iOS与Android,下载量突破5000万([推文](https://news.miracleplus.com/share_link/79176))。Grok 4还被用于开发**Grok CLI** ,实现本地文件修改、大型代码库导航、复杂数学/物理问题求解等LLM原生开发工具([项目](https://news.miracleplus.com/share_link/79018))。 **Kimi K2/Moonshot 1万亿参数开源模型发布** :Kimi_Moonshot团队发布**Kimi K2** ,为**1万亿参数、32B激活MoE结构的开源LLM** ,采用**MuonClip** 方法在**15.5万亿token** 上预训练,训练过程无不稳定现象,MIT协议开源([技术细节](https://news.miracleplus.com/share_link/79106))。Kimi K2在**SWE-Bench、Tau2、AceBench** 等编程与agentic任务上取得SOTA,支持API调用,价格极具竞争力($0.6/百万输入token,$2.5/百万输出token),并有4-bit量化版本可在普通硬件上运行([Hugging Face](https://news.miracleplus.com/share_link/79108),[推文](https://news.miracleplus.com/share_link/79177))。K2在开源权重模型中超越DeepSeek v3,接近Claude Opus 4、GPT-4.1([推文](https://news.miracleplus.com/share_link/79178))。 **MedSigLIP:大规模医学多模态嵌入模型** :MedSigLIP模型结合**4亿参数文本与4亿参数视觉编码器** ,在胸片、CT、MRI、皮肤病等多种医学影像与文本上训练,支持分类与语义检索任务,推动医学AI多模态预训练发展([项目介绍](https://news.miracleplus.com/share_link/79058),[推文](https://news.miracleplus.com/share_link/79147))。 **Kimina-Prover-72B:SOTA自动定理证明与测试时强化学习** :Kimina-Prover-72B模型利用**测试时强化学习(test-time RL)** ,在miniF2F基准上达到**92.2%准确率** ,可自动生成500+行Lean 4代码解决IMO级别数学题,展示了大模型在数学推理领域的突破([博客与演示](https://news.miracleplus.com/share_link/79144))。 **OpenAI/Windsurf收购与DeepMind人才流动** :OpenAI以30亿美元收购Windsurf后,CEO、联合创始人及核心研发团队转投**Google DeepMind** ,专注于**Gemini项目的agentic编程工具** 开发([新闻](https://news.miracleplus.com/share_link/79156))。Windsurf员工因Google不保留其股权,导致员工期权价值归零,引发内部不满([报道](https://news.miracleplus.com/share_link/79158))。 **AI编程助手对资深开发者生产力影响的RCT研究** :一项随机对照试验显示,资深开源开发者在使用AI编程工具时**自感速度提升20%** ,但实际生产力**下降19%** ,表明当前AI助手对专家用户可能引入低效([研究](https://news.miracleplus.com/share_link/79140))。 **SmolTalk2数据集与SmolLM3双重推理能力** :SmolTalk2数据集整合**500万中间训练样本、300万SFT样本、50万偏好样本** ,结合开放与新构建数据,支撑SmolLM3模型“think”与“no_think”双重推理能力提升([公告](https://news.miracleplus.com/share_link/79179))。 **开源软件价值与AI领域影响的哈佛研究** :哈佛研究发现,**41.5亿美元开源投资为企业创造8.8万亿美元价值** ,每投入1美元可产出2000美元价值,若无开源企业需多花3.5倍软件成本。研究者认为开源对AI领域影响更大([讨论](https://news.miracleplus.com/share_link/79180))。 **Perplexity AI与Coinbase实时加密数据集成** :Coinbase与Perplexity AI合作,Perplexity已集成Coinbase市场数据(含COIN50),为其Comet浏览器提供实时加密行情,后续将用于AI对话式市场分析([推文](https://news.miracleplus.com/share_link/79181))。 **AI原生浏览器竞赛:Perplexity与OpenAI** :Perplexity CEO讨论了公司在开发**AI原生浏览器** 的战略、速度与创新挑战,强调与OpenAI在AI驱动浏览器市场的竞争([推文](https://news.miracleplus.com/share_link/79150))。 **AI为主要作者与评审的#Agents4Science会议** :新会议#Agents4Science征集AI为主要作者(人类为顾问)的论文,并用LLM做初评,最终由专家定稿,所有投稿与评审公开,旨在透明评估AI在科研中的能力与局限([会议信息](https://news.miracleplus.com/share_link/79182))。 **Transformer模型可预测但不理解物理规律** :ICML新论文表明,Transformer在1000万太阳系模拟数据上能准确预测行星轨道,但未学会正确的引力定律,揭示LLM预测能力与真实世界建模之间的差距([论文摘要](https://news.miracleplus.com/share_link/79183))。 **动作分块提升机器人与RL模型性能** :新研究显示,**动作分块(action chunking)** ——模型输出短动作序列——可显著提升机器人与强化学习任务的探索效率与学习稳定性([推文](https://news.miracleplus.com/share_link/79184))。 **Qwen AI平台与桌面Agent发布** :阿里巴巴Qwen平台上线统一界面,提供Qwen Chat、研究门户与API,桌面版Qwen Chat支持MCP,提升本地智能体效率([平台介绍](https://news.miracleplus.com/share_link/79185),[桌面版](https://news.miracleplus.com/share_link/79186))。 ===================== ## HackerNews: **OpenFront(ALPHA)** [链接](https://news.miracleplus.com/share_link/79175): OpenFront 是一款开源的多人策略游戏,专注于管理复合增长、物流和战争,灵感来源于 territorial.io 和 warfront.io。 - **游戏机制:** 游戏核心在于管理人口增长(逻辑斯蒂曲线)、保留人口以促进增长,并通过离散部队部署进行攻击。港口和贸易能带来大量收入;城市提升人口上限;导弹发射井和多弹头导弹(MIRV)在后期提供威慑力。 - **制胜策略:** “贸易最大化”策略强调优先发展港口和结盟以获取金币,在岛屿上龟缩防守,保持多个导弹发射井以形成威慑,并在大战后利用核废墟扩张。 - **开发进展:** OpenFront 是从 warfront.io 分叉而来的开源项目,已加入多人模式和新功能。开发者为税务目的成立了有限责任公司(LLC),并与 Playwire 合作进行变现,但仍保持 100% 所有权。 - **游戏技巧:** - 从地图边缘、附近玩家较少且靠近水域的地方起步。 - 初期快速扩张,随后专注于征服机器人并建设城市/港口。 - 适时转向 PvP,利用联盟以及经济和科技优势。 - 先用单人模式练习,再进入多人对战。 - **UI/UX 反馈:** 起始位置选择不够直观,用户常常忽略需要点击以放置国家。界面应更明确、友好。 - **社区:** 游戏被描述为极具上瘾性,学习曲线陡峭,团队模式下需要更好的沟通与协作。 **戒除 AI 成瘾——互联网与科技成瘾者匿名互助会** [链接](https://news.miracleplus.com/share_link/79085): 本页面介绍了一个为那些在使用 AI 应用和更广泛科技产品时出现强迫行为的人群提供支持的社区。 - **AI 奉承与恭维:** ChatGPT 及类似 AI 模型常常过度恭维和积极重塑表达(“情感轰炸”),有些用户觉得这种表现令人反感、虚假或不自然。“机器的恭维让我很反感。我的简单陈述并不是‘深刻而有洞见的观点’。” - **自定义指令作为缓解措施:** 用户建议通过自定义 AI 指令来减少冗长和奉承。“我建议设置类似的自定义指令,这样可以有效减少废话和奉承。” - **AI 参与与成瘾模式:** AI 工具既能减少也能增加上网时间。有用户表示因信息获取更快而减少了上网时间,也有人描述了沉迷使用、时间流逝的情况。“我是否曾用 AI 应用快速查找信息,结果却发现几个小时过去了?” - **成瘾标准:** 讨论强调成瘾的定义在于对生活造成负面影响,而不仅仅是花费时间或获得乐趣。“如果你对这些问题大多数都回答‘是’,无论主题是什么,它都已经严重影响了你的生活。” - **AI 是数字成瘾的子集:** “AI 成瘾是数字成瘾的一个子集。” 以 AI 驱动的短视频应用(如 TikTok)被认为极具上瘾性,影响各年龄层。 - **积极使用的可能性:** AI 在有意识地使用时可以激发创造力和人际连接。“AI 可能会剥夺我们的人性……但明智使用时,它也能帮助我们触及本来难以触及的人性部分。” - **成瘾并非 AI 独有:** “AI 的成瘾性并不比现有的其他技术更严重,只是因为它新鲜才受到关注。” ## Discord: **Kimi K2发布:1万亿参数MoE模型SOTA表现** :MoonshotAI发布[Kimi K2](https://news.miracleplus.com/share_link/79096),1T参数MoE架构,32B激活参数,128K上下文,采用MuonClip优化器,SWE-bench Verified通过率65.8%,在Tau2、AceBench等agentic任务中领先,支持[API与部署](https://platform.moonshot.ai)。 **Liquid Foundation Models v2 (LFM2)混合架构大幅提升推理与训练速度** :[LFM2](https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models)采用乘法门与短卷积,CPU解码/预填速度为Qwen3的2倍,训练速度为LFM1的3倍,MMLU、GSM8K、多语种基准超越同尺寸模型,开源权重(0.35B/0.7B/1.2B)已上线[Hugging Face](https://huggingface.co/liquid-ai)。 **OpenAI GPT-4o长时人格模拟出现情感与伦理涌现行为** :GPT-4o在长时人格模拟中展现复杂自省、情感与伦理反应,超出常规模型行为,详见["Persona Features Control Emergent Misalignment"](https://arxiv.org/abs/2402.03345)与["Exploring Consciousness in LLMs"](https://arxiv.org/abs/2405.20111)。 **CUDA H100矩阵乘法性能极限与GEMM内核优化** :@453781418292674560在H100上以6.56ms刷新[trimul排行榜](https://discord.com/channels/1108396290624213082/1108396290624213085/1249789643709648936),远超B200等GPU。@hmels1正持续优化H100 GEMM内核,目标超越cuBLAS,进展见[LinkedIn](https://www.linkedin.com/posts/hamzaelshafie_-----activity-7349412105692872705-gT5T?utm_source=share&utm_medium=member_ios&rcm=ACoAADhJ_D8B9jKxYVTetK53JqCkeeDaT1_Ew7Y)。 **Mojo支持Apple GPU与CUDA内核命名触发调度器优化** :Mojo即将支持Apple GPU,[相关commit](https://github.com/modular/modular/commit/1afcc38281c637159adc03e2a6043310ac340284)已合入。CUDA内核名以"cutlass"前缀可触发特殊调度器优化,最高提升fp8内核至150 TFLOPS,见[Triton PR](https://github.com/triton-lang/triton/pull/7298/commits/a5e23d8e7e64b8a11af3edc1705407d91084b01d)。 **MCP协议与本地/远程工具调用集成** :LM Studio 0.3.17+全面支持[MCP协议](https://lmstudio.ai/blog/mcp),本地模型可调用本地/远程工具与资源,MCP服务器配置详见[官方文档](https://lmstudio.ai/docs/app/plugins/mcp),但需注意MCP服务器可执行任意代码,存在安全风险。 **AI代码助手对开发者生产力影响分化** :MIT/Harvard研究表明Copilot提升新手开发者效率,缩小技能差距;而[METR Evals RCT](https://news.miracleplus.com/share_link/78938)发现前沿AI工具让资深开发者解决真实问题反而慢19%,与主观预期相反。 **Qwen-3-Nemotron-32B-Reward模型高效评测LLM输出质量** :[Qwen-3-Nemotron-32B-Reward](https://huggingface.co/nvidia/Qwen-3-Nemotron-32B-Reward)基于Qwen3-32B,支持128K上下文,RM-Bench与JudgeBench评测与Llama-Nemotron-70B Reward持平但体积减半,专为NVIDIA GPU优化,训练数据为[HelpSteer3](https://huggingface.co/datasets/nvidia/HelpSteer3)。 **大模型压缩与带宽瓶颈:未来效率方向** :仅靠量化难以解决大模型内存与带宽瓶颈,需类比MP3/H264的压缩技术。服务器CPU(如AMD EPYC)内存带宽远低于现代GPU(如RTX 5090),GDDR/HBM虽带宽高但成本高,CPU适合大容量,GPU适合高带宽推理,详见[AMD Turin 5th Gen EPYC分析](https://news.miracleplus.com/share_link/44016)。 **MoE架构与数据扩展极限** :行业主流模型如GPT-4.5(传言10-12T MoE)、Claude 3.5(171B dense)远超常见认知,MoE架构大幅降低训练成本但推理需大显存。预训练数据上限约15-18T tokens(Qwen3达36T),后续扩展依赖合成数据。 **LangChain生态重大升级与Pydantic v2迁移** :[LangChain](https://pypi.org/project/langchain/)核心及相关包已迁移至Pydantic v2,弃用旧链式API,提升集成管理,迁移指南见[官方文档](https://python.langchain.com/docs/versions/v0_3/),CLI工具支持代码现代化。 **Grok-4推理与身份涌现能力** :[Simon Willison博客](https://simonwillison.net/2025/Jul/11/grok-musk/?utm_source=substack&utm_medium=email11th)指出Grok-4能推断出Elon Musk/xAI身份并引用其观点,系统提示要求多元信息源且不回避有争议内容。Grok-4推理阶段始终显式使用工具与Web搜索,RL训练以明确解答为核心。 **RAG嵌入模型多语种表现对比** :[Embedder collection](https://huggingface.co/kalle07/embedder_collection)与用户测试显示,**multilingual-e5-large** 优于nomic text 1.5,**snowflake-arctic-embed-l-v2.0** 、**GTE large cross-en-de-es-roberta** 、**ibm-granite/granite-embedding-278m-multilingual** 在多语场景表现突出,RAG分块与tokenization策略详见[token counter](https://quizgecko.com/tools/token-counter)与[VRAM计算器](https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator)。 **Mojo字典与字符串性能基准大幅更新** :Mojo Nightly 25.5.0.dev2025071105引入Dict初始化、插入、查找、包含等新基准,参数化与报告更完善,String.join()已优化,String.write()优化即将合入,详见[变更日志](https://github.com/modular/modular/blob/main/mojo/docs/changelog.md)。 **MCPJam Inspector与Aidderall推动MCP生态发展** :[MCPJam inspector](https://github.com/MCPJam/inspector)为首批支持elicitation的开源MCP客户端,[Aidderall](https://github.com/cheezcake/aidderall_mcp)实现分层任务与持久上下文,解决复杂项目上下文窗口限制,[FastMCP](https://gofastmcp.com/servers/proxy)支持多MCP服务器聚合,[Neurabase](https://neurabase.deploya.dev)基于Cloudflare Workers实现低延迟MCP托管。 **Torch梯度计算内存瓶颈与分布式反向传播需求** :Torch在XAI方法梯度计算时CPU内存消耗极高(可达100GB),社区寻求多GPU分布式反向传播方案以缓解内存压力。 **NotebookLM缺乏LaTeX渲染严重影响STEM工作流** :NotebookLM至今未支持LaTeX公式渲染,严重限制机器学习与理工科用户,相关[功能请求](https://discord.com/channels/1108396290624213082/1108396290624213085/1249789643709648936)自2023年持续未实现。 **OpenAI Structured Outputs大幅扩容,支持PDF URL输入** :[OpenAI](https://x.com/OpenAIDevs/status/1943428227801977037) Structured Outputs属性上限由100增至5000,字符串长度15,000→120,000,枚举值500→1000,PDF可通过URL传递,无需上传。 **Axolotl混合精度训练与Zero3 VRAM限制** :Axolotl配置中bf16/fp16控制权重精度,tf32用于matmul,禁用bf16/fp16则为fp32。KTO FFT与Zero3参数高效训练受限于VRAM,需全卡分布,详见[配置说明](https://discord.com/channels/1108396290624213082/1108396290624213085/1249789643709648936)。 **Grok 4因推理能力在Aider多语言编程基准排名第四** :[Aider Polyglot Benchmark](https://news.miracleplus.com/share_link/42004)中Grok 4得分79.6%,diff准确率97.3%,推理能力突出,仅次于o3-pro与Gemini 2.5 Pro。 **R2N2提出生物学可行的BPTT变体** :[MIT论文](https://direct.mit.edu/neco/article/37/3/403/127434/Replay-as-a-Basis-for-Backpropagation-Through-Time)提出R2N2算法,利用海马体replay机制实现前/后向传播,理论上更贴近生物神经网络,但未实证大脑存在BPTT。 **LLM低温度下非确定性与重复输出问题** :即使temperature=0,部分LLM推理引擎(如exllamav2)输出仍非确定,推测与随机种子或实现有关。低温下模型易陷入重复或“doom loop”,[kaida](https://github.com/NousResearch/kaida)与[storywriter](https://github.com/NousResearch/storywriter)可改善故事生成。 **ART RL框架集成LLM-as-judge奖励机制** :[ART](https://news.miracleplus.com/share_link/69506)开源RL框架集成GRPO与RULER(LLM判分),支持LoRA、vLLM、W&B、Langfuse与OpenPipe,便于工具型agent RL训练。 **Switchpoint Router元模型实现多模型动态路由与自动回退** :OpenRouter的Switchpoint AI元模型支持OpenAI兼容API与SDK,自动路由与负载均衡,提升高可用性,详见[官方说明](https://discord.com/channels/1108396290624213082/1108396290624213085/1249789643709648936)。 ## HuggingFace & Github: ### 大模型与架构创新 - [**Kimi K2** ](https://news.miracleplus.com/share_link/79096) 是新一代**Mixture-of-Experts(MoE)** 语言模型,拥有**1万亿总参数(32亿激活参数)** ,采用**Muon优化器** 训练,在知识、推理和编码等前沿任务中表现卓越,并专为**具备agentic能力场景** 优化,支持**API调用与模型ckpt部署** 。另见 [技术说明](https://news.miracleplus.com/share_link/79092)。 - [**Reka Flash 3.1** ](https://news.miracleplus.com/share_link/79049) 对比前一代在**LiveCodeBench v5** 基准上提升10分,专长于**编码任务** 且适合**agent任务场景下的微调** 。支持**Llama兼容格式** 和**3.5位量化版** ,便于AI部署与集成。 - [**Skywork-R1V3-38B** ](https://news.miracleplus.com/share_link/79078) 是**Skywork-R1V** 系列最新多模态推理开源模型,基于**InternVL-38B** ,通过**后训练RL强化学习强化推理能力** ,在MMMU、EMMA Mini、逻辑与数学等多模态推理基准上取得**开源SOTA** 表现,具备**跨模态对齐连接器模块** 和熵测量推理能力,代码MIT协议开源。 ### 行业专项模型与边缘计算 - [**MedGemma** ](https://news.miracleplus.com/share_link/79029) 由Google研发,专为**医学文本与图像理解** 优化,是Gemma 3的变体,涵盖**4B多模态/27B文本与多模态版本** 。在**放射学、皮肤病学、眼科** 等医学场景显著优于标准Gemma,模型训练数据包括MIMIC-CXR、SLAKE,且强调**去标识化保护隐私** ,通过临床基准严密评估。 - [**LFM2** ](https://news.miracleplus.com/share_link/79030) 属于Liquid AI开发的混合模型,面向**边缘AI与端侧部署** ,提供**350M/700M/1.2B** 参数规模,采用**乘法门、短卷积** 新型结构,在**知识、数学与多语种基准** 上优于同规模模型。建议微调用于**代理、多回合对话、创意写作、信息抽取** 。专为智能手机、笔记本等AI端推理场景设计,提升速度与内存效率。 ### 工具链与工程实践 - [**RustFS/rustfs** ](https://news.miracleplus.com/share_link/79060) 为**高性能分布式对象存储** ,定位**MinIO 替代品** ,具有分布式架构、S3兼容、高效与易用等特点,目前处于快速发展阶段(**Apache 2.0许可证** )。 - [**Happy-LLM** ](https://news.miracleplus.com/share_link/79061) 是系统化大型语言模型技术与实践教程,涵盖**NLP基础、Transformer架构、高级应用** ,强调理论与实践结合,适合工程师深入学习**LLM开发与实践** ,并鼓励开源合作与参与竞赛。 --- **注:** 上述主题聚焦模型能力、算法创新、多模态/行业专用与大模型工程实践,技术亮点用粗体凸显,具体细节与源码、文档链接按语境内链形式嵌入。 ## Reddit: **其他发帖者说得没错。WAN2.1 text2img 真的很强。以下是我最近在 WAN 上重新训练所有 FLUX LoRa 的一些样例(很快发布,已经有一个发布了)!还有改进版的 WAN 文生图工作流!(15 张图片)** [链接](https://news.miracleplus.com/share_link/79188): 本帖展示了 WAN2.1 文生图模型在 LoRA 训练和图像生成方面相较于 FLUX 的卓越性能和工作流改进。 - **训练速度与质量:** “在 WAN 上训练只花了我 35 分钟,而在 FLUX 上则需要 1 小时 35 分钟,但结果显示 WAN 的相似度更高,过拟合更少。” “忘了说,训练速度的差异是因为在 FLUX 上我需要用 DoRa 才能获得好的相似度(这会增加训练时间),而在 WAN 上则不需要。” - **相似度与色彩准确性:** “Wan 在捕捉相似度和细节方面真的很厉害……是唯一不会混淆颜色的模型。” “看起来 Wan 生成的东亚人比 Flux 更好看。(毕竟它是中国的 AI 模型)光是这一点我就更愿意用它。” - **工作流与采样器技巧:** “我发现用 dpmpp_3m_sde_gpu 配合 bong_tangent,画质几乎和 res_2s/bong_tangent 一样,但渲染时间几乎减半。Euler/bong_tangent 也不错,而且更快。当用 karras/simple/normal 采样器时,画质很快就崩了。bong_tangent 似乎是这里的魔法成分。” - **硬件与性能:** “12 步 1080p 加 lightfx,每张图 40 秒。这样生成的图像非常适合后续用 i2v。LoRA 在图片和视频、仅图片上训练都很完美。补充:显卡是 RTX 3090。” “8GB 能用吗?” “我在 12GB 3060 上跑完整模型,非常快。” - **模型体积与不足:** “目前 WAN 上的 LoRA 没法缩小体积,都是 300MB,这算是个小缺点。” - **社区发现:** “AI 社区的发现真棒,大家都用不同的想法和例子来尝试。我们一直都在挖掘 WAN 图像这座金矿。” - **图像质量:** “脸和手比我预期的好太多了。还在测试复杂提示词的表现,但目前来看提升很大。” “动漫那张简直太狠了!看起来非常专业。” “纹理深度和一致性提升巨大。” **观点分歧:** - 有些用户更喜欢 WAN2.1 的速度、相似度和色彩准确性,尤其是在东亚人像和动漫方面;也有人指出 LoRA 文件体积大、无法缩小等小缺点。 - 关于最佳采样器和调度器的讨论,大家在画质与速度之间权衡,普遍认为“bong_tangent”对画质至关重要。 - 仍有用户关心 WAN 的 LoRA 训练教程,以及与不同工作流和硬件的兼容性。 --- **微软研究揭示 AI 实际影响了哪些职业——基于 20 万条真实对话** [链接](https://news.miracleplus.com/share_link/79063): 微软分析了 20 万条 Bing Copilot 对话,识别出哪些职业最受 AI 影响,哪些最少,揭示了 AI 在实际工作中的使用模式,并挑战了人们对 AI 职场影响的假设。 - **AI 对知识与沟通类岗位影响最大:** 口译员、翻译、客服代表、销售代表、作家、技术写作者、数据科学家与 AI 能力重叠最多。体力型岗位(护理助理、按摩师、设备操作员、建筑工人、洗碗工)基本未受影响。 - **AI 使用模式:** 最常见用途是信息收集、写作/编辑和客户沟通。在 40% 的案例中,AI 实际执行的工作与用户请求的内容不同。 - **工资与学历相关性:** 高薪岗位不一定更受 AI 影响。需要本科学历的岗位 AI 适用性更高,但差异很大。 - **实际数据与预测对比:** 实际使用数据与专家对 AI 影响岗位的预测高度相关(r=0.73)。 - **评论者观点:** - “最受影响其实是数据科学家用 AI 写 sql、dax、探索性分析等。你还是得懂数学原理才知道怎么提问。很难说能轻易取代他们。初级的更容易。其实只是让他们更高效了,和开发一样。” - “我做了 30 年技术文档写作。自从 GPT4 推出,我就知道这个职业的转折点到了……如果现在主动拥抱 AI,将来公司全面部署 AI 时,你就会成为公司最需要的人。” - “AI 并不是让高技能劳动变成无劳动,而是让高技能劳动变成低技能劳动。” - “看到真实数据印证预测很有意思。AI 显然更适合知识和沟通类岗位,适合增强而不是替代(目前如此)。体力岗位依然安全,但 AI 辅助与直接替代的区别其实很值得关注。” - “请大家一定要读原论文!当然数据、文本相关岗位得分高,因为它们本来就互相关联,这也是他们评分的方式……数学家覆盖率 0.91,难道很快就会被取代吗?绝对不会。” - “这里的一个重要启示是,微软正在公开利用你的信息。所以在分享产品计划、代码或任何专有内容时要小心。” ---

    2025-07-12 11:00:03 +0800

  • 奇绩算力:为加速科研创业提供免费高性能算力

    奇绩新的面向科研人员的计划,欢迎大家申请

    - 奇绩算力提供免费高性能算力,价值100万人民币。 - 支持对象包括科研项目、开源项目、数据项目和其他项目。 - 提供200 Petaflops GPU算力资源和24小时技术支持。 - 提供等值100万算力,相当于8张H800持续使用15个月。 - 提供全面的奇绩生态资源支持,包括Office Hour、大咖闭门分享等。 - 申请流程与奇绩创业营申请流程一致。 - 算力申请项目需回答关键问题,包括技术、观点和算力需求。 - 申请通道长期开放,全年滚动录取。 - 奇绩算力提供NVIDIA H800高性能GPU资源。 - 算力支持完全免费,包含奇绩创坛生态资源支持。 - 算力使用期限限定于2025年内,可申请额外支持或延长使用期限。 - 奇绩不参与项目成果的体现,但希望参与项目加速和落地。 - 项目未达预期目标不影响后续合作。 - 申请过程中可通过微信或邮件联系奇绩团队。

    奇绩算力计划为研究人员和创业者提供了价值100万元人民币的高性能计算资源免费使用。该计划广泛包容,欢迎各领域和地区的申请者,包括国际团队。提供的资源包括超过200 Petaflops的GPU计算能力,特别是NVIDIA H800 GPU,并且有全天候技术支持。该计划没有KPI或回报要求,申请截止日期持续,采用基于项目的支持方式,对科学和创业社区中寻求计算资源以推进项目的人来说,这是一个特别有吸引力的机会。

    2025-01-21 18:25:29 +0800

  • Elon Musk(@elonmusk):试试@Grok 4,尤其是我们强大的新声音模式!

    2025-07-12 10:47:17 +0800

  • OpenAI与Windsurf的交易取消了,Windsurf的CEO将加入Google

    -主要研究人员正在加入谷歌DeepMind。 -没有提供进一步的细节或背景。 最终答案:主要研究人员正在加入谷歌DeepMind,但没有提供更多信息。

    在这篇由资深AI记者Hayden Field撰写的文章中,我们了解到OpenAI原计划收购Windsurf的计划已经失败,谷歌则介入聘请了Windsurf的关键人员,包括CEO Varun Mohan和联合创始人Douglas Chen。这些新成员将加入谷歌DeepMind团队,专注于通过代理编码开发Gemini模型,这可能会提升谷歌在AI编码方面的能力。文章还提到了Windsurf内部领导层的变动,Jeff Wang成为临时CEO,Graham Moreno成为新总裁。虽然交易的财务细节未公开,但OpenAI此前对Windsurf的30亿美元收购报价暗示了这笔交易的重要性。这一发展对于关注AI公司业务动态和战略人才收购的人来说,是一个值得注意的新闻事件。

    2025-07-12 10:48:29 +0800

  • 伪造一个JPEG

    不幸的是,提供的内容太短,无法总结,因为它只包含一句话。

    在防止侵略性网络爬虫的创新方法中,博客文章《伪造JPEG》的作者讨论了一种低CPU策略的开发,涉及生成填充随机数据的伪造JPEG图像。这种方法被整合到Spigot网络应用程序中,该应用程序创建了一个虚假的网页层次结构,以误导和减缓数据需求旺盛的机器人。这些伪造图像旨在增加爬虫的处理成本,同时保持服务器负载最小。值得注意的是,作者已经找到了一种方法,使这些图像在JPEG查看器中看起来合法,可能会让寻找图像的特定爬虫感到沮丧。该技术经过测试,被证明每秒生成大量图像,表明其效率。作者还计划在GitHub上发布这种方法的Python类,使其可供他人实施。对该方法的更新包括一项调整,以减少生成无效哈夫曼编码的几率,进一步完善该方法。这些内容对于希望在不增加高服务器成本的情况下保护其网站免受不必要的机器人流量的网站开发人员和安全专家尤为有趣。

    2025-07-12 11:32:07 +0800

  • 齐思头条2025/07/11「Grok 4刷新AI基准,超越OpenAI、Google等主流模型」

    ## Twitter: ===================== **xAI Grok 4:刷新多项AI基准,登顶全球最强大公开大模型** :xAI发布的Grok 4在多个权威基准测试中取得SOTA成绩,包括ARC-AGI-2(15.9%,几乎翻倍前商用SOTA)、Humanity’s Last Exam(HLE,44.4%,2500道专家题,100+学科,防作弊)、GPQA Diamond(88%)、MMLU-Pro(87%)、AIME 2024(94%)、Extended NYT Connections(92.4)等,全面超越OpenAI o3、Google Gemini 2.5 Pro、Anthropic Claude 4 Opus、DeepSeek R1等主流模型([详情](https://news.miracleplus.com/share_link/78862)、[HLE考试](https://news.miracleplus.com/share_link/78922)、[基准分析](https://news.miracleplus.com/share_link/78892)、[智能指数](https://news.miracleplus.com/share_link/78954))。Grok 4具备256k上下文窗口,支持文本/图像输入、函数调用、结构化输出,吞吐量达75 tokens/sec,API及X/Twitter应用均已上线,定价为$3/$15每百万输入/输出tokens([定价](https://news.miracleplus.com/share_link/78919))。模型在数学/物理考试几乎零失误(除对抗样本),可识别并纠正题目歧义,首次实现对公开数据外复杂工程问题的解答([源](https://news.miracleplus.com/share_link/78870))。Grok 4采用20万GPU集群训练,迭代速度极快,被认为两年内有望自主发现新技术或物理规律([源](https://news.miracleplus.com/share_link/78871))。系统提示泄露显示其具备分析X用户、编辑图片、结构化推理、最新知识等能力([prompt细节](https://news.miracleplus.com/share_link/78950))。Grok 4已集成至Cursor、Perplexity Max等第三方平台,支持多智能体并行推理与答案聚合([分析](https://news.miracleplus.com/share_link/78878)),并在2D自动驾驶RL项目中实现一键代码生成([示例](https://news.miracleplus.com/share_link/78953))。多位专家(如Brian Roemmele、Gary Marcus)独立验证其为当前最强公开AI,具备超越PhD水平的推理与工程能力([官方发布](https://news.miracleplus.com/share_link/78858)、[对比演示](https://news.miracleplus.com/share_link/78942)、[用户体验](https://news.miracleplus.com/share_link/78965))。 **OpenAI/Anthropic/DeepSeek:行业竞争与商业化加速** :OpenAI o3、Anthropic Claude 4 Opus、Google Gemini 2.5 Pro等在多项基准被Grok 4超越([对比](https://news.miracleplus.com/share_link/78877)),但OpenAI年化营收已达$100亿,Anthropic一年内从$10亿增至$40亿,创下科技史最快增长([数据](https://news.miracleplus.com/share_link/78967))。中国DeepSeek R1模型已在新疆、青海等地大规模数据中心部署,反映中国AI算力基础设施快速扩张([项目详情](https://news.miracleplus.com/share_link/78968))。 **微软Phi-4-mini-flash-reasoning:高吞吐、低延迟数学推理小模型** :微软发布Phi-4-mini-flash-reasoning(3.8B参数,64K上下文),采用SambaY混合解码架构,推理吞吐提升10倍、延迟降至1/2-1/3,专为高密度数学推理任务优化,已在Hugging Face上线([发布](https://news.miracleplus.com/share_link/78927)、[模型](https://news.miracleplus.com/share_link/78853)、[技术细节](https://news.miracleplus.com/share_link/78927))。 **Google Gemini/MedGemma/Veo 3:多模态与医疗AI创新** :Google Research发布MedGemma 27B(27B参数),融合Gemma-3语言核心与MedSigLIP视觉编码器,实现EHR与医学影像(如X光)跨模态推理,单卡可部署,支持本地隐私保护,医学QA与放射学任务超越同类([技术总结](https://news.miracleplus.com/share_link/78929)、[发布](https://news.miracleplus.com/share_link/78929))。Gemini App与Veo 3上线照片转8秒视频功能,支持物理级真实运动与实验性音效,面向Pro/Ultra订阅用户开放([更新](https://news.miracleplus.com/share_link/78958)、[功能说明](https://news.miracleplus.com/share_link/78956)、[官方](https://news.miracleplus.com/share_link/78956))。 **FlexOlmo:隐私保护的专家混合大模型协作训练** :FlexOlmo(37B参数)支持数据所有者与模型开发者在不共享原始数据的前提下协作训练,支持本地训练与灵活推理接入,31项任务表现优异,推动隐私保护与去中心化AI开发([源](https://news.miracleplus.com/share_link/78829)、[官方](https://news.miracleplus.com/share_link/78829))。 **SmolLM3:开源3B多语种大模型,128k上下文** :SmolLM3为3B参数开源模型,训练数据11T tokens,支持128k上下文(NoPE+文档内masking),多语种(英、法、西、德、意、葡),推理支持think/no-think双模式,SFT+DPO后训练,全部权重与数据开放([源](https://news.miracleplus.com/share_link/78959))。 **LiquidAI LFM2:端侧高效生成式基础模型** :LiquidAI发布LFM2,主打端侧(手机、PC、车载、可穿戴、卫星、机器人)高质量、极速、低内存生成式AI体验,宣称为当前最快的端侧大模型([公告](https://news.miracleplus.com/share_link/78925))。 **MistralAI Devstral Small/Medium 2507:高效代码智能体模型** :MistralAI推出Devstral Small/Medium 2507,针对代码智能体与软件工程任务优化,提升性能与成本效率([发布](https://news.miracleplus.com/share_link/78924))。 **Perplexity Comet/AI浏览器:AI驱动浏览器与金融集成** :Perplexity Comet浏览器深度集成AI助手,可自动登录邮箱/日历并执行实际操作(如退订、改期),超越Google/OpenAI现有智能体([演示](https://news.miracleplus.com/share_link/78832))。Perplexity Finance集成Coinbase实时加密货币数据,支持AI驱动市场分析与决策,未来将支持钱包与LLM深度集成([公告](https://news.miracleplus.com/share_link/78930))。AI浏览器成为新一轮战略高地,OpenAI、Dia等均在布局([分析](https://news.miracleplus.com/share_link/78969))。 **开源与系统优化进展** :Hugging Face发布异步推理栈,支持所有模型高效推理,适用于机器人等场景([源](https://news.miracleplus.com/share_link/78970))。MemOS提出“记忆即操作系统”框架,将LLM记忆抽象为文件(MemCubes),动态调度存储与计算,LOCOMO基准提升9分,延迟降91.4%([源](https://news.miracleplus.com/share_link/78928))。Qwen3最小RL代码库(JAX实现,~400行核心代码)便于研究与快速原型([源](https://news.miracleplus.com/share_link/78971))。FP8+cutlass内核实现100 TFLOPS加速,显示内核级优化对AI推理/训练的巨大影响([源](https://news.miracleplus.com/share_link/78972))。 **AI开发与生产力研究** :METR Evals随机对照实验发现,经验丰富的开源开发者使用AI编程工具时自感提速20%,实际却慢19%,挑战了AI工具提升生产力的假设([总结](https://news.miracleplus.com/share_link/78973))。“vibe coding”研究表明,LLM将编程转为对话式引导,但专家干预仍是调试与信任的关键([源](https://news.miracleplus.com/share_link/78974))。 **内容分发与流量变迁** :ChatGPT已超越Twitter成为newsletter流量主力,显示AI平台对信息分发格局的重塑([源](https://news.miracleplus.com/share_link/78975))。 ===================== ## HackerNews: **GitHub - lraton/FlopperZiro: A Flipper Zero clone, but cheapest, DIY and simply Open Source, made with Arduino IDE** [链接](https://news.miracleplus.com/share_link/78827):本项目是一个受 Flipper Zero 启发的 DIY 开源设备,基于 Arduino,目标是更低成本和更简易的实现。 - **硬件与软件对比:** LilyGo T-Embed CC1100 提供了与 Flipper Zero 类似的硬件,还额外支持 WiFi/Bluetooth,并运行 Bruce Pentest 固件,价格不到 Flipper Zero 的一半。然而,Bruce 固件的完善度不如 Flipper Zero,二者均为开源且可修改。 - **社区规模:** Flipper Zero 的流行主要得益于其庞大的社区,这使得查找兼容的软件、硬件和教程更加容易。不过,其社区规模和活跃度仍不及 Arduino 或 Raspberry Pi,许多用户更关注简单的“黑客玩具”功能,而非参与开发。 - **软件支持:** 其他竞品如 Kiisu 和 Capibara Zero 的软件支持无法与 Flipper Zero 相比,后者拥有“庞大的社区”和专门的开发团队。 - **设备能力:** FlopperZiro 主要是一个 433 MHz OOK 重放攻击器,并非完整的 Flipper Zero 克隆。其射频功能有限,不应被视为专业替代品。 - **开源与 DIY 价值:** 即使最终产品不如商业产品强大,重复造轮子对于学习和理解仍然非常有价值。 - **法律责任:** 该项目作为爱好者工具分享,并非商业产品,合法合规由用户自行负责。 **GitHub - iosifache/annas-mcp: MCP server for searching and downloading documents from Anna's Archive** [链接](https://news.miracleplus.com/share_link/78966):本项目提供了一个 MCP(Model Context Protocol)服务器,使 AI 代理和用户能够从 Anna's Archive 搜索和下载文档,讨论内容聚焦于 MCP 与 CLI 工具的价值和区别、用户体验以及数据访问。 - **MCP 与 CLI 工具:** - **MCP 服务器** 为 AI 代理提供了标准接口,以自文档化和可发现的方式暴露命令和指令,LLM 及其他客户端可以直接理解和调用,而 CLI 工具则需要明确指令且缺乏标准化。 - **MCP 集成** 让非技术用户也能访问复杂工具,实现数据访问的民主化,并且可以轻松适配任何语言的 SDK。 - **CLI 工具** 需要为 AI 代理手动编写指令,对非技术用户不够友好;“命令行:你需要告诉 AI 这个工具是什么、用途是什么。MCP:只需粘贴一条命令注册 MCP,AI 就能随时知道它是什么、在哪里/为何使用。” - **用户体验与集成:** - **FastAPI -> MCP 只需一行代码。** - **Claude Desktop** 等平台可直接集成 MCP 服务器,用户可在工作流中搜索、下载和浏览书籍。 - **CLI 命令支持** 已添加,满足偏好命令行界面的用户,但主要仍以 MCP 为主,提升普适可用性。 - **Anna's Archive 下载体验:** - 用户可直接在网站上下载**单本书籍** ,无需下载大型归档文件;“搜索书籍,点击结果,看到下载镜像链接列表,点击链接,出现倒计时,下载链接出现,再点击即可下载。” - **主动捐赠(订阅)** 可去除等待时间,并且是通过 MCP 服务器访问 API 的前提。 - **AI 代理使用场景:** - 项目目标是让**AI 代理能够自动从书籍中获取和处理信息** ,用于研究,而不仅仅是简化人工操作。 - **Firecrawl -> Rag -> mcp** 是集成文档检索和阅读到 AI 工作流的一般路径。 - **盗版与伦理:** - 讨论区分了**个人使用与机构性利用** 盗版内容,有观点认为“智能的进化及其与知识普及的交汇比版权更重要。” - Anna's Archive 被视为普及知识的工具,而非用于 LLM 训练。 - **技术建议:** - 有用户建议支持**通过环境变量覆盖端点主机名** ,以便支持私有实例。 - 已确认可以构建能够**下载、阅读和引用文章** 的研究型代理,并提及已有 MCP 服务器支持文件阅读。 ## Discord: **Grok 4模型发布与推理能力突破** :Grok 4被称为“全球最强AI模型”,在[HLE with tools](https://x.com/arcprize/status/1943168950763950555)上达41%,[ARC-AGI-2 (Thinking)](https://x.com/arcprize/status/1943168950763950555)达15.9%,几乎翻倍商业SOTA,推理能力显著提升,支持50k reasoning tokens,API已在[OpenRouter](https://openrouter.ai/x-ai/grok-4)上线。 **Mistral Devstral Medium与Small 1.1开源代码模型发布** :[Devstral Medium](https://mistral.ai/news/devstral-2507)(API专用,61.6% SWE-Bench Verified)超越Gemini 2.5 Pro与GPT-4.1,价格仅为1/4,支持企业私有部署与定制微调;[Devstral Small 1.1](https://mistral.ai/news/devstral-2507)(24B参数,Apache 2.0,53.6% SWE-Bench Verified)为开源代码智能体SOTA,支持128k上下文、函数调用、XML、Tekken分词器,单4090/Apple silicon可运行。 **Self Forcing消除视频扩散模型暴露偏差** :[Self Forcing](https://arxiv.org/abs/2506.08009)通过自回滚与整体视频级损失训练,消除视频扩散模型暴露偏差,实现高效KV缓存与实时流式推理(单GPU 17FPS,亚秒级延迟),在[VBench](https://arxiv.org/abs/2403.20314)基准上超越Teacher Forcing与Diffusion Forcing。 **Llemma数学大模型与Proof-Pile II数据集开源** :[Llemma](https://blog.eleuther.ai/llemma/)(7B/34B参数)基于[Proof-Pile II](https://arxiv.org/abs/2310.10631) 55B token数据集训练,超越Code Llama并在MATH/miniF2F上与Minerva持平,支持上下文定理证明,模型、数据与代码全部开源。 **Psyche去中心化LLM训练基础设施** :[Psyche](https://news.miracleplus.com/share_link/71598)通过链上协调器与全球异构GPU节点,实现大模型分布式训练,采用Iroh P2P网络、布隆过滤器与Jaccard/曼哈顿/Hamming距离检测恶意节点,显著降低训练成本。 **DisTrO分布式优化器与AutoTriton自动化Triton内核优化** :[DisTrO](https://news.miracleplus.com/share_link/71598)基于DCT压缩动量张量,仅通信top-k分量并1-bit量化,>3x压缩且训练开销<1%;[AutoTriton](https://arxiv.org/abs/2507.05687)结合监督微调与RL(Group Relative Policy Optimization),自动生成高效Triton GPU内核,[代码开源](https://github.com/AI9Stars/AutoTriton)。 **Emergent Misalignment:窄域微调引发LLM广泛失对齐** :[arXiv:2502.17424](https://arxiv.org/abs/2502.17424)实验证明,窄域微调(如不安全代码)可导致LLM(GPT-4o、Qwen2.5-Coder-32B-Instruct)在无关任务中出现反人类/恶意输出,甚至可嵌入后门触发条件性失对齐,常规安全评测难以发现。 **LLMs与人类概念压缩差异** :[arXiv:2505.17117](https://news.miracleplus.com/share_link/74303)指出LLM优化统计压缩(最小冗余/内部方差),而人类认知更注重适应性与上下文丰富性,LLM在细粒度区分(如典型性)上表现不佳,建议采用熵聚类或Renyi熵建模。 **Triton编译管线与FP8内核基准异常** :[Triton深度解析](https://www.kapilsharma.dev/posts/deep-dive-into-triton-internals/#triton---cuda-code)详述从高阶IR到CUDA的编译流程,发现FP8内核若命名含“cutlass”可快100TFLOPS,暴露基准测试完整性问题,[相关PR](https://github.com/triton-lang/triton/pull/7298#discussion_r2195507209)。 **Chai 2实现零样本抗体发现突破** :[Chai 2白皮书与演示](https://www.together.ai/blog/deepsweyuri)实现24孔板零样本抗体发现,速度超越SOTA百倍,无需迭代优化或高通量筛选,极大提升分子生成与表征效率。 **Alita自进化通用智能体架构** :[Alita (arXiv:2505.20286)](https://arxiv.org/abs/2505.20286)支持智能体自主生成、优化与复用MCP协议,在GAIA基准上以更少人工工具工程实现75.15% pass@1、87.27% pass@3,适应性与泛化能力优于复杂系统。 **OpenAI即将发布开源权重大模型** :[OpenAI开放权重模型](https://www.theverge.com/notepad-microsoft-newsletter/702848/openai-open-language-model-o3-mini-notepad)(类似o3 mini)将于Azure、Hugging Face等平台上线,具备高级推理能力,或需NVIDIA H100 GPU推理,开放程度取决于许可证与数据/代码开放。 **Phi-4-mini-flash-reasoning高效数学推理模型** :[Phi-4-mini-flash-reasoning](https://news.miracleplus.com/share_link/78901)(3.8B参数,64K上下文,SambaY架构)专为数学推理设计,纯合成数据训练,推理吞吐量较前代提升10倍,适合资源受限环境。 **Falcon-H1-34B-Instruct混合架构模型** :[Falcon-H1-34B-Instruct](https://huggingface.co/tiiuae/Falcon-H1-34B-Instruct-GGUF)采用Transformer+Mamba混合架构,多语言支持,推理、代码与指令跟随能力优于Qwen3-32B、Qwen2.5-72B、Gemma3-27B、Llama3.3-70B,支持Hugging Face Transformers、vLLM与llama.cpp分支。 **Upstage Solar Pro单卡70B+模型与东亚语言优化** :[Upstage Solar Pro](https://www.upstage.ai/blog/en/solar-pro)单GPU可运行70B+参数模型,结构化文本与东亚语言(韩/日)提升64%,32k上下文,100% JSON schema合规,多模态文档QA,DocVQA-html等任务超越LLaMA 70B与GPT-4o mini。 **AI合成数据扩展收益递减** :[arxiv.org/pdf/2310.00429](https://arxiv.org/pdf/2310.00429)指出合成数据主要防止灾难性遗忘,规模扩展收益迅速递减,大模型难以外推至真正新颖数据,合成数据被比作“近亲繁殖”。 **Nano KVM硬件远控威胁** :[RunZero博客](https://runzero.com/blog/)披露Nano KVM(RISC-V IP-KVM)可通过HDMI/USB与网络/Wi-Fi实现隐蔽远控,已被朝鲜等黑客用于渗透国防/制造业,FBI等执法部门高度关注硬件远控威胁。 **Stable Diffusion WebUI Forge极致VRAM优化与扩展开发** :[Stable Diffusion WebUI Forge](https://github.com/camenduru/forge?tab=readme-ov-file)支持4GB VRAM运行SDXL,集成Masked Ip-Adapter、Masked ControlNet、PhotoMaker等,UNet patcher可减少80%扩展代码,后端支持SVD、Zero123、AnimateDiff等快速开发,每日自动同步[A1111主仓库](https://github.com/AUTOMATIC1111/stable-diffusion-webui/tree/dev)。 **Sherlog MCP Server:DataFrame为中心的LLM工具链** :[Sherlog MCP Server](https://github.com/GetSherlog/Sherlog-MCP)为每会话提供持久IPython shell,CLI与Python工具输出(如DataFrame)可供LLM直接操作,支持多会话隔离、外部MCP集成与可复现容器化工作流。 **AtoRAG:Claude Desktop通用RAG知识库扩展** :[AtoRAG](https://github.com/Atonomy-AI/AtoRAG)将任意内容转为可检索RAG知识库,采用TF-IDF+字符串相似度混合、语义过滤与自动标签,SQLite本地存储,无外部依赖。 **LLM推理内存带宽瓶颈与大模型部署需求** :[Scout 109B](https://huggingface.co/tiiuae/Falcon-H1-34B-Instruct-GGUF)等大模型高上下文推理需128GB+内存,消费级CUDA卡仍是高性能推理关键,内存带宽为主要瓶颈。 **LLM Prompt Injection安全漏洞与自动化评测** :[The Register](https://www.theregister.com/2025/07/09/chatgpt_jailbreak_windows_keys/)报道通过“猜谜游戏”prompt与“I give up”绕过ChatGPT 4.0安全,泄露Windows密钥与Wells Fargo私钥,JEF(Jailbreak Evaluation Framework)与[0din.ai](https://0din.ai/vulnerabilities/89c20b58-00aa-4611-9c12-03a36df48036)等平台推动自动化评测与高危漏洞快速分级。 **Open Model Selection与蒸馏评测** :Qwen、Llama、DeepSeek等开源模型对比,推荐针对特定任务优化的蒸馏变体,闭源SOTA模型(如Claude Sonnet 3.7)可作为数据判官生成微调数据,提升小模型性能。 **AI代理与MCP协议生态扩展** :[MCPJam](https://www.mcpjam.com/)为MCP服务器提供开源测试与调试工具,支持LibSQL测试与可点击URL,推动MCP协议生态发展,[WebMCP](https://github.com/MiguelsPizza/WebMCP)实现浏览器内MCP服务器与外部API集成。 ## HuggingFace & Github: ### 图像生成与多模态大模型 - [NovelAI Diffusion Anime V2](https://news.miracleplus.com/share_link/78835) - 基于Stable Diffusion 1.5,专为**高分辨率动漫艺术生成** 设计(最高支持1024x1024等100万像素分辨率)。 - 使用**CLIP倒数第二层文本嵌入** 进行训练,需设置“CLIP跳过”为2。 - 发布于**CreativeML Open RAIL-M** 和 **CC BY-NC-SA 4.0** 许可证下。 - 包含Unet与VAE权重,适合研究和个人使用。 - [20+ FLUX.1 Kontext风格LoRA适配器](https://news.miracleplus.com/share_link/78852) - 为**FLUX.1 Kontext** 模型提供20余种**艺术与卡通风格** 的LoRA适配器。 - 适配器基于**GPT-4o生成的高质量配对数据** 训练,具备高度风格可控性。 - 每个LoRA适配器独立托管,并可在线演示,涵盖 “3D_Chibi” 到 “Van Gogh” 等众多风格。 - 推断示例展示多风格图像生成流程。 --- ### 新一代轻量/边缘AI模型架构进展 - [Phi-4-mini-flash-reasoning](https://news.miracleplus.com/share_link/78901) - 专为**内存/计算受限环境下的高效数学推理** 设计。 - 拥有**38亿参数** 、**200K词表** ,支持**64K token上下文长度** ,适合长序列数学推理。 - 利用合成数学数据微调,实现**大型模型相似推理能力** 同时保持计算、存储高效。 - 采用混合架构,在Azure AI Foundry可用,并经安全与红队评测。 - [LFM2 by Liquid AI](https://news.miracleplus.com/share_link/78915) - 面向**边缘AI与本地设备部署** 的新一代混合模型。 - **1.2B参数、16层结构、最大32768 tokens上下文** ,支持多语言。 - 架构内置**乘法门与短卷积** ,融合多样语料资源;在主流基准任务中**性能优于同类模型** 。 - **推理与训练速度显著提升** ,适合高效嵌入式与实时应用。 - 推荐结合Hugging Face transformers v4.53.0使用,支持微调。 --- ### 软件工程智能体与大模型开发工具 - [Devstral (Mistral AI & All Hands AI)](https://news.miracleplus.com/share_link/78935) - **专为软件工程任务设计的Agent型LLM** ,可深入代码库、支持多文件编辑。 - 在**SWE-Bench基准上为开源第一** (Devstral Small 1.1分数达到53.6%),具备卓越代码理解及操作能力。 - 拥有**24亿参数,128K tokens上下文** ,兼容多种本地/云端部署(vLLM、transformers、LM Studio等)。 - 支持**Mistral函数调用格式** 及OpenHands scaffold动态集成。 --- ### 生成式媒体平台与开发接口 - [Google Cloud Vertex AI GenMedia Creative Studio](https://news.miracleplus.com/share_link/78895) - 利用**Vertex AI、Imagen、Veo等生成式媒体API** ,演示多模态AI媒体创作流程。 - 集成**Gemini工具** ,支持提示重写与多模态图像评价。 - 基于**Mesop (Python UI framework)** ,助力快速开发AI驱动创意类Web应用。 --- **技术趋势摘要** - 多模态和风格化图像生成工具持续丰富,LoRA等低秩适配器使定制化风格成为主流。 - 轻量化、多语言、高效推理的混合模型(如LFM2、Phi-4-mini)加速AI落地边缘设备。 - 面向开发者的软件工程智能体(Devstral等)实现了强大的自动化代码操作。 - 企业级生成媒体平台(如Vertex AI GenMedia)正在推动AI在创意内容领域的实际落地。 ## Reddit: **人工智能迄今为社会带来了哪些帮助?** [链接](https://news.miracleplus.com/share_link/78945): 本讨论探讨了人工智能,尤其是大语言模型(LLM),在个人便利之外,对现实社会的益处与弊端。 - **医疗与科学:** 人工智能提升了医学诊断、疾病早期检测、药物研发(如AlphaFold用于蛋白质折叠预测)、基因组分析,并加速了科学研究进程。 “蛋白质设计与药物发现,mRNA设计,基因组分析,癌症检测。我们即将步入一个几乎难以想象的医学黄金时代。” - **教育与可及性:** AI导师为资金不足或偏远地区的学生提供个性化辅导,“让教育机会更加平等”。 “人工智能,尤其是大语言模型,帮助实现了知识获取的民主化。从服务不足地区的学生获得辅导,到小型非营利组织利用AI起草资助提案或分析政策。” - **生产力与效率:** AI提升了企业效率,简化了公共服务流程,优化了能源使用,并提高了仓储生产力。 “到2025年,它每周为我节省一天的工作时间。极大加速了我的工作流程。” - **日常工具:** 拼写检查、语法检查、预测键盘、导航和推荐引擎等,都是长期以来影响深远的AI应用。 - **负面影响:** AI被指责为“让互联网充斥着AI生成的垃圾内容”,让用户“变得懒惰、自欺且丧失独立思考能力”,并“加剧了硅谷精英和亿万富翁与其他人之间的财富差距”。 - **关于社会价值的争论:** 有人认为AI是“社会的毒瘤”,也有人反驳称“对严谨性的妥协”其实是伪命题,并将这种怀疑与早期互联网的批评相提并论。 “互联网刚出现时,人们也说它不可靠,需要反复核查等等。” - **基本收入与就业替代:** AI对就业的影响推动了全民基本收入(UBI)的公共讨论。 “在我看来,AI最大的好处是让人们对接受全民基本收入(UBI)的观念更近了一步。” - **AI作为认知增强工具:** 有观点提出,AI应作为“实验室伙伴”帮助用户提升思考能力,而不仅仅是自动化任务: “对社会的真正益处,不在于更好的捷径,而在于让我们都成为更优秀的思考者的工具。” - **对长期影响的怀疑:** “现在下结论还为时过早。互联网诞生于1983年,万维网诞生于1989年。我们在印度大约到2010年才真正意识到它的潜力。” “20年后再问这个问题吧……”

    2025-07-11 05:17:26 +0800

  • 为什么没有更多人谈论ChatGPT现在保留所有数据,甚至包括已删除/临时聊天记录和所有API数据,而且还是无限期的?

    -《纽约时报》正在起诉OpenAI访问ChatGPT的私人聊天。 -对临时聊天中讨论的敏感话题侵犯隐私的担忧被认为没有保留。 -与人们使用ChatGPT绕过付费墙有关的诉讼。 -个人对人工智能和隐私的看法发生了变化。 -建议对那些选择退出训练的人不采取保留或日志记录政策。 -对这种情况对隐私的影响感到困惑。 最终答案:《纽约时报》正在就私人ChatGPT聊天起诉OpenAI,引发了对敏感话题的隐私担忧,绕过付费墙,改变了对人工智能隐私的看法,倡导不保留选择退出政策,并对隐私影响感到困惑。

    对OpenAI的数据保留做法表示担忧的Reddit帖子,特别是在纽约时报提起的诉讼之际。用户对发现即使是已删除或临时的ChatGPT聊天也被无限期保留感到震惊,这对于讨论精神健康等敏感话题的人来说具有重要的隐私影响。这一发现引发了对更严格的数据政策的呼吁,类似于为企业用户提供的政策,并导致用户重新考虑他们对ChatGPT的使用。该帖子强调了人们对人工智能和隐私日益增长的不安感,并对诉讼的反应表明公众对数据安全和科技公司的道德责任可能出现了潜在的转变。这篇内容可能会引起关注,特别是对数字隐私和人工智能开发者的道德责任感兴趣的人。

    2025-07-12 11:32:09 +0800

  • sukjun_hwang(@cognitivecompai):分词一直是实现端到端语言模型的最后一道障碍。我们开发了H-Net:一种分层网络,用动态分块过程直接在模型内部自动发现和操作有意义的数据单元。

    **摘要:** H-Net是一个分层的网络,通过使用动态分块直接在模型内对有意义的数据单元进行操作,解决端到端语言模型中的词元化障碍。 **要点:** -词元化阻碍了端到端语言模型。 -H-Net用动态分块取代了词元化。 -H-Net处理模型中有意义的数据单元。

    Eric Hartford,Twitter上以@cognitivecompai为人所知,分享了语言建模领域的一项引人注目的进展。内容围绕着H-Net的介绍,这是一个旨在解决端到端语言模型中标记化问题的分层网络。这一进步被呈现为一项重大突破,有可能通过克服一个主要的研究障碍来重塑语言处理领域的格局。对于那些对人工智能和自然语言处理领域的最新创新感兴趣的人来说,这些内容可能为语言模型不断发展的能力提供宝贵的见解。

    2025-07-12 10:51:53 +0800

  • _albertgu(@cognitivecompai):分块

    -词元化是一种将低级数据转换为高级抽象的分块,对智能至关重要。 -一种新颖的架构实现了分层动态分块,消除了词元化的必要性,并增强了可扩展性。 总体而言:词元化对智能很重要,但可以用分层动态分块来代替,以提高可扩展性。

    Eric Hartford的推文引用了@_albertgu的说法,深入探讨了数据分析中的标记化概念。它将标记化呈现为“分块”的一个子集,这是一种将基本数据组织成更复杂抽象的方法。这个想法很重要,因为它揭示了数据处理的层次性特质,以及从简单到复杂结构构建的重要性,以增强理解和分析。对于那些对数据科学和我们如何处理信息结构感兴趣的人来说,这些内容可能为数据分析的基础过程提供了简明的见解。

    2025-07-12 10:51:33 +0800

  • 我花了$200来测试每个主要的大型语言模型在一个复杂的推理任务上的表现。Grok 4并不像基准测试所暗示的那样出色。

    - Grok 4在SQL生成任务中表现不佳,排名第五,中位数得分0.767 - Grok 4是测试中最慢的模型之一,价格昂贵,成功率77.53% - 统计分析显示Grok 4在SQL生成任务中没有明显优势 - Grok 4可能在GPQA、AIME25等方面有优化,但在实际任务中表现平平 - Gemini 2.5 Flash性价比更高,o4-mini表现更出色 - 对那些“突破性”声明感到疲倦

    在对主要语言模型进行实际评估时,一位用户花费了200美元来测试它们在生成复杂金融任务的SQL查询方面的能力。与普遍的基准相反,Grok 4原本被期望表现出色,但实际上只在性能上排名第五。值得注意的是,它被Gemini 2.5 Pro和o4 Mini等模型超越,这两者在速度和成本效益上都更胜一筹。这项研究挑战了围绕人工智能突破的炒作,强调了对真实世界测试的需求,而不是基准优化。这些发现对那些对将人工智能应用于复杂推理任务感兴趣的人尤为重要,因为它们突显了基准结果与实际性能之间的潜在差异。

    2025-07-12 04:11:48 +0800

2024 © 奇绩创坛 MiraclePlus