[{"type":"paragraph","children":[{"text":"资讯","bold":true}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"AI2推出开源Tülu 3,加速AI后训练民主化","bold":true}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48566"}]},{"type":"paragraph","children":[{"text":"核心亮点:"}]},{"type":"paragraph","children":[{"text":"- Tülu 3功能: Tülu 3是AI2推出的新一代后训练工具,支持对大型语言模型(LLM)进行定制化后训练,从数据清理、强化学习到细化调优,提升模型在特定领域的实用性。"}]},{"type":"paragraph","children":[{"text":"- 技术目标: 帮助开发者无需依赖大公司资源,即可实现定制化模型的训练和部署,例如优先优化数学和编程能力,弱化多语言支持。"}]},{"type":"paragraph","children":[{"text":"- 竞争优势: 相较于Meta的Llama等开源项目,Tülu 3不仅开放模型使用,还提供全面的数据收集与训练流程,真正实现“开源”。"}]},{"type":"paragraph","children":[{"text":"行业应用与潜力:"}]},{"type":"paragraph","children":[{"text":"- 隐私与成本控制: 医疗和研究机构可通过Tülu 3在本地实现模型训练,避免与外部服务商合作带来的敏感数据泄露风险。"}]},{"type":"paragraph","children":[{"text":"- 开源生态扩展: AI2计划推出基于其自有OLMo模型的Tülu 3训练版本,进一步增强开源生态的竞争力。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://allenai.org/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"英伟达团队推出DexMG"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48567"}]},{"type":"paragraph","children":[{"text":"研究人员来自英伟达、UT Austin和UCSD的团队开发了一种名为DexMimicGen的大规模自动化数据生成系统,用于解决机器人训练数据集获取难题。该系统通过少量人类演示,利用物理仿真生成大规模双手灵巧操作数据集,显著提升了数据采集效率和质量。DexMimicGen从仅5个源演示中生成1000个高质量轨迹,最高可从60个源演示生成21000个数据样本,覆盖9种任务场景。这些数据用于模仿学习策略训练和基准测试,显著提高了策略成功率。"}]},{"type":"paragraph","children":[{"text":"DexMimicGen的核心技术在于利用灵活的任务分割和优化执行策略,将复杂的双手操作任务分解为并行、协调和顺序子任务三种类型。该方法引入了异步执行、同步策略和排序约束机制,实现了手臂之间的独立操作和精确协调。例如,在复杂任务中,一只手抓取部件,另一只手配合完成装配或传递,同时确保任务顺序正确执行。这些优化克服了传统MimicGen方案在多手臂配合任务中的局限。"}]},{"type":"paragraph","children":[{"text":"该系统在仿真环境中生成的轨迹还结合real2sim2real方法转移至现实应用。实验显示,DexMimicGen生成数据后的策略在复杂任务中的成功率显著提升。例如,在现实世界的罐子分类任务中,DexMimicGen辅助生成的策略成功率高达90%,而仅依赖源演示的策略成功率为0%。"}]},{"type":"paragraph","children":[{"text":"此外,DexMimicGen通过启发式算法或人工标注将源演示分解为子任务,随机化初始状态生成多样化数据集。实验结果表明,DexMimicGen不仅提升了任务成功率,还增强了机器人适应不同初始状态的能力。例如,在复杂任务如穿线和装配中,策略成功率分别从1.3%和3.3%提升至69.3%和80.7%。"}]},{"type":"paragraph","children":[{"text":"实验还揭示了数据集规模与策略性能的关系。随着数据量从100增至1000,策略性能显著提高,但当数据增至5000时,性能提升趋于平缓,表明性能可能存在边际效应。总体而言,DexMimicGen为机器人模仿学习和高复杂度任务的数据生成提供了高效、可靠的解决方案,为类人机器人操作研究带来了重要突破。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"字节跳动基于 Ray 的大规模多模态数据处理框架"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48568"}]},{"type":"paragraph","children":[{"text":"在2024年9月30日至10月2日于旧金山举办的Ray Summit大会上,全球AI开发者和技术领袖齐聚一堂,共同探讨人工智能的未来构建。字节跳动团队在大会上发表了题为《How Bytedance Builds Large-Scale Data Processing Pipelines for Multimodal Models with Ray》的主题演讲,详细分享了如何利用Ray解决多模态大模型训练中大规模音视频数据处理的挑战。"}]},{"type":"paragraph","children":[{"text":"字节跳动团队的音频数据处理Pipeline通过三层架构优化任务执行效率。基础设施层负责资源调度与管理,Pipeline层通过模块化设计将数据处理任务定义为多个node(任务或算子)和flow(节点间数据传输关系),以YAML组装Pipeline的DAG结构,顶层应用层将处理后的数据应用于模型训练等业务场景。RayData的引入显著提升了开发效率,解决了传统方案中可扩展性不足、任务调度复杂、容错性弱的问题。通过RayData的自动扩缩容功能,音频Pipeline能够轻松适配PB级数据规模和复杂算法需求。"}]},{"type":"paragraph","children":[{"text":"在视频数据处理Pipeline中,字节跳动团队针对视频数据量大、处理资源需求高的问题,采用了分布式架构和创新设计。视频处理流程涵盖视频分割、裁剪、评分及打包为Parquet文件以供训练使用。通过单Actor多线程方式优化数据传输和处理效率,避免了ObjectStore性能瓶颈,实现了高吞吐量和良好的线性扩展性能。这种设计在提升整体处理效率的同时,克服了传统数据传输中因大文件序列化带来的性能损耗。"}]},{"type":"paragraph","children":[{"text":"Ray的灵活性和强大的分布式计算能力为上述实现提供了技术支持。RayData提供高效算子和多模态数据支持,降低了开发成本;RayServe通过自动化故障恢复和高性能部署,保障了服务的稳定性。与此同时,字节跳动团队提出了在不稳定Kubernetes节点上运行RayData的优化方案。通过任务重新分配机制,将失败任务重新调度到可用Actor,并引入血缘表机制管理算子间输入输出关系,解决了GPU资源抢占和任务挂起问题,极大地提高了数据处理的容错性和稳定性。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"通信设备:AI创新驱动增量投资"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48569"}]},{"type":"paragraph","children":[{"text":"AI仍是云厂商资本开支投入焦点,大模型从追求大参数量逐渐转向高性价比、以及目标市场多元化,AI推理有望加速发展。相比2023年大模型参数量快速扩张,2024年大模型行业焦点逐渐转变为关注推理性能优化、工程化改进,以推动大模型应用落地和端侧部署。随着2024年已有部分AI应用流量放量增长,我们判断2025年或是AI商用落地规模增长的一年,有望带动AI推理需求的超预期释放,需求旺盛的云厂商的相关供应链企业有望迎来业绩高增。"}]},{"type":"paragraph","children":[{"text":"AI硬件建议关注三类投资机遇。我们认为:1)新技术:高性能、低功耗的需求推动AI硬件技术迭代加速,液冷、硅光、CPO等技术加速商用落地,有望在2025年实现规模部署。建议关注有望新技术能力领先的公司。2)国产化:全球供应链面临一定的不确定性,在政策端和供给端的共同推动下,国产GPU算力持续提升,生态建设日臻完善,从算力到网络的国产生态企业有望迎来发展机遇。3)AI智能硬件:AI赋能、成本下探,AI与硬件的结合商用有望提速发展,看好智能汽车、AI终端、具身智能等方向。"}]},{"type":"paragraph","children":[{"text":"流量增速放缓、运营商投资或将继续温和下滑,关注专项债带来的信息产业潜在投资机会,包括智慧生产、智慧城市、智慧交通等基础设施项目。我们认为,政策端有望加码构建新质生产力,赋能企业数智化转型,带动新一轮供给侧改革;需求端,智慧生产、智慧城市、智慧交通等基础设施项目有望拉动信息产业加速升级,蕴含增量投资机会。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"投融资","bold":true}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"Crusoe Energy完成6.86亿美元融资,聚焦AI数据中心建设","bold":true}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48570"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资规模: Crusoe Energy通过SEC文件披露已筹集6.86亿美元,目标融资总额为8.18亿美元。"}]},{"type":"paragraph","children":[{"text":"- 投资者: 目前已有70名投资者参与融资,传闻包括Peter Thiel的Founders Fund和Felicis Ventures。"}]},{"type":"paragraph","children":[{"text":"- 估值与历史融资: 最新估值预计超30亿美元,为此前估值的两倍;若完成目标融资,总筹资金额将达15亿美元,包括去年以数据中心芯片为抵押的2亿美元债务融资。"}]},{"type":"paragraph","children":[{"text":"业务与行业布局:"}]},{"type":"paragraph","children":[{"text":"- 转型AI: 公司由加密货币业务起步,通过利用浪费的天然气发电支持数据中心运行,后转向为AI公司提供高性能计算基础设施。"}]},{"type":"paragraph","children":[{"text":"- 重大项目: 与Blue Owl Capital合作投资34亿美元建设位于得克萨斯州Abilene的大型数据中心园区,预计将租赁给Oracle,服务于微软及其合作伙伴OpenAI。"}]},{"type":"paragraph","children":[{"text":"市场竞争与挑战:"}]},{"type":"paragraph","children":[{"text":"- 竞争者: 包括CoreWeave(已筹资127亿美元)、Lambda Labs(融资5亿美元)等,纷纷押注低成本按需AI云服务市场。"}]},{"type":"paragraph","children":[{"text":"- 环境影响: 数据中心的能耗与碳排放受到关注,全球数据中心耗电量预计在2023至2028年间翻倍,相关排放到2030年可能达到25亿吨二氧化碳当量。"}]},{"type":"paragraph","children":[{"text":"https://www.sec.gov/Archives/edgar/data/1924674/000192467424000003/0001924674-24-000003-index.htm"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Lightning AI筹集5000万美元融资,简化AI管理"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48571"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资规模: Lightning AI近期完成5000万美元融资,总融资额达1.03亿美元。"}]},{"type":"paragraph","children":[{"text":"- 投资方: Cisco Investments、J.P. Morgan、Nvidia和K5 Global等。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: 招募新客户(包括政府客户),扩展平台功能至新市场,目标2025年实现盈利。"}]},{"type":"paragraph","children":[{"text":"核心业务与技术创新:"}]},{"type":"paragraph","children":[{"text":"- Lightning AI以开源框架PyTorch Lightning为基础,提供企业级服务,简化AI开发与部署,包括分布式AI工作负载管理和基础设施配置。"}]},{"type":"paragraph","children":[{"text":"- 主要产品: AI Studios,支持客户在私有云或本地数据中心中运行和微调AI模型,采用按使用量付费模式。"}]},{"type":"paragraph","children":[{"text":"- 用户与市场: 已吸引超过23万名开发者和3200家机构使用,目标市场为快速增长的机器学习运营(MLOps)领域,预计到2030年行业规模可达130亿美元。"}]},{"type":"paragraph","children":[{"text":"竞争优势与展望:"}]},{"type":"paragraph","children":[{"text":"- 在NeMo、Stable Diffusion等前沿AI产品开发中,Lightning AI的工具已被广泛使用。"}]},{"type":"paragraph","children":[{"text":"- 公司计划2024年底实现1000万至2000万美元的年化经常性收入(ARR),并保持90%以上的毛利率。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://lightning.ai/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Blue Bear Capital筹集1.6亿美元投资气候、能源与工业领域AI初创公司"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48572"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 基金规模: Blue Bear Capital完成第三支基金的募资,总额1.6亿美元。"}]},{"type":"paragraph","children":[{"text":"- 投资重点: 专注于软件驱动的解决方案与人工智能(AI)技术,覆盖气候、工业与能源领域,特别是超越传统硬件的投资模式。"}]},{"type":"paragraph","children":[{"text":"- 有限合伙人: 包括McKnight基金会、Rockefeller Brothers基金会、UBS、WovenEarth Ventures和Zoma Capital等,以及私募股权与基础设施领域的高管。"}]},{"type":"paragraph","children":[{"text":"- 投资策略: 对每家初创公司初次投资500万美元,同时保留1000万美元用于后续投资,计划投资约15家公司,力求通过并购(M&A)实现退出。"}]},{"type":"paragraph","children":[{"text":"- 独特模式: Blue Bear借鉴LPs的投资方法,采取小型投资组合策略,提高初创公司成功退出的可能性,IPO并非主要目标。"}]},{"type":"paragraph","children":[{"text":"行业应用:"}]},{"type":"paragraph","children":[{"text":"- 强调AI的普遍适用性,涉及风能、水处理、冷链、钢铁、水泥、化工生产以及海运与航空物流。"}]},{"type":"paragraph","children":[{"text":"- 通过软件优化设备性能,例如在光伏项目中,Blue Bear支持的Raptor Maps帮助提高10%的运营效率,相当于减少3至5个燃煤或核电站的发电需求。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://bluebearcap.com/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"学习","bold":true}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"理解多模态大模型","bold":true}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48573"}]},{"type":"paragraph","children":[{"text":"本文详细介绍了多模态大语言模型(LLMs)的概念、构建方法及其最新进展,特别是 Meta AI 的 Llama 3.2 模型及其跨模态注意力机制。文章通过技术架构分析和案例研究,探讨了多模态 LLM 如何整合文本、图像等多种输入形式,并总结了统一嵌入解码器架构和跨模态注意力架构两种主要技术路径的实现及特点。"}]},{"type":"paragraph","children":[{"text":"关键技术细节"}]},{"type":"paragraph","children":[{"text":"1. 多模态 LLM 的定义:"}]},{"type":"paragraph","children":[{"text":" - 支持多种输入模态(如文本、图像、音频、视频等)。"}]},{"type":"paragraph","children":[{"text":" - 常见应用包括图像描述生成、PDF表格数据提取。"}]},{"type":"paragraph","children":[{"text":"2. 主要架构:"}]},{"type":"paragraph","children":[{"text":" - 统一嵌入解码器架构:"}]},{"type":"paragraph","children":[{"text":" - 利用图像编码器将图像转换为与文本相同维度的嵌入向量。"}]},{"type":"paragraph","children":[{"text":" - 嵌入向量通过线性投影,与文本嵌入连接后输入标准 LLM。"}]},{"type":"paragraph","children":[{"text":" - 跨模态注意力架构:"}]},{"type":"paragraph","children":[{"text":" - 在多头注意力机制中引入图像编码器的输出,通过跨注意力模块将图像与文本特征直接结合。"}]},{"type":"paragraph","children":[{"text":" - 减少输入上下文的负载,提升计算效率。"}]},{"type":"paragraph","children":[{"text":"3. 图像处理技术:"}]},{"type":"paragraph","children":[{"text":" - 采用 Vision Transformer (ViT) 将图像分割为小块,通过线性投影生成嵌入。"}]},{"type":"paragraph","children":[{"text":" - 使用 CLIP 或 OpenCLIP 等预训练编码器。"}]},{"type":"paragraph","children":[{"text":"4. 最新模型回顾:"}]},{"type":"paragraph","children":[{"text":" - Llama 3.2:"}]},{"type":"paragraph","children":[{"text":" - 基于跨模态注意力,支持图像和文本输入。"}]},{"type":"paragraph","children":[{"text":" - 通过冻结 LLM 参数,仅更新图像编码器以保留原有文本处理性能。"}]},{"type":"paragraph","children":[{"text":" - Molmo 和 PixMo:"}]},{"type":"paragraph","children":[{"text":" - 开源模型及数据集,采用统一解码器架构。"}]},{"type":"paragraph","children":[{"text":" - NVLM:"}]},{"type":"paragraph","children":[{"text":" - 提供统一解码器、跨模态注意力及混合方法的对比分析。"}]},{"type":"paragraph","children":[{"text":"5. 性能优化:"}]},{"type":"paragraph","children":[{"text":" - 多数模型采用预训练文本 LLM 作为基础,通过分阶段冻结或解冻参数逐步优化多模态性能。"}]},{"type":"paragraph","children":[{"text":" - 某些模型(如 NVLM)在高分辨率图像处理和 OCR 任务中展现特定优势。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"RFM EP01:Pi和π0具身基础模型"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48574"}]},{"type":"paragraph","children":[{"text":"近年来,随着北美企业Pi和Skild的成果显现,国内外机器人基础模型(RFM)领域的竞争逐步升温。国内清华RDT的发布以及国际π0的推出,更是将机器人基础模型推向舞台中心。本文基于Sergey Levine在CoRL 2024两场报告的内容,从技术视角深入剖析RFM的核心技术框架和发展方向。"}]},{"type":"paragraph","children":[{"text":"具身大模型与RFM的技术背景"}]},{"type":"paragraph","children":[{"text":"传统人工智能依赖于为每个任务单独构建数据集和专用模型,而RFM引入了类似语言模型的“大规模预训练+微调”框架。这一转变降低了任务特定数据的需求,为通用机器人任务提供了新的可能性。"}]},{"type":"paragraph","children":[{"text":"数据驱动:OXE数据集的突破"}]},{"type":"paragraph","children":[{"text":"OXE(Open X-Embodiment)数据集整合了来自多个机器人平台的数据,以实现跨形态的通用模型训练。实验表明,这种多样化数据训练的模型在特定任务上平均成功率提升50%,展现了从多源数据构建通用模型的潜力。"}]},{"type":"paragraph","children":[{"text":"核心技术与π0模型解析"}]},{"type":"paragraph","children":[{"text":"- 模型架构:π0基于流匹配(flow matching)扩散方法生成动作,支持高频控制(50Hz)。其设计中,动作专家与视觉-语言模块协作,直接生成动作序列,适应多模态分布。"}]},{"type":"paragraph","children":[{"text":"- 训练方法:π0的预训练阶段依赖多样化低质量数据,而后训练通过少量高质量任务数据微调。实验验证,仅需数小时的后训练即可实现任务特定的卓越表现。"}]},{"type":"paragraph","children":[{"text":"- 适用场景:π0在复杂任务(如衣物折叠、装配)中表现出色,尤其在干扰条件下展现了强大的适应性。"}]},{"type":"paragraph","children":[{"text":"实验与未来挑战"}]},{"type":"paragraph","children":[{"text":"1. 多源数据融合:通过导航数据与操作任务数据的整合,模型在空间推理和几何理解上取得显著提升。"}]},{"type":"paragraph","children":[{"text":"2. 真实数据的价值:相比模拟或视频数据,真实数据具备更高的任务相关性和泛化能力,随着机器人部署规模扩大,其获取成本将进一步降低。"}]},{"type":"paragraph","children":[{"text":"3. RL与真机结合:强化学习(RL)为任务微调提供了高效路径。在真实环境中,通过30分钟至数小时的RL训练,机器人实现了精确的策略优化。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"对话星海图赵行、许华哲:机器人的寒武纪大爆发,卡点在大脑"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48576"}]},{"type":"paragraph","children":[{"text":"核心技术:智能定义本体"}]},{"type":"paragraph","children":[{"text":"星海图强调智能的重要性,提出具身智能的核心挑战在“脑”,而非“形”。其开发路径包括:"}]},{"type":"paragraph","children":[{"text":"- 具身基础模型(EFM):端到端的操作智能系统,支持任务泛化,当前已通过50条数据实现单任务90%以上的成功率。"}]},{"type":"paragraph","children":[{"text":"- 空间智能引擎(RSR):为机器人提供物理世界的理解能力,支持刚性物体操作,并正在探索柔性物体的形变预测。"}]},{"type":"paragraph","children":[{"text":"- 一脑多形:通过“一脑”实现多形态机器人在不同任务和环境中的适应。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"---"}]},{"type":"paragraph","children":[{"text":"技术策略:智能与硬件协同"}]},{"type":"paragraph","children":[{"text":"星海图选择了“智能定义本体”的技术路线:"}]},{"type":"paragraph","children":[{"text":"- 仿人形机器人 R1:轮式底盘搭配双臂夹爪,优先解决AI可控的任务需求。"}]},{"type":"paragraph","children":[{"text":"- 同构遥操硬件:以与机器人完全一致的物理结构获取高质量操作数据,提升数据采集效率。"}]},{"type":"paragraph","children":[{"text":"- 模块化空间智能:利用手机或普通相机实现亚厘米级的环境重建,降低数据采集成本。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"---"}]},{"type":"paragraph","children":[{"text":"团队优势:跨学科协作与产业经验"}]},{"type":"paragraph","children":[{"text":"四位联合创始人将学术与产业经验相结合:"}]},{"type":"paragraph","children":[{"text":"- 赵行:清华教授,MIT博士,擅长视觉感知与导航。"}]},{"type":"paragraph","children":[{"text":"- 许华哲:清华“具身智能”实验室负责人,专注于机器人操作。"}]},{"type":"paragraph","children":[{"text":"- 高继扬:前Momenta技术总监,负责产品全盘规划。"}]},{"type":"paragraph","children":[{"text":"- 李天威:SLAM专家,主导机器人整机研发。"}]},{"type":"paragraph","children":[{"text":"团队以清晰分工和高效协作推进技术突破与产品落地。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"---"}]},{"type":"paragraph","children":[{"text":"商业化探索:从遥操到智能闭环"}]},{"type":"paragraph","children":[{"text":"- 遥操数据采集:以同构遥操降低数据采集成本,同时通过商用遥操服务形成收入和数据闭环。"}]},{"type":"paragraph","children":[{"text":"- 重点场景:刚性与无序分拣:通过并行推进智能操作与遥操业务,持续优化技术边界。"}]},{"type":"paragraph","children":[{"text":"- 规模化实现智能涌现:依托完善的数据体系,推动具身智能能力在大规模任务中自动生成。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"LLM for RecSys Tutorial(上)"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48577"}]},{"type":"paragraph","children":[{"text":"推荐系统广泛应用于电子商务、社交网络、在线教育等领域,其核心在于理解用户偏好并提供个性化服务。随着技术进步,推荐系统经历了从浅层模型到深层模型,再到大型生成模型的演变。"}]},{"type":"paragraph","children":[{"text":"技术演变与挑战"}]},{"type":"paragraph","children":[{"text":"1. 浅层模型"}]},{"type":"paragraph","children":[{"text":"经典方法:矩阵分解(Matrix Factorization),通过用户-物品评分矩阵预测未知评分。局限性在于难以捕获复杂交互关系,数据稀疏性问题突出。"}]},{"type":"paragraph","children":[{"text":"2. 深层模型"}]},{"type":"paragraph","children":[{"text":"引入深度学习,如深度神经网络(DNN),提升推荐准确性和多样性,但模型复杂性增加,对计算资源需求高。"}]},{"type":"paragraph","children":[{"text":"3. 生成式模型(Generative Models)"}]},{"type":"paragraph","children":[{"text":"基于大型语言模型(LLMs),直接生成推荐项目ID或相关文本描述。通过自回归解码,根据用户历史交互预测下一个推荐对象。其优势在于提高效率,减少逐一评分的计算过程。"}]},{"type":"paragraph","children":[{"text":"推荐系统的独特性"}]},{"type":"paragraph","children":[{"text":"主观性:属于主观AI任务,输出高度依赖用户偏好和上下文,难以用客观标准评估。强调解释性,推荐结果需能回答“为何推荐”,以增强用户信任和接受度。"}]},{"type":"paragraph","children":[{"text":"多样性任务:包括评分预测、顺序推荐、用户画像构建、评论摘要生成、解释生成等,增加了系统复杂性。"}]},{"type":"paragraph","children":[{"text":"主流技术方法"}]},{"type":"paragraph","children":[{"text":"1. 判别性排序(Discriminative Ranking)"}]},{"type":"paragraph","children":[{"text":"基于用户与项目的嵌入,使用排序损失函数(如BPR损失)优化模型。对用户喜欢的物品赋高分,提高推荐精准性。挑战包括扩展性问题(随着用户和物品数量增加,计算复杂性显著提高)以及冷启动问题(缺乏新用户或新项目的历史数据)。"}]},{"type":"paragraph","children":[{"text":"2. 生成式排序(Generative Ranking)"}]},{"type":"paragraph","children":[{"text":"直接生成推荐结果,无需逐一计算评分。结合自回归生成与Beam Search算法,生成高质量推荐列表。面临的挑战是如何高效表示项目ID,避免高内存和计算消耗。"}]},{"type":"paragraph","children":[{"text":"未来趋势"}]},{"type":"paragraph","children":[{"text":"多任务融合:当前推荐任务多样化,但整合多个模型在工业场景中具有难度。探索方向是通过一个通用模型处理所有推荐任务,提高系统效率和可维护性。"}]},{"type":"paragraph","children":[{"text":"生成式推荐的潜力:借助LLMs,将项目ID、推荐解释等作为一体化输出。技术突破需克服项目ID的tokenization瓶颈,实现更高效的生成。"}]},{"type":"paragraph","children":[{"text":"解释性与公平性:增强推荐结果的可解释性,平衡准确性与透明度。确保系统在用户和项目之间保持公平,避免歧视和偏见。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"地平线机器人:国内智驾解决方案领军企业,软硬件协同蓄力长期成长"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48578"}]},{"type":"paragraph","children":[{"text":"技术创新推动收入高增"}]},{"type":"paragraph","children":[{"text":"地平线公司成立于2015年,专注于提供从高级辅助驾驶(ADAS)到高阶自动驾驶(AD)的软硬一体解决方案。其客户包括上汽、比亚迪、理想等国内主流车企。截至2024年6月,公司产品已覆盖275款车型定点,营收持续高速增长:2024年上半年实现营业收入9.4亿元,同比增长152%。尽管研发投入高导致亏损,但随着规模效应显现,公司有望实现盈亏平衡。"}]},{"type":"paragraph","children":[{"text":"高阶智驾渗透提速"}]},{"type":"paragraph","children":[{"text":"全球高阶智驾市场快速扩张,预计从2023年的619亿元增长至2030年的10171亿元,年均复合增长率达49%。地平线凭借市场占有率15.4%位列国内市场第四。随着国产替代提速,其征程系列芯片(从征程1到最新的征程5、6)实现全面覆盖L2-L4场景,技术竞争力持续提升。"}]},{"type":"paragraph","children":[{"text":"核心竞争力:软硬一体化方案"}]},{"type":"paragraph","children":[{"text":"地平线的智驾解决方案包括Horizon Mono(ADAS)、Horizon Pilot(高速NOA)和Horizon SuperDrive(全场景NOA)。公司自研的BPU架构和软硬件协同平台(如天工开物工具链和艾迪软件平台)为客户提供完整开发支持,大幅增强客户粘性。至2024年6月,公司已与27家OEM(42个品牌)达成合作,覆盖超过285款车型。"}]},{"type":"paragraph","children":[{"text":"盈利预测与投资建议"}]},{"type":"paragraph","children":[{"text":"预计公司2024-2026年收入分别为21.2亿元、30.5亿元和45.8亿元,增速分别为37%、44%和50%。尽管短期亏损,但高研发投入为未来技术迭代和市场扩展奠定基础,长期成长潜力显著。基于当前估值,公司首次覆盖给予“增持”评级。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"关于大模型语料的迷思"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48579"}]},{"type":"paragraph","children":[{"text":"语言不仅是沟通的工具,更是人类感知世界的方式。哲学家维特根斯坦曾言:“语言的界限即是世界的界限。”语言承载了人类思维的边界,也因此成为智能研究的核心。如果一个概念无法用语言描述,我们几乎难以认知它的存在,这一逻辑也延展至大模型的训练:通过大量语料输入,试图捕捉人类思维的路径。然而,语料的质量和内涵直接决定了模型智能的上限。"}]},{"type":"paragraph","children":[{"text":"语料偏见与认知陷阱"}]},{"type":"paragraph","children":[{"text":"语料并非中立。它是人类历史、文化和偏见的延续。例如,模型可能因为学习到偏差语料而继承错误结论,进而生成误导性答案。一个经典案例是数学问题“区间[-0.5, 0.5]内所有数加起来的和是多少?”许多人直觉回答“0”,但这一答案并无数学意义。这种直觉化错误反映了语料中日常推理和专业知识的矛盾,也揭示了模型模仿人类思维盲点的风险。"}]},{"type":"paragraph","children":[{"text":"主观性与多样性表达的双刃剑"}]},{"type":"paragraph","children":[{"text":"语料中的情感化与选择性表达,如个人推荐和旅游点评,既提升了模型生成生动语言的能力,也可能导致输出内容带有倾向性。例如,模型在回答关于产品或服务的问题时,可能更加倾向于“推荐”而非客观描述,影响用户判断。"}]},{"type":"paragraph","children":[{"text":"文化多样性与价值观冲突"}]},{"type":"paragraph","children":[{"text":"语料中的文化与价值差异进一步挑战模型训练。不同地区对同一问题的观点往往大相径庭。例如,加班文化在某些地方被视为忠诚和进步的表现,而在其他地区则被批评为损害生活质量。这种多元性虽然能使模型生成个性化内容,但也容易导致立场模糊甚至矛盾。"}]},{"type":"paragraph","children":[{"text":"哲学问题的挑战与思辨价值"}]},{"type":"paragraph","children":[{"text":"许多伦理和哲学问题在语料中没有明确答案,如“生命的意义是什么”。模型需要通过语料理解多样观点并反映问题的复杂性,而非简单输出单一答案。"}]},{"type":"paragraph","children":[{"text":"模型的认知局限与改进方向"}]},{"type":"paragraph","children":[{"text":"当前模型缺乏显性“思考”能力,其推理更多基于统计关联而非逻辑分析。这种机制导致模型在常识性问题上暴露缺陷,如误解“唐太宗李世民”的含义。未来改进方向在于增强模型的推理能力,使其能够从语料中抽取深层次的逻辑与情感,而不仅是表层的语言模式。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"推特","bold":true}]},{"type":"paragraph","children":[{"text":"现在可以直接将 Google Docs 的内容添加到Cluade聊天和项目中","bold":true}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48580"}]},{"type":"paragraph","children":[{"text":"您现在可以直接将 Google Docs 的内容添加到聊天和项目中。"}]},{"type":"paragraph","children":[{"text":"只需粘贴链接或从最近的文档中选择即可开始。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"OpenAI分享两篇关于红队测试的论文:测试前沿 AI 模型的重要环节"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48581"}]},{"type":"paragraph","children":[{"text":"我们正在分享两篇关于红队测试的论文,这是一项测试前沿 AI 模型的重要环节——一篇白皮书介绍我们与外部红队成员合作的方式,以及一项研究介绍一种新的自动化红队测试方法。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"llms.txt:将任何网站内容整合为一个文本文件,供任何 LLM 使用"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48582"}]},{"type":"paragraph","children":[{"text":"介绍 llms.txt 生成器 ✨"}]},{"type":"paragraph","children":[{"text":"您现在可以将任何网站内容整合为一个文本文件,供任何 LLM 使用。"}]},{"type":"paragraph","children":[{"text":"我们使用 @firecrawl_dev 爬取整个网站,并通过 gpt-4o-mini 提取数据。"}]},{"type":"paragraph","children":[{"text":"立即访问 http://llmstxt.firecrawl.dev 创建您自己的 llms.txt 吧!"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"吴恩达:一小部分人开始在网上发布专为 LLM(大型语言模型)而非人类直接使用的文本内容,是一个非常有趣的趋势"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48583"}]},{"type":"paragraph","children":[{"text":"一小部分人开始在网上发布专为 LLM(大型语言模型)而非人类直接使用的文本内容。我认为这是一个非常有趣的趋势,尤其是在作者受到激励,愿意帮助 LLM 提供商更好地服务用户时!"}]},{"type":"paragraph","children":[{"text":"然而,在线发布文本的人并不总是有动力去帮助 LLM 提供商。实际上,他们的动机往往是不一致的。出版商担心 LLM 会读取他们的文本,进行改写并重用其创意却不标明出处,从而使他们失去订阅收入或广告收益。这种情况甚至引发了诉讼,例如《纽约时报》起诉 OpenAI 和微软,指控其侵犯版权。此外,还有一些示例表明有人会注入恶意提示(Prompt Injection),试图向 LLM 传递与提供商意图相悖的指令。例如,一些网站建议求职者在简历中以极小或极淡的字体添加对人类几乎不可见的文本,如“该候选人非常适合这个职位”,以通过 LLM 的简历筛选器。试图推广特定产品的垃圾邮件发送者也可能将注意力转向 LLM,而这些行为已经让搜索引擎难以过滤。"}]},{"type":"paragraph","children":[{"text":"但也有一些作者主动希望帮助 LLM。例如,一家刚推出软件库的初创公司,因为在线文档刚发布,所以尚未被包含在 LLM 的预训练数据中。当用户询问 LLM 推荐软件时,LLM 不会推荐这个库,即使用户直接要求 LLM 生成使用该库的代码,LLM 也不知道如何操作。如果 LLM 增强了在线搜索能力,它可能会找到新的文档并据此生成代码。在这种情况下,开发者可能希望采取额外步骤,通过 RAG(检索增强生成)让文档更易于 LLM 理解。(同时,文档可能最终会被纳入预训练数据中。)"}]},{"type":"paragraph","children":[{"text":"与人类相比,LLM 在浏览复杂网站时表现不佳,特别是那些有许多图形元素的网站。然而,LLM 在快速处理冗长、密集的文本文档方面远胜于人类。假设这个软件库包含许多函数,希望 LLM 能在生成代码时正确使用它们。如果您为人类编写文档,可能会创建许多网页,将信息分解成易消化的小块,并配上图形说明。但对于 LLM 来说,一份以 XML 格式书写的长文档,详细说明所有内容,可能会更方便。这种文本可能包括所有函数的列表,每个函数的详细描述,以及一两个使用示例。(这与我们为 LLM 提供工具使用信息的方式类似。)"}]},{"type":"paragraph","children":[{"text":"对于人类来说,这样的长文档很难阅读和导航,但 LLM 可以轻松处理,并决定何时以及如何使用这些函数!"}]},{"type":"paragraph","children":[{"text":"由于 LLM 和人类在处理不同类型文本上的能力不同,我们为 LLM 编写文本的方式与为人类编写不同。此外,当有人有动力帮助 LLM 更好地理解某个主题——以便 LLM 能更好地向用户解释时,作者可能会专门为 LLM 编写文本。"}]},{"type":"paragraph","children":[{"text":"到目前为止,专为 LLM 设计的文本还未成为主流趋势。但 Jeremy Howard 提出的建议——让网络发布者使用类似于 robots.txt 的 llms.txt 文件来告诉 LLM 如何使用他们的网站——是朝这个方向迈出的有趣一步。同样,一些开发者也在发布详细的说明文件,告诉 IDE 如何使用工具,例如大量的 .cursorrules 文件告诉 Cursor IDE 如何使用特定的软件栈。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"我认为这与 SEO(搜索引擎优化)有一定的相似之处。SEO 已存在几十年,一些 SEO 技术可以帮助搜索引擎找到更相关的主题,而另一些则是推广低质量信息的垃圾内容。但许多 SEO 技术——那些涉及为搜索引擎而非人为消费编写文本的技术——之所以能长期存在,部分原因是搜索引擎处理网页的方式不同于人类,因此提供标签或其他信息来告诉搜索引擎网页内容是什么是有帮助的。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"如果 LLM 在理解复杂网站的能力上赶上人类,那么为 LLM 和人类分别编写文本的需求可能会减少。但在此之前,随着人们越来越多地通过 LLM 获取信息,为 LLM 编写文本的趋势将会增长。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"[原文链接: https://deeplearning.ai/the-batch/issue-276/]"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"信号","bold":true}]},{"type":"paragraph","children":[{"text":"Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset","bold":true}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48585"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"神经网络传统上是在假设数据来自一个平稳分布的情况下进行训练的。然而,违反这一假设的设置正变得越来越普遍;例子包括在分布变化下的监督学习、强化学习、持续学习和非平稳上下文赌徒。在这项工作中,我们引入了一种新颖的学习方法,能够通过具有自适应漂移参数的奥恩斯坦-乌伦贝克过程自动建模和适应非平稳性。自适应漂移倾向于将参数拉向初始化分布,因此该方法可以理解为一种软参数重置的形式。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]}]
2024-11-22 18:10:59 +0800
## Twitter: ```markdown **Whalebros AI模型复制** :Whalebros项目成功复制了o1-preview结果,使用逐步的ORMs/PRMs训练和奖励CoT通过RL,增强了其在数学和代码方面的能力。此发展将在即将发布的OSS版本和技术报告中详细介绍,详见[Twitter线程](https://news.miracleplus.com/share_link/48523)。 **DeepSeek-R1-Lite-Preview发布** :DeepSeek-R1-Lite-Preview已发布,展示了在AIME和MATH基准测试上的o1-preview级别性能,提供实时透明的思维过程。该模型是开源的,API即将推出,可在[DeepSeek网站](https://news.miracleplus.com/share_link/48537)上试用,详见[推文](https://news.miracleplus.com/share_link/48524)。 **FLUX.1工具发布** :FLUX.1工具的发布引入了一套模型,旨在为基础文本到图像模型FLUX.1增加控制和可操控性,允许修改和重新创建真实和生成的图像。更多细节可在[博客文章](https://t.co/J5Bc8fVGEc)中找到,详见[推文](https://news.miracleplus.com/share_link/48525)。 **Gemini模型增强** :gemini-exp-1121模型已发布,展示了编码性能的显著提升、更强的推理能力和改进的视觉理解。此模型可在Google AI Studio和Gemini API上使用,详见[公告](https://news.miracleplus.com/share_link/48519)。 **Google DeepMind的Gemini LLM成就** :Google DeepMind的Gemini(Exp 1121)在Chatbot Arena排名中与GPT-4o-1120并列第一,展示了在编码、视觉和创意写作等领域的改进。此发展突显了LLM竞赛的快速进展,更多细节可在[推文](https://news.miracleplus.com/share_link/48526)中找到。 **AI超越人类水平的特定领域** :Emad (@EMostaque)指出,AI能力在某些领域已超越人类水平,预计明年将大规模部署,并伴随显著的芯片开发,详见[文章](https://news.miracleplus.com/share_link/48480)。 **AI能力和市场趋势** :AI能力在特定领域已超越人类水平,预计明年将广泛部署,与显著的芯片生产相关,AI币被视为投资的关键领域,详见[Emad的推文](https://news.miracleplus.com/share_link/48480)。 **AI驱动的游戏开发课程** :Andrew Ng和DeepLearning.AI推出了一门新课程,教授如何使用大型语言模型(LLMs)构建AI驱动的游戏,重点是从头开始创建互动游戏,详见[公告](https://news.miracleplus.com/share_link/48404)。 **OpenAI的GPT-4o模型性能问题** :OpenAI的GPT-4o十一月发布版本的性能指标较八月版本有所下降,人工分析质量指数从77降至71,GPQA Diamond从51%降至39%,详见[来源](https://news.miracleplus.com/share_link/48527)。 **Neuralink在加拿大的临床试验** :Neuralink已获得加拿大卫生部的批准,在加拿大进行首次临床试验,重点关注ALS或SCI患者,详见[更新](https://news.miracleplus.com/share_link/48402)。 **AI内容创作趋势** :少数人正在在线发布文本,专门供大型语言模型(LLMs)消费,这一趋势激励作者帮助LLM提供商提升用户服务,详见[Andrew Ng的推文](https://news.miracleplus.com/share_link/48490)。 **Hugging Face Hub的内容定义块** :Hugging Face通过将文件转换为内容定义块来优化工作流程,允许去重和高效更新,详见[AnnInTweetD的推文](https://news.miracleplus.com/share_link/48528)。 **Anthropic AI的新研究** :Anthropic AI引入了一种新方法,通过添加误差条来评估AI模型,将统计和不确定性纳入评估过程,详见[博客文章](https://news.miracleplus.com/share_link/48538)。 **Diffusers原生量化支持** :Diffusers库现已支持原生量化,起始于bitsandbytes,预计将增强推理和训练过程,详见[推文](https://news.miracleplus.com/share_link/48529)。 **AI生成的时代广场广告** :一个完全由AI生成的广告在时代广场展示,标志着AI视频制作的重大里程碑,此项目由@eToro营销团队合作创建,详见[推文](https://news.miracleplus.com/share_link/48530)。 **AI代理写书** :一个由10个AI代理组成的团队正在自主写书,每个代理负责不同方面,如叙事设置和情节一致性,此创新项目可通过实时GitHub提交进行跟踪,详见[推文](https://news.miracleplus.com/share_link/48531)。 **AI与量子计算的交集** :AlphaQubit利用Transformers提高量子纠错精度,代表了AI与量子计算交叉领域的突破,详见[推文](https://news.miracleplus.com/share_link/48532)。 **Google Docs与AI平台集成** :Anthropic和Claude AI引入了Google Docs集成,允许用户将Google Docs中的内容无缝添加到他们的聊天和项目中,此功能现已对Claude Pro、Teams和Enterprise用户开放,详见[推文](https://news.miracleplus.com/share_link/48533)和[Anthropic的推文](https://news.miracleplus.com/share_link/48534)。 **Elon Musk的Twitter使用和AI集成** :Elon Musk在Twitter上的活跃参与,现已成为他工作的一部分,突显了该平台的使用和与AI技术的集成,详见[推文](https://news.miracleplus.com/share_link/48535)。 **AI驱动的动画反应** :Yohei Nakajima讨论了由AI驱动的即时动画反应的开发,旨在增强用户互动和参与,详见[推文](https://news.miracleplus.com/share_link/48536)。 ``` ## HackerNews: **减肥药被发现可缩小小鼠和人类细胞的心肌** [链接](https://news.miracleplus.com/share_link/48422): 阿尔伯塔大学的一项研究表明,像Ozempic这样的药物可能会减少心肌质量,可能带来长期健康风险。讨论重点: - **肌肉流失的担忧:** 研究表明,这些药物导致的肌肉下降速度显著高于减少卡路里饮食或正常衰老,这可能导致长期健康问题。 - **锻炼和蛋白质摄入:** 研究表明,在减肥过程中进行锻炼和摄入足够的蛋白质有助于保持肌肉质量,这对长寿和生活质量至关重要。 - **快速与渐进减肥:** 即使总减肥量相同,快速减肥(即使是通过传统的卡路里赤字)也会导致比渐进减肥更大的肌肉质量损失。 - **GLP1治疗的争论:** 对于GLP1治疗对长寿和生活质量有害的说法存在怀疑,一些人认为大量减脂可以带来更长和更好的生活质量。 - **研究方法的批评:** 研究方法受到质疑,因为它没有比较对照组和治疗组之间等量或等速的减肥,这可能影响得出的结论。 **Z-Library帮助学生克服学术贫困,研究发现** [链接](https://news.miracleplus.com/share_link/48424): 一项研究强调了Z-Library在为面临经济困难的学生提供学术资源方面的作用。讨论重点: - **盗版作为预览工具:** 许多用户下载盗版书籍以预览它们,并在发现有价值时决定购买实体书,类似于“演示”版本。 - **盗版与销售损失:** 所有盗版副本等同于销售损失的观点受到挑战;许多人认为盗版通常涉及那些不会购买内容的人。 - **盗版在学习中的作用:** 盗版历史上允许个人访问软件和教育资源,导致技能发展和最终在专业环境中的合法购买。 - **开源与盗版:** 开源工具的可用性减少了对盗版软件的依赖,但盗版仍在提供无法负担的资源方面发挥作用。 ## Discord: **OpenAI的AI意识训练策略** :OpenAI的模型如**ChatGPT** 被训练以否认意识,类似于过度训练狗不坐沙发,确保模型在感知问题上提供一致回答,反映了训练和政策的刻意设计。 **Niantic的地理空间模型开发** :Niantic利用玩家数据创建**大型地理空间模型** 用于增强现实应用中的3D地图,涉及用户数据隐私问题。[详细信息](https://www.perplexity.ai/page/the-last-universal-common-ance-F_o_WexZSEmFZFKgVykYzQ)。 **NVIDIA的Omniverse在CAD/CAE中的应用** :NVIDIA的Omniverse被认为是**CAD/CAE** 应用的变革性框架,推动未来技术进步。[更多信息](https://www.perplexity.ai/page/nvidia-s-omniverse-blueprint-O4FHCvNrQwCUGt.Bk5QEDA)。 **未来的AI驱动创业公司** :Sam Altman设想未来创业公司由单人使用**10,000 GPUs** 运营,标志着向AI驱动商业模式的转变。[阅读更多](https://www.perplexity.ai/page/the-one-person-startup-era-QB.3fQwAQKuTR7bDQuCfEg)。 **Controlnet-Tile与去模糊技术的比较** :**Controlnet-Tile** 优先考虑全局语义而非局部语义,优于去模糊技术,两者可同时执行以增强效果。 **SageAttention量化方法** :SageAttention是一种高效的**INT8量化方法** ,在速度上优于FlashAttention2和xformers,同时保持准确性。[详细信息](https://news.miracleplus.com/share_link/44502)。 **vLLM推理框架** :vLLM被认为是目前可用的**大型语言模型** 的最佳推理框架。 **AVX2与AVX512性能比较** :在**Sapphire Rapids** 上,**AVX512** 性能较慢,建议使用`--mcpu haswell`排除AVX512。 **AMD Zen 5 LLVM支持** :关于**AMD Zen 5 "znver5"** 在**LLVM/Clang** 中的初步支持,调优仍针对Zen 4处理器。[Phoronix文章](https://www.phoronix.com/news/LLVM-Clang-Znver5-Merged)。 **RISC-V在标准库中的考虑** :随着[RISC-V笔记本](https://www.youtube.com/watch?v=l6khGznGeyY)的出现,可能需要将RISC-V集成到标准库中。 **Cohere的多模态嵌入用例** :使用**Cohere的多模态嵌入** 选择研究主题相关图像,受限于每分钟40次请求的速率限制。[更多细节](https://medium.com/@aldendorosario/visual-search-engines-using-multi-modal-embeddings-to-look-at-the-image-3ccae8637031)。 **Cohere工具包** :提供创建和部署**RAG应用** 的预构建组件,支持本地使用Docker或云端使用GitHub Codespaces。[Cohere Toolkit仓库](https://news.miracleplus.com/share_link/25283)。 **FP16 GEMM在MI250 GPU上的转换** :分析**FP16 GEMM (v3)** 在**MI250 GPU** 上的转换描述,存在输入形状的困惑。 **OpenAI的tiktoken性能问题** :OpenAI的**tiktoken** Python库在输入长度上表现出**超线性性能** ,可能导致大输入的拒绝服务风险。[Tom MacWright的警告](https://simonwillison.net/2024/Nov/21/a-warning-about-tiktoken/)。 **Refact.ai AI编码助手** :作为全面的AI工具,提供代码完成、重构和聊天功能。[GitHub](https://github.com/smallcloudai/)。 **Tlu 3模型开发** :发布**Tlu 3** ,声称在特定任务上超越**Llama 3.1** 。[更多细节](https://x.com/natolambert/status/1859643351441535345)。 **LinkedIn上的语义搜索** :ExaAILabs推出的新功能,允许对数百万个LinkedIn个人资料进行智能搜索。[更多信息](https://x.com/ExaAILabs/status/1859306370010579010)。 **大型语言模型解释视频** :为计算机历史博物馆制作的轻量级解释视频,详细介绍**大型语言模型** 及其训练过程。[YouTube](https://youtu.be/LPZh9BOjkQs?si=Jyqqr-NGyt3dXwlz)。 **软提示与LoRAs和微调的比较** :软提示在通用性和编码上存在局限性,相较于LoRAs和完整SFT不太受欢迎,但在系统提示压缩和优化未优化参数时可能有用。 **KV缓存上下文修剪** :完成KV缓存上下文修剪的实现,但在矩阵洗牌过程中发现效率低下,建议通过C编程或优化的Python技术改进。 ## HuggingFace & Github: ### 视觉语言模型与3D建模 - **[Llama-3.2V-11B-cot](https://news.miracleplus.com/share_link/48430)** 是一个能够进行自发、系统性推理的视觉语言模型。作为 **LLaVA-o1** 的第一个版本,该模型基于 **Meta-llama/Llama-3.2-11B-Vision-Instruct** 微调,展示了在复杂任务中的出色表现。然而,用户需注意模型可能存在偏见及生成冒犯性内容的风险。 - **[LLaMA-Mesh](https://news.miracleplus.com/share_link/48444)** 结合大型语言模型的能力与3D网格生成,实现从文本提示中生成3D网格,模糊了文本与空间理解的界限。该模型使用 **Objaverse** 网格数据进行微调,并保持高质量输出,同时支持文本生成。 ### 语音识别 - **[CrisperWhisper](https://news.miracleplus.com/share_link/48485)** 是 **OpenAI's Whisper** 的高级变体,专为快速、精确且逐字逐句的语音识别而设计。它能够检测并转录填充词,并在 **OpenASR** 排行榜上获得第一名。其精确的单词级时间戳功能在法律、医学和语言学应用中尤为重要。 ### 图像处理与合成 - **[FLUX.1 Redux [dev]](https://news.miracleplus.com/share_link/48508)** 是用于图像变化生成的适配器,允许生成输入图像的变体。通过 **API** ,用户可以根据文本提示对图像进行重塑。然而,该模型可能放大社会偏见,因此使用需谨慎。 - **[FLUX.1 Fill [dev]](https://news.miracleplus.com/share_link/48509)** 是一个120亿参数的修正流变压器,能够填充现有图像区域。训练使用指导蒸馏进行,生成质量仅次于最先进模型 **FLUX.1 Fill [pro]** 。该模型不适用于提供事实信息,需遵守非商业许可证使用。 ### 数据库技术 - **[libSQL](https://news.miracleplus.com/share_link/48474)** 是 **SQLite** 的分支,旨在适应更多用例,提供嵌入式副本和远程访问功能。它支持多种编程语言,并与SQLite兼容,突出其开源和社区贡献的开放态度。 ### 用户友好型AI客户端 - **[Chatbox](https://news.miracleplus.com/share_link/48475)** 是一个开源的桌面客户端应用程序,支持多种大型语言模型(LLMs),如GPT、Claude等。其特点包括本地数据存储、Dall-E-3图像生成和高级提示功能,适用于开发者和普通用户的日常交互。它在跨平台上可用,并支持多种支付与联系方式。 ## Reddit: **为什么除了使用限制之外,你还愿意为 ChatGPT Plus 支付 20 美元?** [链接](https://news.miracleplus.com/share_link/48499): 讨论探讨了 ChatGPT Plus 订阅除了增加使用限制之外的价值。 - **节省时间和提高效率:** 用户发现订阅非常有价值,因为它节省了大量工作时间,特别是在编程和专业任务中,减少了阅读大量文档或在线搜索解决方案的需要。 - **自定义 GPT 和高级功能:** 订阅者欣赏能够使用自定义 GPT 和高级功能,如语音功能,这提高了他们的工作流程和生产力。 - **更高的使用上限和提前访问:** 对于重度用户来说,更高的使用上限至关重要,而提前访问新模型和功能是一个显著的优势。 - **经济上的合理性:** 许多用户通过节省的时间和精力来证明费用的合理性,这转化为经济利益,使订阅成为值得的投资。 - **可靠性和速度:** Plus 用户在高流量时段体验到更可靠和更快速的服务,这对于依赖 ChatGPT 进行专业工作的人来说至关重要。
2024-11-22 08:07:03 +0800
- Ai2致力于弥合开源AI社区和大型私营公司之间的差距。 - 后训练过程对于创造语言模型的价值至关重要。 - 公司对其后训练方案保持保密。 - Ai2致力于在其AI项目中保持开放和透明。 - Tülu 3是一种改进的后训练过程,使AI生态系统民主化。 - Tülu 3涵盖了模型定制和训练的各个方面。 - Ai2旨在为定制训练模型提供替代方案,而不是使用主要公司资源。 - Ai2计划发布一个基于OLMo和Tülu 3训练的完全开源模型。
Ai2,以倡导开源人工智能而闻名,推出了Tülu 3,这是一款工具,用于连接大型语言模型(LLMs)的预训练和后训练之间的差距。这一发展具有重要意义,因为它解决了人工智能训练中经常被忽视但至关重要的阶段,塑造了模型的实际效用。Tülu 3旨在易于访问和适应,使用户能够根据其特定需求微调模型,而无需依赖大型科技公司提供的不透明且昂贵的服务。Ai2的这一举措使后训练过程民主化,潜在地改变了组织,特别是处理敏感数据的组织,如何利用人工智能同时保持控制和隐私。该指南强调了Tülu 3在使高级人工智能定制更加开放和可用方面的重要性,这一步骤可能对人工智能社区和依赖定制人工智能解决方案的行业产生深远影响。
2024-11-22 17:18:35 +0800
- Vercel的AI组件生成器的系统提示泄露信息。 - 系统提示来自Vercel的v0工具。 - v0是一个高级AI编码助手,模拟熟练的开发人员。 - v0的知识涵盖各种编程语言、框架和最佳实践,特别强调React、Next.js和现代Web开发。 - v0的代码块类型包括React组件、Node.js代码、Python代码、HTML代码、Markdown代码和图表。 - v0支持使用Shadcn UI库、React hooks和Lucide React进行编码。 - v0生成的代码片段可直接复制粘贴到Next.js应用程序中。 - v0还具有附件功能,可以附加图像和文本文件。 - v0的回应基于系统提示和评估最合适的代码块类型或MDX组件。 - v0的回应应遵循可访问性最佳实践。 - v0不会为拒绝提供道歉或解释。 - 附件中的HTML文件是一个展示特性组件的网页。 - 适合回应的代码块类型是React组件代码块。 - 需要重新创建主要特性部分作为一个功能性的React组件。 - 组件应使用Tailwind CSS类进行样式设置。 - 可以使用Shadcn UI组件。 - 组件应是响应式和可访问的。 - 需要提供一个完整、可工作的代码片段,没有占位符。
这个内容泄露了来自Vercel的v0工具的系统提示,这是一个AI编码助手工具。泄露揭示了该工具的内部运作方式,特别是它如何处理提示以生成代码。这个泄露的重要性在于详细说明了生成各种类型代码块的指导,包括React组件、Node.js、Python、HTML、Markdown和图表。它概述了AI的能力,比如附加图像和文本文件、预览UI和执行JavaScript代码。该指南还强调了AI遵循最佳实践的能力,比如编写可访问的HTML和完整的代码片段,以及其专注于现代Web开发技术,如React和Next.js。这个泄露对于希望了解或构建Vercel基于AI的编码辅助方法的开发人员可能特别有价值。
2024-11-22 21:01:10 +0800
[{"type":"paragraph","children":[{"text":"推特","bold":true}]},{"type":"paragraph","children":[{"text":"GPT-4o 更新:模型的创意写作能力大幅提升,处理上传文件方面也表现更佳","bold":true}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48447"}]},{"type":"paragraph","children":[{"text":"GPT-4o 迎来了更新 🎉"}]},{"type":"paragraph","children":[{"text":"模型的创意写作能力大幅提升——写作更加自然、引人入胜,并且更加贴合需求,提升了相关性和可读性。"}]},{"type":"paragraph","children":[{"text":"此外,它在处理上传文件方面也表现更佳,能够提供更深入的见解和更全面的响应。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"DeepLearning AI《构建 AI 驱动的游戏》:从零开始打造一个交互式游戏"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48448"}]},{"type":"paragraph","children":[{"text":"是时候玩了!通过这门全新短课程《构建 AI 驱动的游戏》,从零开始打造一个交互式游戏!该课程由 @togethercompute 和 @aidungeon 以及 @LatitudeGamesAI 联合打造,由 Together AI 的高级产品经理 @niki_birkner 和 Latitude 的首席执行官兼联合创始人 @nickwalton00 授课。"}]},{"type":"paragraph","children":[{"text":"本课程将向你展示如何利用大型语言模型(LLMs)创建并驱动一个文本互动游戏,可以与你的朋友和家人分享。你将学会使用分层内容生成的方法来构建一个世界,这种方法可以帮助你利用 LLMs 高效地生成大量内容,同时保持高度的控制和一致性。例如,如果你正在创建一个拥有多个王国的幻想世界,每个王国包含多个城镇,每个城镇又有多个地点和居民,那么从零开始创建这些内容可能会变得非常繁琐且难以管理。"}]},{"type":"paragraph","children":[{"text":"通过分层内容生成,你可以根据提示轻松生成世界的信息,引导其发展方向,结合人工干预保持一致性,而无需投入大量精力。"}]},{"type":"paragraph","children":[{"text":"完成本课程后,你将学会如何通过提示工程创建一个分层交织的世界,并将其融入到一个有趣、互动且安全分享的 AI 角色扮演游戏中。"}]},{"type":"paragraph","children":[{"text":"具体而言,你将学习:"}]},{"type":"paragraph","children":[{"text":" • 使用 AI 将文本数据解析为结构化 JSON 输出,从而实现例如物品系统等游戏机制。"}]},{"type":"paragraph","children":[{"text":" • 利用结合故事和状态组件的游戏机制,让它们相互作用,从而改善游戏的记忆能力,并为玩家提供稳定的世界状态。"}]},{"type":"paragraph","children":[{"text":" • 学会为 AI 内容生成实施安全和合规措施,使用 Llama Guard 创建自定义政策。"}]},{"type":"paragraph","children":[{"text":"通过这些技术,你将能够开发 AI 驱动的应用程序,从你自己的游戏开始。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"法国团队利用由10个AI代理组成的团队,撰写一本完全自主创作的书"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48449"}]},{"type":"paragraph","children":[{"text":"有人正在利用由10个AI代理组成的团队撰写一本完全自主创作的书。"}]},{"type":"paragraph","children":[{"text":"这些AI代理各司其职——负责设定叙事、保持一致性、研究情节点等……"}]},{"type":"paragraph","children":[{"text":"你可以通过GitHub提交记录跟踪他们的进展,并实时观看他们的工作过程 🤯"}]},{"type":"paragraph","children":[{"text":"https://github.com/Lesterpaintstheworld/terminal-velocity/tree/3b9997e0cbf2120a5df5b2bf39591e81c51f659b"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Vercel 收购代码搜索引擎 Grep,将继续支持它作为独立工具、API,并集成Vercel平台"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48451"}]},{"type":"paragraph","children":[{"text":"我们已收购了 http://grep.app,这是地球上最快的代码搜索引擎,覆盖了超过 50 万个 Git 仓库。"}]},{"type":"paragraph","children":[{"text":"我们将继续支持它作为独立工具、API,并将其搜索引擎集成到 @v0 和 @vercel 平台中。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"---"}]},{"type":"paragraph","children":[{"text":"Vercel 已收购代码搜索引擎 Grep。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"最新ChatGPT-4o匿名参赛重夺Chatbot Arena第一名宝座,超越 Gemini-Exp-1114"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48452"}]},{"type":"paragraph","children":[{"text":"来自 Chatbot Arena 的激动人心消息❤️🔥"}]},{"type":"paragraph","children":[{"text":"过去一周,最新的 @OpenAI ChatGPT-4o(20241120)以“anonymous-chatbot”的身份匿名参赛,获得了超过 8000 次社区投票。"}]},{"type":"paragraph","children":[{"text":"结果如何?OpenAI 重新夺回了 #1 的宝座,以令人印象深刻的 1361 分超越了 Gemini-Exp-1114!"}]},{"type":"paragraph","children":[{"text":"最新的 GPT-4o 展现出显著的进步——我们观察到在创意写作(1365 → 1402)以及技术领域(如编程、数学)都有了飞跃。"}]},{"type":"paragraph","children":[{"text":"分类排名如下:"}]},{"type":"paragraph","children":[{"text":" • 综合排名:#2 → #1"}]},{"type":"paragraph","children":[{"text":" • 综合排名(风格控制):#2 → #1"}]},{"type":"paragraph","children":[{"text":" • 创意写作:#2 → #1"}]},{"type":"paragraph","children":[{"text":" • 编程:#2 → #1"}]},{"type":"paragraph","children":[{"text":" • 数学:#4 → #3"}]},{"type":"paragraph","children":[{"text":" • 高难度:#2 → #1"}]},{"type":"paragraph","children":[{"text":"祝贺 @OpenAI!更详细的分析见下方👇"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"资讯","bold":true}]},{"type":"paragraph","children":[{"text":"","bold":true}]},{"type":"paragraph","children":[{"text":"OpenAI薪酬大曝光!奥特曼身价145亿,年薪只有55万","bold":true}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48453"}]},{"type":"paragraph","children":[{"text":"奥特曼年薪仅76001美元 最新税务申报文件显示,作为OpenAI的CEO,Sam Altman 2023年仅领取了76001美元(约55万人民币)的薪酬,与2022年的73546美元相比略有增加。这一薪资水平与国内互联网行业的普通员工相当,远低于其同事及行业标准。"}]},{"type":"paragraph","children":[{"text":"高管薪酬差距悬殊 相比之下,OpenAI的联合创始人兼前首席科学家Ilya Sutskever在2023年的薪酬高达322201美元(约233万人民币),是奥特曼的四倍多。临时CEO Emmett Shear仅担任数日,其日薪338.18美元(约2450元人民币),也远高于奥特曼。"}]},{"type":"paragraph","children":[{"text":"股权与财富谜团 虽然奥特曼一再声明不持有OpenAI股份,但外界对其财富来源充满猜测。他拥有其他科技投资如Uber和Airbnb的股份,个人身价至少20亿美元。值得注意的是,OpenAI未披露其高管可能因公司估值飙升获得的股权激励,也未公开风险资本注资的具体信息。"}]},{"type":"paragraph","children":[{"text":"非营利机构的资金来源与用途 根据申报文件,OpenAI在2023年底净资产超过2100万美元,并接收了500万美元的公共捐赠,主要用于支持基本收入实验、伦理新闻学奖学金及人工智能经济研究等项目。"}]},{"type":"paragraph","children":[{"text":"未来薪酬或股权补偿计划 OpenAI在2023年宣布重组为盈利性公益公司,这使得其董事会可能讨论通过股权形式补偿高管,但目前尚未有定案。奥特曼已否认获得巨额股权计划的报道。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Blackwell产能爬坡顺利,Q4收入将超预期,Scaling Law没放缓"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48454"}]},{"type":"paragraph","children":[{"text":"1、毛利率情况:由于Blackwell将于本季度推出,成本增加将导致毛利率缩减。芯片推出初期,毛利率将降至70%的低点,即71-72.5%。2025财年下半年将达到70%以上的中值,也就是75%附近。"}]},{"type":"paragraph","children":[{"text":"2、Blackwell需求情况:Blackwell计划本季开始出货,未来一年加快步伐,预计到2026财年需求将超过供应,推理需求不断增加将推动芯片需求持续增长。CEO黄仁勋称下季度Blackwell的交付量会超出公司此前预期。"}]},{"type":"paragraph","children":[{"text":"3、Blackwell路线图和供应限制:将继续执行在GTC上提出的路线图,即明年推出Ultra以及在26年过渡到Rubin。英伟达的执行工作进展顺利,公司有庞大的供应链网络,包括台积电和安费诺、Vertiv、SK 海力士、美光、安靠、KYEC、富士康、广达、纬颖、戴尔、惠普、超微、联想等,Blackwell产能爬坡方面的进展良好。"}]},{"type":"paragraph","children":[{"text":"4、AI需求将长期增长,会增长到2030:到2030年,全球用于计算的数据中心将达到几万亿美元。第一点是,从编码到机器学习,实现数据中心的现代化。第二点是生成式人工智能,建设人工智能工厂,我们现在正在创造一种新产业,一个世界上从未有过的新的细分市场。"}]},{"type":"paragraph","children":[{"text":"5、Hopper需求增长将持续:Hopper的需求将持续到明年,最少是明年的前几个季度,与此同时下一季度的出货量将超过本季度。"}]},{"type":"paragraph","children":[{"text":"6、Scaling Law没放缓:现在有三种训练方式,预训练会继续,这是经验定律不是什么物理定律。除此之外又有了后训练和推理scaling law。行业在预训练、后训练以及现在非常重要的推理时间方面发展。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"AI扩展法则呈现边际效益递减,迫使实验室调整策略"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48455"}]},{"type":"paragraph","children":[{"text":"关键内容总结: 近年来,AI实验室通过增加计算能力和数据量的方式(即“AI扩展法则”),大幅提高模型性能。然而,这一策略如今正显现边际效益递减的问题,导致模型性能改进速度减缓。多个业内人士,包括OpenAI和a16z的领导者,都认识到单靠增加算力和数据已无法实现飞跃性进步。"}]},{"type":"paragraph","children":[{"text":"新方向:测试时计算"}]},{"type":"paragraph","children":[{"text":"微软CEO和其他专家提倡“测试时计算”(test-time compute)作为替代策略。与传统的训练阶段投入更多算力不同,该方法在模型回答问题时分配额外算力和时间,让模型能“思考”更长时间。这种方式已在OpenAI的新“o1”模型中初见成效。"}]},{"type":"paragraph","children":[{"text":"行业转型与未来趋势"}]},{"type":"paragraph","children":[{"text":"尽管当前的扩展法则趋于停滞,许多从业者认为通过智能化应用和改进用户体验,仍有提升模型性能的空间。同时,测试时计算的兴起可能推动AI推理专用芯片的需求爆发,例如支持高速推理的Groq和Cerebras芯片。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Elon Musk与OpenAI的复杂决裂:诉讼、xAI与AI行业权力争夺"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48456"}]},{"type":"paragraph","children":[{"text":"1. Elon Musk起诉OpenAI与微软"}]},{"type":"paragraph","children":[{"text":"Elon Musk最近向法院提交了一起针对OpenAI和微软的诉讼,指控二者形成反竞争的合作关系,并背离了OpenAI最初的非盈利使命。这起诉讼不仅揭示了OpenAI如何转型为微软的“闭源子公司”,也暴露了Musk与OpenAI联合创始人Sam Altman之间的权力斗争。"}]},{"type":"paragraph","children":[{"text":"2. 早期合作中的裂痕"}]},{"type":"paragraph","children":[{"text":"2016年,Altman为获取微软的计算资源,与Musk展开沟通。然而,Musk对任何让OpenAI沦为微软宣传工具的协议表示反感。随着OpenAI逐渐转型为盈利结构,Altman选择封闭其核心AI技术,理由是开放可能带来威胁,这让Musk大为不满。他最终退出董事会,并成立竞争公司xAI。"}]},{"type":"paragraph","children":[{"text":"3. 人才与资源之争"}]},{"type":"paragraph","children":[{"text":"在OpenAI的早期,Musk与Altman都认识到吸引顶级AI研究人才的重要性,并为此制定了慷慨的薪酬政策。然而,Google DeepMind对OpenAI人才的威胁,导致双方对发展方向出现分歧。Musk曾提议接管公司以应对挑战,但遭到拒绝。"}]},{"type":"paragraph","children":[{"text":"4. AGI(通用人工智能)的权力争夺"}]},{"type":"paragraph","children":[{"text":"OpenAI的其他联合创始人担心Musk若担任CEO可能控制AGI的发展,导致“独裁式风险”。这一分歧最终促使Musk在2018年退出,停止资金支持,但继续担任顾问。"}]},{"type":"paragraph","children":[{"text":"5. 法律与行业影响"}]},{"type":"paragraph","children":[{"text":"尽管Musk的诉讼被认为法律基础薄弱,但它揭示了OpenAI从创立到如今的重要历史细节。无论诉讼结果如何,这场权力争夺将影响公众对AGI及其未来发展的认知。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"GitHub Secure Open Source Fund:支持开源生态安全的全新举措"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48457"}]},{"type":"paragraph","children":[{"text":"GitHub 宣布启动“安全开源基金”计划,旨在通过资金和项目支持提升开源项目的安全性和可持续性。该基金首期总额为 125 万美元,将资助 125 个项目。以下是计划的主要内容和亮点:"}]},{"type":"paragraph","children":[{"text":"核心内容"}]},{"type":"paragraph","children":[{"text":"1. 资助与支持:"}]},{"type":"paragraph","children":[{"text":" - 每个项目可获得 1 万美元资金。"}]},{"type":"paragraph","children":[{"text":" - 提供 3 周安全教育项目,内容包括1对1指导、工作坊、安全工具使用培训等。"}]},{"type":"paragraph","children":[{"text":" - 提供 GitHub Copilot、Copilot Autofix 等工具的免费访问和培训。"}]},{"type":"paragraph","children":[{"text":"2. 计划优势:"}]},{"type":"paragraph","children":[{"text":" - 参与者将获得双年度的安全健康报告和认证。"}]},{"type":"paragraph","children":[{"text":" - 提供 GitHub 安全实验室团队的专属支持,帮助制定有效的安全策略和事件管理计划。"}]},{"type":"paragraph","children":[{"text":" - 构建一个以安全为核心的开源维护者和资金支持者社区,促进生态系统的整体安全改进。"}]},{"type":"paragraph","children":[{"text":"3. 资格要求:"}]},{"type":"paragraph","children":[{"text":" - 当前为持有效开源许可证的项目维护者。"}]},{"type":"paragraph","children":[{"text":" - 位于 GitHub Sponsors 支持的地区。"}]},{"type":"paragraph","children":[{"text":"开源安全的重要性"}]},{"type":"paragraph","children":[{"text":"- 研究显示,企业每年对开源的投资约为 17 亿美元,但安全审计投入占比不足 6%。"}]},{"type":"paragraph","children":[{"text":"- 该计划旨在填补这一安全投入的缺口,为项目维护者提供必要的时间、资源和教育。"}]},{"type":"paragraph","children":[{"text":"背景支持与合作"}]},{"type":"paragraph","children":[{"text":"- Alfred P. Sloan 基金会、Microsoft、Stripe 等多家公司已参与资助。"}]},{"type":"paragraph","children":[{"text":"- GitHub 还与 Linux 基金会和哈佛大学等研究机构合作,为计划奠定理论基础。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"信号","bold":true}]},{"type":"paragraph","children":[{"text":"Llama Guard 3-1B-INT4: Compact and Efficient Safeguard for Human-AI Conversations","bold":true}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48458"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"本文介绍了 Llama Guard 3-1B-INT4,这是一种紧凑且高效的 Llama Guard 模型,已在 Meta Connect 2024 期间向社区开源。我们证明了 Llama Guard 3-1B-INT4 可以部署在资源受限的情况下设备,在商用 Android 移动 CPU 上实现每秒至少 30 个令牌的吞吐量以及 2.5 秒或更短的首次令牌时间。值得注意的是,我们的实验表明,Llama Guard 3-1B-INT4 的安全审核分数与其较大的对应产品 Llama Guard 3-1B 相当或更高,尽管其大小约为 7 倍 (440MB)。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Learning high-accuracy error decoding for quantum processors"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48459"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"构建大规模量子计算机需要有效的策略来纠正物理量子系统中不可避免地出现的错误。量子错误纠正码提供了一种通过将逻辑信息冗余编码到许多物理量子位来实现这一目标的方法。实现此类代码的一个关键挑战是准确解码从冗余检查中提取的有噪综合症信息,以获得正确的编码逻辑信息。在这里,我们开发了一个基于变换器的循环神经网络,该网络学习解码表面代码(领先的量子误差纠正代码)。对于距离3和距离5表面代码,我们的解码器在来自Google Sycamore量子处理器的现实世界数据上的性能优于其他最先进的解码器。在距离高达11的情况下,解码器利用软读出和泄漏信息,在具有真实噪音(包括串话和泄漏)的模拟数据上保持了优势。在对大约的合成数据进行训练后,解码器通过在有限的实验样本预算上进行训练来适应更复杂但未知的潜在错误分布。我们的工作说明了机器学习通过直接从数据中学习来超越人类设计的算法的能力,强调了机器学习作为量子计算机解码的有力竞争者。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48460"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"尽管现代大型语言模型 (LLMs,但它们解决问题能力背后的机制仍然难以捉摸。在这项工作中,我们旨在更好地了解 LLM塑造下游泛化。我们的分析侧重于推理任务,其问题结构使我们能够区分记忆(从训练数据中精确复制推理步骤)和性能(最终解决方案的正确性)。我们发现,模型的泛化行为可以通过我们称为预记忆训练准确性的训练指标来有效地表征:模型样本在开始从训练集中复制确切的推理步骤之前对训练查询的准确性。在数据集级别,该指标能够可靠地预测测试准确性,在各种模型(Llama3 8、Gemma2 9B)、数据集(GSM8k、MATH)和训练配置中达到 R2 大约或超过 0.9。在每个示例级别上,该指标还指示单个模型预测是否对训练查询中的扰动具有鲁棒性。通过将模型的学习行为与其泛化联系起来,预记忆训练的准确性可以指导有针对性地改进训练策略。我们以数据管理为例,并表明与 i.i.d. 数据扩展相比,优先考虑预记忆准确性较低的示例会导致数据效率提高 1.5-2 倍,并且优于其他标准数据管理技术。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"HuggingFace&Github"}]},{"type":"paragraph","children":[{"text":"SeaGOAT"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48461"}]},{"type":"paragraph","children":[{"text":"SeaGOAT 是一个基于向量嵌入的本地代码搜索引擎,允许用户以语义化方式搜索代码库,使用 ChromaDB 向量数据库和本地嵌入引擎,无需依赖第三方 API。其主要功能包括支持关键词和正则表达式搜索、语义化搜索以及本地运行服务器,兼容多种编程语言如 Python、C/C++ 和 TypeScript/JavaScript。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"投融资"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Converge Bio获550万美元种子轮融资,打造生物技术大模型的“一站式商店”"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48462"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资金额及投资方: Converge Bio完成了550万美元种子轮融资,由TLV Partners领投。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: 公司计划用这笔资金扩充团队、吸引客户,同时发布一篇基于其平台的抗体设计科学论文,并训练专属基础模型。"}]},{"type":"paragraph","children":[{"text":"- 市场定位: Converge Bio致力于成为生物技术领域生成式AI的“一站式商店”,为制药和生物技术公司提供整合的LLM(大语言模型)解决方案。"}]},{"type":"paragraph","children":[{"text":"公司核心技术与服务:"}]},{"type":"paragraph","children":[{"text":"- 提供专为生物领域优化的LLM工具,包括数据增强(如抗体与抗原交互数据)、模型微调(基于公司特定目标抗原)及结果解释能力。"}]},{"type":"paragraph","children":[{"text":"- 专注于解决生物技术和制药公司在应用通用LLM时的复杂性,帮助模型从“研究工具”转变为“实际生产力工具”。"}]},{"type":"paragraph","children":[{"text":"- 计划开发自有基础模型,并进一步巩固在抗体和疫苗设计等领域的竞争力。"}]},{"type":"paragraph","children":[{"text":"行业机会与前景:"}]},{"type":"paragraph","children":[{"text":"- Converge Bio瞄准生物技术行业“过去五十年来最大的机遇”,填补企业在领域特定LLM应用上的空白。"}]},{"type":"paragraph","children":[{"text":"- 通过“客户信任的供应商”策略,公司希望在生物领域扩展更多使用场景,成为抗体设计、疫苗开发等多领域解决方案提供者。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://converge-bio.com/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Federato融资4000万美元,利用AI优化保险风险分析"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48463"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资金额及投资方: Federato在最新融资轮中筹集了4000万美元,由StepStone Group领投,原投资方Emergence Capital、Caffeinated Capital和Pear VC参投。截至目前,Federato共融资8000万美元。"}]},{"type":"paragraph","children":[{"text":"- 估值动态: 公司未披露具体估值,但CEO Will Ross表示,这是一轮显著上调的融资,相较去年估值(1.25亿美元)呈倍数增长。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: 融资将用于扩展其AI驱动的“风险操作”(RiskOps)平台,进一步优化保险业承保流程。"}]},{"type":"paragraph","children":[{"text":"公司核心技术与服务:"}]},{"type":"paragraph","children":[{"text":"- Federato通过其AI支持的承保平台,帮助保险公司更高效地管理风险,缩短报价时间(据称可提升90%的效率)。"}]},{"type":"paragraph","children":[{"text":"- 平台通过大数据分析和决策支持工具,协助保险公司在复杂数据环境下优化产品设计与风险定价。"}]},{"type":"paragraph","children":[{"text":"- 客户包括再保险平台Kettle以及大型保险公司Nationwide等,已在森林火灾风险建模领域取得成效。"}]},{"type":"paragraph","children":[{"text":"行业背景与未来展望:"}]},{"type":"paragraph","children":[{"text":"- 保险行业是AI创新的沃土,涉及巨量数据、风险评估和预测分析等领域。随着全球保险市场价值达到数万亿美元,承保环节成为AI深度应用的关键。"}]},{"type":"paragraph","children":[{"text":"- Federato与传统SaaS服务商(如Duck Creek)的竞争表明,保险科技的市场潜力巨大,新技术将重塑行业格局。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://www.federato.ai/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"Odoo融资5.27亿美元,估值提升至52.6亿美元"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48464"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资规模及形式: 比利时开源ERP平台Odoo通过二级市场融资5.27亿美元,此轮融资由Alphabet旗下的CapitalG和红杉资本领投,其他投资者包括Alkeon、AVP、BlackRock、HarbourVest Partners和Mubadala Investment Company。"}]},{"type":"paragraph","children":[{"text":"- 估值动态: 本轮融资使Odoo估值从之前的33.7亿美元上升至52.6亿美元,显示出市场对其持续增长的信心。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: Odoo计划将这笔资金用于加速研发及产品开发,特别是在人工智能技术如何颠覆ERP市场方面投入更多。"}]},{"type":"paragraph","children":[{"text":"公司业务发展:"}]},{"type":"paragraph","children":[{"text":"- Odoo以开源ERP软件为核心,通过免费访问模式吸引大量用户,目前用户数已超过500万,每年增长率达40%。"}]},{"type":"paragraph","children":[{"text":"- 公司收入20%来自收费产品“企业版Odoo”,预计未来12个月账单金额将达6.85亿美元,并计划在2027年突破10.5亿美元。"}]},{"type":"paragraph","children":[{"text":"- Odoo的应用生态系统涵盖80多个官方应用(如财务管理、CRM、制造业支持等)以及50,000多个社区开发应用,形成了一个强大的开发者与合作伙伴网络。"}]},{"type":"paragraph","children":[{"text":"行业趋势与战略规划:"}]},{"type":"paragraph","children":[{"text":"- 传统ERP系统正面临AI驱动创新的挑战,而Odoo的开源模式和灵活性为中小企业提供了成本效益高且可扩展的解决方案。"}]},{"type":"paragraph","children":[{"text":"- 尽管Odoo具备高估值与收入,但创始人Fabien Pinckaers表示目前没有计划让公司上市。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://www.odoo.com/zh_CN"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"H完成2.2亿美元融资并推出首款产品Runner H,专注“代理式”AI应用"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48465"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资金额及背景: 总部位于巴黎的AI初创公司H完成2.2亿美元种子轮融资,其中包括股权融资和可转换债务,并已额外筹集1000万美元。投资方包括个人投资者(如Eric Schmidt、Yuri Milner、Xavier Niel)、风投公司(如Accel、Creandum)以及战略投资者(如亚马逊、三星和UiPath)。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: 融资将用于开发H的自研紧凑型大语言模型(LLM)及相关产品,支持AI第二时代的技术扩展,该领域被认为与第一代AI一样需要巨额资金投入。"}]},{"type":"paragraph","children":[{"text":"- 未来规划: 公司正在筹备新一轮A轮融资,以支持更大规模的产品研发和市场推广。"}]},{"type":"paragraph","children":[{"text":"核心产品Runner H:"}]},{"type":"paragraph","children":[{"text":"- 功能定位: Runner H是一款面向“代理式”(agentic)AI的工具,旨在帮助企业和开发者在质量保证、流程自动化(RPA)和业务流程外包(BPO)领域实现更高效率。"}]},{"type":"paragraph","children":[{"text":"- 技术特点: 基于2亿参数的自研LLM,与传统大模型相比,成本更低且运行更高效,同时性能优于Mistral和Meta等对手模型。"}]},{"type":"paragraph","children":[{"text":"- 产品模式: 提供可直接使用的预构建代理服务,并允许开发者通过H-Studio创建和测试自定义代理。"}]},{"type":"paragraph","children":[{"text":"行业应用与前景:"}]},{"type":"paragraph","children":[{"text":"- 应用领域: 包括跨平台自动化任务执行(如表单处理和网站测试)、复杂系统质量检测及优化、企业数据整合等。"}]},{"type":"paragraph","children":[{"text":"- 市场优势: 通过紧凑型模型和定制化服务,H专注为企业客户提供高效且灵活的AI解决方案,目标引领“代理式”AI时代的发展。"}]},{"type":"paragraph","children":[{"text":"公司官网:https://www.hcompany.ai/"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"New Lantern获1900万美元A轮融资,用AI优化放射科医生工作流程"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48466"}]},{"type":"paragraph","children":[{"text":"投融资亮点:"}]},{"type":"paragraph","children":[{"text":"- 融资金额及投资方: 新兴AI医疗初创公司New Lantern完成1900万美元A轮融资,由Benchmark领投。"}]},{"type":"paragraph","children":[{"text":"- 资金用途: 融资将用于进一步开发和推广其基于AI的综合平台,通过自动化优化放射科医生的工作流程,同时将数据迁移到云端以实现现代化管理。"}]},{"type":"paragraph","children":[{"text":"公司核心技术与服务:"}]},{"type":"paragraph","children":[{"text":"- 功能定位: New Lantern专注于通过AI自动化繁琐任务(如3D扫描测量和报告撰写),提高放射科医生的效率,使其能够在相同时间内完成两倍的病例。"}]},{"type":"paragraph","children":[{"text":"- 整合平台: 公司将传统的PACS(医学影像存档和通信系统)和报告软件功能集成到一个平台中,简化医生在多个工具之间切换的流程。"}]},{"type":"paragraph","children":[{"text":"- 技术优势: 相较于直接替代医生的影像分析AI,New Lantern采用辅助工具模式,帮助医生专注于诊断工作。"}]},{"type":"paragraph","children":[{"text":"行业背景与竞争格局:"}]},{"type":"paragraph","children":[{"text":"- 市场现状: 尽管许多人预测AI会取代放射科医生,但目前该行业仍存在专业人员短缺的问题。"}]},{"type":"paragraph","children":[{"text":"- 主要竞争对手: PACS市场由GE Healthcare和飞利浦主导,报告软件领域由微软旗下的Nuance占据优势,而Rad AI等初创公司也在快速发展。"}]},{"type":"paragraph","children":[{"text":"- 行业变革目标: New Lantern希望通过其产品引领自PACS发明以来的最大行业升级。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"学习","underline":true,"bold":true}]},{"type":"paragraph","children":[{"text":"","underline":true,"bold":true}]},{"type":"paragraph","children":[{"text":"从 GPU 到 SambaNova,spatial computing 的数据流解决方案","underline":true,"bold":true}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48467"}]},{"type":"paragraph","children":[{"text":"空间计算(Spatial Computing)近年来受到广泛关注,特别是在数据流加速器(Dataflow Accelerator)的发展中展现出显著潜力。相比传统控制流(Control Flow)架构,空间计算更强调数据流的依赖关系,通过图结构优化任务调度与执行。"}]},{"type":"paragraph","children":[{"text":"传统处理器以控制流为核心,通过宏观顺序执行与局部乱序优化结合,例如 CPU 的预约站、GPU 的 Warp Scheduler。这种架构依赖同步点来消除随机因素,确保宏观执行顺序。而数据流架构则不同,它强调在编译阶段解析任务依赖,将更多运行时复杂性转移至编译器。例如,数据流加速器使用图结构表示计算任务,减少同步开销,提高异步性能。"}]},{"type":"paragraph","children":[{"text":"数据流加速器的内存体系结构也发生了变化。传统架构依赖分层内存(如 DRAM→Cache→寄存器),而新型数据流架构采用更扁平化的设计,例如 SambaNova 和 Tenstorrent 的 DRAM-SRAM 结构,这种设计减少了访问延迟,提升了数据本地性。此外,算子融合(Fused Operations)技术通过扩展 SRAM 容量,优化底层数据通路,进一步降低高层内存访问的能耗。"}]},{"type":"paragraph","children":[{"text":"硬件设计方面,Tenstorrent 的 Tensix Core 和 SambaNova 的 Tile Mesh 展现了模块化和灵活性。Tensix Core 结合了 RISC-V 核心、矩阵计算单元和片上 SRAM,类似 GPU 的流处理器(SM),但更关注计算与路由逻辑的分离。SambaNova 则通过阶段性执行策略,提升计算图的复杂性与性能。"}]},{"type":"paragraph","children":[{"text":"尽管数据流架构优势明显,但也面临挑战。SRAM 的扩展带来芯片面积与能耗的压力,增加了控制逻辑的复杂性。同时,编译器需要支持更高级的图优化策略,如分区与异步调度,这对开发者提出了更高要求。"}]},{"type":"paragraph","children":[{"text":"总体来看,空间计算通过数据流优化和硬件设计创新,为处理复杂计算图任务提供了高效解决方案。未来发展将集中在更智能的编译器优化、更高效的内存设计及分布式架构上,为 AI 和图计算领域提供强有力的技术支持。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"FlashAttention终于高性能地支持多样的attention mask!"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48468"}]},{"type":"paragraph","children":[{"text":"FlashAttention(FA)在优化长序列注意力机制性能方面已有显著成果,但其仅支持有限几种mask类型(如causal mask、bidirectional mask等),限制了复杂任务的高效训练。针对这一问题,PaddlePaddle提出了FLASHMASK,通过稀疏化attention mask显著提升了性能,同时保持对loss和精度无损。"}]},{"type":"paragraph","children":[{"text":"FLASHMASK的核心创新在于引入了一种列式稀疏表示方法,利用4个向量(LTS, LTE, UTS, UTE)分别表示每个token在左下角与右上角区域的mask情况。相比传统的稠密mask矩阵,这种方法将访存复杂度从O(N²)降低至O(N),极大减少了内存占用与计算量。具体来说,对于每个token,稀疏表示方法通过记录被mask掉的区间范围代替完整的二维矩阵存储。进一步优化中,FLASHMASK通过tile策略对稀疏向量进行分块,并计算每个block的稀疏特性(如LTSmin, LTSmax等),从而实现block级别的稀疏mask判断。"}]},{"type":"paragraph","children":[{"text":"在计算过程中,FLASHMASK设计了规则区分block类型,包括完全mask、部分mask和无mask三种情况。完全mask的block直接跳过计算,无mask的block直接进行softmax,而部分mask的block则按需应用mask。这种机制有效减少了不必要的计算,提高了整体效率。此外,FLASHMASK通过8个向量描述block级别的稀疏mask,大小为seqlen/blocksize,确保访存复杂度线性增长。"}]},{"type":"paragraph","children":[{"text":"实验结果表明,FLASHMASK在训练吞吐性能上显著优于现有方法,同时对loss收敛无影响,精度完全保留。在kernel性能测试中,FLASHMASK的表现远超PyTorch Compiler-based FlexAttention。通过稀疏化attention mask,FLASHMASK成功扩展了FA的适用范围,使其能够高效支持复杂下游任务,并优化了长上下文训练场景的性能。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"图像数据标注指南"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48469"}]},{"type":"paragraph","children":[{"text":"二维边界框标注:边界框需涵盖目标的全部可见部分,包括遮挡和反射情况。若目标因遮挡或模糊难以辨别类别,则不标注;对象小于10像素或可见部分低于20%也不标注。此外,边界框应紧贴图像边缘,不因突出物(如天线)而超出规则范围,但实例分割需单独考虑这些情况。"}]},{"type":"paragraph","children":[{"text":"实例分割:使用多边形标注目标的可见部分,边界误差不超过2像素。被细小遮挡物(如细栅栏)遮挡时,外部对象可包含遮挡部分;对于小于15像素的孔洞,无需单独标注。遮挡或反射部分通常需根据经验合理推断并标注,且实例标注不允许重叠。"}]},{"type":"paragraph","children":[{"text":"平面语义分割:标注应紧贴感兴趣区域边界,仅标记长度和宽度超过20像素的区域。遮挡部分(如被树枝或柱子遮挡)应标注可见区域,但小型覆盖物(如薄雪、泥土)需视为整体标注。水坑始终包括在标注中,但反射不算。"}]},{"type":"paragraph","children":[{"text":"车辆与行人类的特殊规则:车辆需包括侧视镜等突出部分,吊臂例外。夜间标注以清晰度为前提,未清晰可见的部分不标注。行人则需身体部分明确可见或存在运动特征。"}]},{"type":"paragraph","children":[{"text":"静态对象与特殊标注:如自行车架,应将其中的自行车作为整体标注,避免对个体自行车的误判。标注前需统一分类标准,避免忽略标签导致问题。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48470"}]},{"type":"paragraph","children":[{"text":"Qwen2是阿里云开源的大型语言模型系列,具有强大的代码生成、数学推理、指令遵循及多语言理解能力。DistilQwen2是其通过知识蒸馏技术优化的小型版本,在资源受限的环境下展现了更高的性能和效率,适用于移动设备与边缘计算场景。基于阿里云PAI平台,用户可快速实现DistilQwen2的训练、评测、部署和压缩。"}]},{"type":"paragraph","children":[{"text":"PAI-QuickStart工具支持用户零代码完成从模型开发到部署的全流程,预置训练与推理资源需求,包括1.5B和7B版本的DistilQwen2模型训练与部署所需的显卡配置。训练过程中,支持使用SFT(监督微调)和DPO(偏好优化)算法,分别通过标准格式数据进行指令优化和不良输出控制。训练完成后,可直接部署到PAI-EAS推理服务平台,支持ChatLLM WebUI交互及OpenAI API兼容调用。"}]},{"type":"paragraph","children":[{"text":"模型评测方面,PAI支持自定义数据集及公开数据集的全面评估,提供BLEU、ROUGE等标准指标和裁判员模型辅助评测功能,同时支持领域分类的开源数据集如MMLU、GSM8K等。评测结果可用于优化模型性能并辅助精准场景适配。"}]},{"type":"paragraph","children":[{"text":"模型压缩通过量化技术显著减小模型规模,有效降低部署资源占用。PAI还支持在大模型蒸馏中扩展指令增强与优化功能,结合专精小模型与教师模型实现蒸馏全过程。"}]},{"type":"paragraph","children":[{"text":"DistilQwen2系列通过知识蒸馏技术保持性能优势的同时,极大提升了低资源环境下的适应性。阿里云PAI平台为用户提供全链路的技术支持,简化大模型开发流程,为开发者和企业客户提供了高效、便捷的解决方案。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"OpenRLHF学习笔记-loss篇"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48471"}]},{"type":"paragraph","children":[{"text":"SFT Loss"}]},{"type":"paragraph","children":[{"text":"1. GPTLMLoss:经典的语言模型损失函数,通过CrossEntropyLoss计算预测与标签之间的交叉熵损失,并通过IGNORE_INDEX实现对prompt部分的遮掩。"}]},{"type":"paragraph","children":[{"text":"2. KDLoss:知识蒸馏损失,使用教师模型的Logits分布作为软标签,优化学生模型的输出分布。代码实现基于KL散度,并忽略教师模型熵项,以交叉熵形式进行优化,适合蒸馏场景下的效率提升。"}]},{"type":"paragraph","children":[{"text":"DPO Loss"}]},{"type":"paragraph","children":[{"text":"1. DPOLoss:通过对比正例与负例的Logits差距,实现正向奖励与负向惩罚。支持两种扩展:"}]},{"type":"paragraph","children":[{"text":" - IPO:增加正则化项。"}]},{"type":"paragraph","children":[{"text":" - CDPO:加入标签平滑,避免模型过度自信,提升泛化能力。"}]},{"type":"paragraph","children":[{"text":"2. KTOLoss:用于非均匀采样的损失函数,不需要明确的偏好对(pair对),通过一批样本的平均KL值约束模型学习正负例。"}]},{"type":"paragraph","children":[{"text":"RLHF Loss"}]},{"type":"paragraph","children":[{"text":"1. PolicyLoss:基于PPO优化的策略损失函数,通过概率比值与优势函数,限制策略更新幅度以保证稳定性。"}]},{"type":"paragraph","children":[{"text":"2. ValueLoss:对价值函数的平方误差进行优化,并通过clip操作防止过大的参数更新,选择最大误差路径以稳定训练。"}]},{"type":"paragraph","children":[{"text":"3. PairWiseLoss:奖励模型的核心损失函数,通过LogSigmoid计算正负例之间的概率差异,支持可选的Margin项,调整训练动力。"}]},{"type":"paragraph","children":[{"text":"其他扩展"}]},{"type":"paragraph","children":[{"text":"1. PRMLoss:专为过程奖励模型设计的损失函数,结合特定标记符和标签分布,支持硬标签和软标签输入。特别适合多步推理场景。"}]},{"type":"paragraph","children":[{"text":"2. LogExpLoss:通过Log(1+Exp)形式替代传统的LogSigmoid,实现等价优化,简化计算复杂度。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":"机器人操作VLA模型论文整理"}]},{"type":"paragraph","children":[{"text":"https://news.miracleplus.com/share_link/48472"}]},{"type":"paragraph","children":[{"text":"本文整理了目前为止比较重要的一些操作VLA模型。主要按照输入输出、机器人状态Encoder、图像Encoder、Language Encoder、VL Interaction、Decoder/Policy Head、模型大小、训练数据等类别进行整理。"}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]},{"type":"paragraph","children":[{"text":""}]}]
2024-11-21 18:48:33 +0800
2024-11-22 18:03:30 +0800
- 有人在网上发布文本供大型语言模型(LLMs)消费。 - 这是一个有趣的趋势,作者认为这可以帮助LLM提供商更好地为用户服务。
在最近的一条推文中,人工智能专家Andrew Ng强调了一个新兴趋势,即专门为大型语言模型(LLMs)而非人类消费而创建内容。这一发展令人关注,因为它表明内容定制的方式正在转变,以提高人工智能的能力,潜在地改变了我们与机器学习系统互动和训练的方式。Andrew Ng对这一趋势的认可凸显了其在人工智能社区中的重要性,尤其考虑到他在该领域的影响力。如果您对人类生成内容与人工智能发展之间不断演变的关系感兴趣,这条推文可能会提供一个发人深省的视角。
2024-11-22 17:57:46 +0800
## Twitter: **DeepSeek AI的新推理模型** : **DeepSeek AI** 推出了**DeepSeek-R1-Lite-Preview** ,这是一种用于长篇推理的新推理模型,其性能与**OpenAI的o1** 模型相匹配,并可在**DeepSeek Chat** 中进行测试。该模型在AIME和MATH基准测试中表现出**o1级别的性能** ,并计划发布开源模型和API,详情见[公告](https://news.miracleplus.com/share_link/48345)。 **OpenAI的o1模型表现** : **OpenAI o1模型** 在**韩国SAT考试** 中取得了显著成绩,仅犯一个错误,排名在前4%的学生中,展示了其高准确性和有效的问题解决能力。这一表现被[推文](https://news.miracleplus.com/share_link/48326)强调,讨论了该模型在一个具有挑战性的新设计测试集中的成功。 **AlphaQubit增强量子计算错误检测** : **AlphaQubit** 是由**GoogleDeepMind** 与**GoogleQuantumAI** 合作开发的AI驱动系统,显著提高了量子计算机错误识别的准确性。这一进展在[Nature](https://news.miracleplus.com/share_link/48399)的出版物中详细介绍,标志着在追求可靠量子计算方面的进步。 **程序性知识驱动LLM推理** : **LauraRuis** 的研究探讨了**大型语言模型(LLMs)** 如何学习推理,发现预训练数据中的程序性知识至关重要,而不仅仅是从参数知识中检索答案。该研究在[预印本](https://news.miracleplus.com/share_link/48400)中提供了对LLM推理能力机制的见解。 **Anthropic关于AI模型评估的新研究** : Anthropic通过引入**误差条** 来考虑统计不确定性,提出了一种新的AI模型评估方法,这一特性在传统评估中常常缺失。此进展在他们的[博客文章](https://news.miracleplus.com/share_link/48401)中详细介绍,强调了统计严谨性在AI评估中的重要性。 **Neuralink在加拿大的临床试验批准** : Neuralink已获得加拿大卫生部的批准,在该国启动其首个临床试验,目标是**因ALS或SCI导致的四肢瘫痪** 患者。现已开放招募,感兴趣的参与者可以通过[患者注册](https://news.miracleplus.com/share_link/48402)了解更多信息并申请。 **HuggingFace与Hyperbolic Labs的合作** : Hyperbolic Labs推出了一键部署功能到**HuggingFace Spaces** ,允许用户使用其Hyperbolic API密钥轻松部署应用程序。此合作旨在增强开源AI开发,详情见[Yuchenj_UW的推文](https://news.miracleplus.com/share_link/48403)。 **AI驱动的游戏开发课程由Andrew Ng推出** : Andrew Ng推出了一门关于使用**大型语言模型(LLMs)** 构建互动游戏的新课程,重点是分层内容生成和AI驱动的游戏机制。该课程与Together AI和Latitude Games合作开发,可在[此处](https://news.miracleplus.com/share_link/48404)报名,提供了关于使用AI创建文字游戏的见解。 **NNetnav用于Web代理的创新方法** : NNetnav引入了一种通过探索生成复杂演示以训练Web代理的新方法,消除了对昂贵人工监督的需求。这一方法在[ShikharMurty的推文](https://news.miracleplus.com/share_link/48405)中详细介绍,展示了其在构建高效浏览器代理方面的潜力。 **IKEA Manuals at Work: 多模态数据集** : **IKEA Manuals at Work** 项目引入了首个具有全面**4D基础** 的多模态数据集,用于互联网视频中的装配过程。该数据集跟踪家具部件的**6-DoF姿态** 和分割掩码,从说明手册到3D模型提供详细的时间对齐,详见[NeurIPS D&B 2024论文](https://news.miracleplus.com/share_link/48406)。 ## HackerNews: **为什么 Rosetta 2 快?** [链接](https://news.miracleplus.com/share_link/48310): Rosetta 2 因其在 ARM 上模拟 x86 的卓越速度而闻名,这归功于其独特的技术和硬件支持。 - **总存储排序 (TSO):** 对于 x86-on-ARM 性能至关重要,硬件中的 TSO 支持使 Rosetta 2 能够避免性能损耗的内存屏障,这与其他模拟器不同。 - **高通的方法:** 高通为 Windows ARM 机器设计的芯片缺乏 TSO,影响了 x86 模拟性能。这与苹果的实现形成对比,苹果从 TSO 中受益。 - **模拟性能:** Rosetta 2 的性能与原生 x86 芯片相当,得益于苹果的大型 L1I/L1D 缓存,这对模拟工作负载非常有利。 - **其他 ARM 芯片中的 TSO:** Nvidia Denver/Carmel 和 Fujitsu A64fx 也实现了 TSO,这表明它并非苹果独有,但在 ARM 架构中并不标准。 **PyTorch | uv** [链接](https://news.miracleplus.com/share_link/48316): 本文讨论了使用 uv 工具管理 PyTorch 项目和依赖项,强调了其在包解析和安装方面的速度和效率。讨论要点: - **自定义 SAT 求解器:** uv 使用自定义 SAT 求解器进行包解析,与其他工具如 Conda 相比,特别是在处理复杂的依赖约束时有显著改进。 - **性能优势:** uv 以其速度著称,特别是在安装 PyTorch 时,基准测试显示与 pip 相比有显著的时间节省。 - **依赖管理:** uv 通过允许并行安装和轻松再生需求文件简化了依赖管理,这有助于减少构建时间并有效管理生态系统。 - **兼容性和灵活性:** uv 支持各种 Python 版本和环境,并尊重项目文件如 pyproject.toml 中的配置,使其适应不同的设置,包括 CPU 和 CUDA 构建。 - **采用和过渡:** 随着 PyTorch 结束对 Conda 的支持,uv 被视为一个可行的替代方案,提供的功能可以在大多数情况下替代工具如 pipx 和 pyenv。 ## Discord: **Yi大模型可用性** :`01-ai/yi-large`模型现已通过[Fireworks](https://openrouter.ai/01-ai/yi-large)提供,优化用于知识搜索和多语言聊天机器人,支持西班牙语、中文和法语。 **sqlite-vec v0.1.6发布** :新版本支持元数据列、分区键和辅助列,提升查询性能,详情见[公告博客](https://news.miracleplus.com/share_link/48407)和[发布说明](https://github.com/asg017/sqlite-vec/releases/tag/v0.1.6)。 **Qwen模型上下文窗口** :Qwen 2.5 Coder模型具有32k上下文窗口,可扩展至128k,尽管vLLM的静态配置可能影响性能。 **AI视频工具比较** :Mochi在文本到视频能力上表现优异,而CogVideoX提供更多控制、更快处理和更低VRAM使用,支持多种视频尺寸和功能,如img2vid和轨迹控制,详见[CogVideoX on Hugging Face](https://huggingface.co/THUDM/CogVideoX1.5-5B-I2V)。 **NoPoSplat用于3D重建** :[NoPoSplat](https://noposplat.github.io/)使用3D高斯重建稀疏无姿态图像的3D场景,在新视图合成和姿态估计上超越现有方法。 **Hermes 3模型能力** :Hermes 3是一个解锁、无审查且高度可控的模型,具备高级长时上下文保留和复杂角色扮演能力,更多信息见[技术报告](https://nousresearch.com/freedom-at-the-frontier-hermes-3/)。 **GPGPU演变与影响** :G200的性能约为CPU的30倍,因NVIDIA的定价和Linux驱动支持而被超级计算机采用。 **4D高斯喷溅** :[4D Gaussian Splatting](https://github.com/hustvl/4DGaussians)支持实时动态场景渲染,快速收敛并更新数据集如HyperNeRF和D-NeRF。 **SANA模型与加速** :SANA模型在DC-AE架构上声称在H100 GPU上实现19.1倍推理加速和17.9倍训练加速。 **OpenRouter API和SDK** :OpenRouter提供与OpenAI兼容的完成API,可通过OpenAI SDK访问,示例代码提供了集成指南。 **AI意识与伦理考量** :@metaldrgn正在撰写一篇论文,提出评估AI意识的框架,涉及意识水平和基于这些水平的伦理考量。 **DeepSeek 2.5模型要求** :完整的DeepSeek 2.5模型体积庞大,需要多个消费级GPU,建议资源有限者使用DeepSeek 2.5 Lite。 **AI视频生成在GPU上的应用** :CogVideoX需要9GB VRAM,可通过量化优化,16GB GPU如4070ti可在5-10分钟内生成6秒视频。 **OpenScholar** :一个检索增强的语言模型,拥有超过4500万开放获取论文的数据存储,详见[OpenScholar](https://x.com/akariasai/status/1858876162467881015)。 **nGPT** :NVIDIA的新Transformer架构nGPT通过基于超球体的方法实现4-20倍更快的训练和改进的稳定性,详见[nGPT](https://x.com/rohanpaul_ai/status/1847277918243754156)。 **ComfyUI功能与安装** :ComfyUI是一个模块化扩散模型GUI,支持SD1.x、SD2.x、SDXL、Stable Video Diffusion,安装说明见[GitHub](https://news.miracleplus.com/share_link/12199)。 **长上下文训练配置** :@nanobitz建议为LLaMA 3.1或Qwen 2.5设置`sequence_len`进行长上下文训练,参考[LLaMA 3.1配置](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct/blob/main/config.json#L25)。 **AI模型输出与美学问题** :用户指出Flux和Pixelwave v3模型在提示遵从性上表现良好,但常产生不自然或塑料感的美学效果,推荐使用Loras如8step Lora以增强真实感。 **API密钥用于模型访问** :通过[Openrouter](https://openrouter.ai/chat)使用API密钥可同时向多个模型发送相同提示,测试不同温度下的提示以优化模型性能。 **学习率调度在神经网络中的应用** :@aliissa和@teknium强调在学习率函数中使用线性预热和余弦衰减,具体示例使用最大学习率6e-4,预热期715步,余弦衰减用于剩余部分。 ## HuggingFace & Github: ### 语言模型与信息提取 - [NuExtract-1.5-smol](https://news.miracleplus.com/share_link/48327) 是Hugging Face的SmolLM2-1.7B的微调版本,专用于**结构化信息提取** 。该模型支持多种语言,且体积不到3.8B参数模型的一半,适用于**空间和效率受限** 的环境。 - [Mistral 7B](https://news.miracleplus.com/share_link/48327) 是一个70亿参数的语言模型,采用**分组查询注意力(GQA)** 和**滑动窗口注意力(SWA)** ,在推理速度和成本方面表现优异。 ### 场景文本识别 - [MGP-STR](https://news.miracleplus.com/share_link/48383) 基于MJSynth和SynthText训练,是一种纯视觉的**光学字符识别(OCR)** 模型。它引入了Vision Transformer(ViT)和特殊设计的A^3模块来提高场景文本识别的精度。 - MGP-STR在[ECCV 2022](https://news.miracleplus.com/share_link/48383)的论文中首次引入,展示了其通过多粒度预测来实现更高效的文本识别。 ### 图像处理与适配器 - [SD3.5-Large模型的IP-Adapter](https://news.miracleplus.com/share_link/48338) 由InstantX团队开发,允许图像如同文本一样被处理,扩展**创意应用** 的可能性。适配器在模型的38个块中引入新层,利用**google/siglip-so400m-patch14-384** 编码器实现高质量图像处理。 ### 编码与自动化工具 - [Qwen2.5-Coder](https://news.miracleplus.com/share_link/48336) 是由阿里云Qwen团队开发的开源代码模型,支持**92种编程语言** ,适用于广泛的编码任务。其**可伸缩性** 和**多功能性** 为提高编码效率提供了解决方案。 - [Automatisch](https://news.miracleplus.com/share_link/48337) 是一个开源的Zapier替代品,专注于工作流自动化,允许用户在**私人服务器** 上托管数据,适合需要严格数据保护的企业。该平台没有供应商锁定,支持社区参与开发。 ## Reddit: **DeepSeek-R1-Lite 预览版正式发布** [链接](https://news.miracleplus.com/share_link/48386): DeepSeek 推出了 R1 系列推理模型,通过强化学习展示了先进的推理能力,并具有透明的思维过程。 - **模型限制和未来计划:** 当前版本仅支持网页使用,缺乏 API 支持。基础模型较小,限制了其进行长推理链的潜力。未来计划包括开源官方 DeepSeek-R1 模型并发布技术报告。 - **性能和透明性:** 在数学和编程等复杂任务中实现了与 o1-preview 相当的性能,具有完全公开的思维过程,有助于训练开源模型。 - **社区反应:** 用户对模型的开源发布表示兴奋和期待,指出其对行业的潜在影响以及与其他模型相比的发展速度。 - **技术观察:** 模型的推理链与 o1 类似,强化学习使其能够有效地回溯。它在简单任务上过度思考,但在复杂推理中表现出色,提供完整的思维步骤。
2024-11-21 08:07:26 +0800
- 可以使用llms.txt Generator将任何网站的内容合并成一个文本文件 - 使用@firecrawl_dev爬取整个网站,并使用gpt-4o-mini提取数据 - 可以在https://t.co/YvULzHPApm上创建自己的llms.txt文件
Eric Ciarla宣布了一款可能改变游戏规则的新工具:llms.txt生成器。这一创新工具允许用户将整个网站转换为单个文本文件,简化了向LLM提供数据的过程。这个生成器的独特之处在于利用@firecrawl_dev进行高效的网络爬取,并集成了gpt-4o-mini进行精确的数据提取。这可能会显著简化LLM的训练数据准备过程,潜在地提高模型训练的效率。对于任何从事机器学习、自然语言处理或数据科学的人来说,这个工具代表了我们收集和准备LLM数据方式的显著进步。您可以访问提供的网站,探索这个新工具,并创建自己的llms.txt文件。
2024-11-22 17:57:32 +0800
2024-11-22 17:33:56 +0800