Skip to the content.

从 46 条内容中筛选出 20 条重要资讯。


  1. 三款 AI 模型通过 500 天创业模拟测试 - 仅高于初始资本 ⭐️ 7.0/10
  2. 中国网络安全公司 360 开发 AI 工具与 Anthropic 的 Mythos 竞争 ⭐️ 7.0/10
  3. VibeThinker-3B 表明推理比事实知识更易压缩 ⭐️ 7.0/10
  4. DeepSeek 发布 DSpark,一个推测解码框架,在对比 MTP-1 时使 DeepSeek-V4 每用户生成速度提升 60–85% ⭐️ 7.0/10
  5. 硅谷 AI 高管支持特朗普后现在要求监管 ⭐️ 7.0/10
  6. 俄黑客利用钓鱼窃取 Signal 备份密钥,FBI 发出警告 ⭐️ 7.0/10
  7. 行业领袖质疑马斯克轨道数据中心愿景 ⭐️ 6.0/10
  8. 苹果 Vision Pro 高管加入 OpenAI 硬件团队 ⭐️ 6.0/10
  9. 欧几里得望远镜发布银河系中心最详细图像 ⭐️ 6.0/10
  10. 安全周报:LastPass 数据泄露、Bolton 认罪、微软打击恶意软件 ⭐️ 6.0/10
  11. 摩根大通警示 AI 市场集中度风险 ⭐️ 6.0/10
  12. 最有可能自动化你工作的公司,现在正资助一项价值 10 亿美元的再培训计划 ⭐️ 6.0/10
  13. 在 Colab 中构建稳定的 Fable 5 追踪工作流与工具调用解析 ⭐️ 6.0/10
  14. Liquid AI 推出 LFM2.5-230M,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 实现设备端推理 ⭐️ 6.0/10
  15. Instagram 希望将算法自定义作为应用的核心部分,而非隐藏的选项 ⭐️ 6.0/10
  16. Salesforce 员工困惑公司为何在 Slack 内推广竞争对手产品 ⭐️ 6.0/10
  17. 微软提拔安德鲁领导 Copilot 并推出新代理式 Autopilot 功能 ⭐️ 6.0/10
  18. 云 flare 裁员 1100 人同时工程团队增长 45% ⭐️ 6.0/10
  19. 东京一家初创企业和北京一家安全公司推出 AI 工具填补 Anthropic 出口禁令留下的空白 ⭐️ 6.0/10
  20. NASA 测试用于深空任务的在轨加油装置 ⭐️ 6.0/10

三款 AI 模型通过 500 天创业模拟测试 - 仅高于初始资本 ⭐️ 7.0/10

普林斯顿大学研究人员创建了 CEO-Bench,一个模拟创业环境,AI 代理需要经营软件公司长达 500 天。仅有三款 AI 模型成功将盈利能力维持在初始资本之上,而没有任何 AI 参与的简单规则启发式方法的表现甚至优于大多数复杂模型。 这项基准测试暴露了当前 AI 模型在长期战略规划和不确定性环境下商业决策方面的关键缺陷。结果表明,即使是先进的语言模型在面对需要持续适应的真实开放式问题时,也难以保持稳定的表现水平。 模拟环境要求代理同时处理定价策略、营销活动、预算平衡和战略规划。规则启发式方法击败大多数 AI 模型这一发现突显了将通用智能转化为特定领域专业知识的难度。

rss · The Decoder · 6月28日 10:16

背景: CEO-Bench 是一个新颖的基准测试,评估 AI 代理在真实商业环境中进行长期规划和决策的能力。与传统测试孤立能力的基准不同,这种方法模拟了随时间推移决策结果的累积效应,类似于初创企业如何面对每个战略选择带来的连锁影响。

参考链接

标签: #AI Agents, #Startup Simulation, #Princeton Research, #AI Evaluation


中国网络安全公司 360 开发 AI 工具与 Anthropic 的 Mythos 竞争 ⭐️ 7.0/10

中国网络安全公司 360 开发了两款 AI 安全工具来与 Anthropic 的 Mythos 竞争,其中一款已识别出 3,432 个漏洞。创始人周鸿祎承认,在性能方面,中国 AI 模型目前落后西方约 20-30%。 这一发展表明,中国将 AI 安全视为与核威慑相当的国家战略优先事项。中西方 AI 安全工具的竞争将影响全球组织如何防御日益复杂的网络威胁。 这些工具在实际测试场景中成功识别出超过 3,400 个漏洞,证明了其实用性。周鸿祎对中国与西方 AI 模型性能差距的坦诚承认增加了这一竞争声明的可信度。

rss · The Decoder · 6月28日 09:30

背景: Anthropic 的 Mythos 是一款未发布的 AI 模型,网络安全专家认为其危险程度足以限制公共访问。威慑理论最初用于核战略,通过报复承诺和相互确保毁灭来防止冲突,现在被用来解释国家如何在网络空间等现代领域预防冲突。

参考链接

标签: #ai-security, #cybersecurity, #geopolitics, #artificial-intelligence, #vulnerability-detection


VibeThinker-3B 表明推理比事实知识更易压缩 ⭐️ 7.0/10

新浪微博发布了 VibeThinker-3B,这是一个拥有 30 亿参数的模型,通过多阶段后训练技术,在数学和编码基准测试上能够匹敌像 DeepSeek V3.2 和 Kimi K2.5 这样大得多的模型。 这项研究支持了逻辑推理可以高效压缩到小模型中,而广泛的世界知识需要更多容量的假设,为参数高效的 AI 开发提供了见解。 该模型实现了与大三倍(达 333 倍)更大模型相当的性能,证明了多阶段后训练方法对于特定推理任务比原始参数数量更为关键。

rss · The Decoder · 6月28日 07:44

背景: 大型语言模型通常经历多个训练阶段,包括监督微调(SFT)和基于人类反馈的强化学习。这些后训练技术塑造了模型在初始大规模文本语料库预训练之后获取知识和推理能力的方式。

参考链接

标签: #AI/ML, #model-architecture, #parameter-efficiency, #reasoning-capabilities


DeepSeek 发布 DSpark,一个推测解码框架,在对比 MTP-1 时使 DeepSeek-V4 每用户生成速度提升 60–85% ⭐️ 7.0/10

DeepSeek 发布了 DSpark,这是一个开源的推测解码框架。它通过专门的草稿模块架构和自适应验证机制,实现了显著的每用户生成加速效果。

rss · MarkTechPost · 6月27日 16:59

标签: #LLM inference, #speculative decoding, #deep learning optimization, #AI systems, #open source


硅谷 AI 高管支持特朗普后现在要求监管 ⭐️ 7.0/10

据 Politico 报道,曾为特朗普总统竞选提供资金支持的前沿 AI 公司高管们现在要求建立正式的人工智能监管框架。这些行业领袖表示,当前政府对于模型治理的非正式和临时方法比拜登时期的政策更为成问题。 这种转变凸显了人工智能治理的复杂政治经济学,揭示了行业利益相关者如何基于对监管有效性的感知而非意识形态一致性来战略性地定位自己。从反对监督到寻求正式规则的变化可能会显著影响未来的监管方法以及科技公司与政府机构之间的关系。 行业对结构化监管框架的偏好表明高管们优先考虑可预测的合规机制,以在日益受到审查的技术环境中提供确定性。前沿 AI 公司特别关注建立清晰的问责标准来指导先进模型负责任的发展。

rss · The Next Web AI · 6月27日 15:54

背景: 随着人工智能系统日益复杂且社会影响不断扩大,AI 治理已成为一项关键的政策挑战。这场辩论的核心在于平衡创新与负责任的发展,需要建立既能解决安全关切又能促进技术持续进步的框架。全球存在不同的方法,从全面的欧盟《人工智能法案》到较轻的 NIST 框架等模式。

参考链接

标签: #ai-regulation, #tech-policy, #silicon-valley, #political-economy


俄黑客利用钓鱼窃取 Signal 备份密钥,FBI 发出警告 ⭐️ 7.0/10

联邦调查局和网络安全与基础设施安全局发出新警告,称俄罗斯情报黑客正通过钓鱼活动窃取 Signal 用户的备份恢复密钥,使他们能够读取加密消息,即使受害者更换设备也是如此。这代表了对已在全球范围内入侵数千个账户的攻击的升级。 这种威胁通过针对用户必须自行保护的重建机制,削弱了 Signal 端到端加密的核心承诺。数百万注重隐私的用户面临通过这种复杂的社会工程学方法拦截消息的风险。 黑客冒充官方 Signal 支持人员,诱骗用户泄露其 64 位恢复密钥,从而获得加密消息档案的完全访问权限。该密钥始终保留在用户设备上,不会存储在任何服务器上。

rss · The Next Web AI · 6月27日 15:15

背景: Signal 采用端到端加密技术,确保消息在传输过程中始终处于加密状态,每个设备都存储一个恢复密钥以便在不同手机上重新访问。这种安全模型要求用户自行管理备份凭证,无需平台干预。

参考链接

标签: #cybersecurity, #signal-messaging, #state-sponsored-hacking, #security-alerts, #privacy


行业领袖质疑马斯克轨道数据中心愿景 ⭐️ 6.0/10

软银 CEO 及其他行业领袖对埃隆·马斯克的轨道数据中心网络可行性表示怀疑,挑战了这一太空基础设施项目周围的广泛炒作。 这些主要行业参与者的质疑表明,投机性大型项目面临的审查超出了硅谷的热情范围,可能会影响太空计算的投资决策和技术发展时间表。 轨道数据中心概念需要发射成本大幅降低至当前水平以下,同时必须克服资源管理和极端太空环境下的系统可靠性等技术挑战。

rss · TechCrunch AI · 6月27日 20:42

背景: 太空计算代表一项前沿技术,可能为全球数据处理降低延迟,但需要解决轨道上电力生成和温度调节等复杂工程问题。这一概念设想卫星搭载服务器基础设施来在数据源头附近处理数据,消除地面中继的延迟。

参考链接

标签: #space-infrastructure, #elon-musk, #cloud-computing, #tech-skepticism


苹果 Vision Pro 高管加入 OpenAI 硬件团队 ⭐️ 6.0/10

苹果 Vision Pro 高管 Paul Meade 离职,将加入 OpenAI 领导硬件开发工作。这是两家科技巨头间的重要人事变动。 这一高管变动凸显了空间计算、人工智能和先进硬件开发的行业融合趋势。表明追求下一代计算体验的公司间合作正在加强。 这一人事变动标志着两家公司硬件战略的重要转折,Meade 在 Vision Pro 的积累可能影响 OpenAI 的设备开发方向。

rss · TechCrunch AI · 6月27日 16:45

背景: 空间计算通过先进显示和交互技术创造沉浸式数字体验,苹果 Vision Pro 是这一领域的先驱。OpenAI 正从纯软件向硬件开发拓展,为跨行业创新开辟新路径。

参考链接

标签: #hardware, #ai-ml, #industry-news, #executive-moves


欧几里得望远镜发布银河系中心最详细图像 ⭐️ 6.0/10

欧几里得空间望远镜发布了银河系中心最详细的图像,捕捉了超过 6000 万颗恒星。 这张详细图像帮助天文学家更好地理解银河系中心的结构和密度,为更广泛的宇宙学研究做出贡献。 该图像展示了恒星在极小区域内的高度密集分布,体现了望远镜卓越的光学性能和成像能力。

rss · WIRED · 6月28日 09:30

背景: 欧几里得是欧洲空间局主导的宇宙测绘项目,旨在观测数十亿个星系并深入研究暗能量与暗物质的本质。该望远镜将通过观测距离达 100 亿光年的区域,绘制宇宙大尺度结构的详细地图。

参考链接

标签: #astronomy, #space-science, #euclid-telescope, #galactic-center, #science-news


安全周报:LastPass 数据泄露、Bolton 认罪、微软打击恶意软件 ⭐️ 6.0/10

本周安全新闻汇总涵盖了 LastPass 数据泄露的持续争议、前国家安全顾问 John Bolton 在机密材料案件中的认罪,以及微软针对恶意软件的打击行动。 安全专业人士和用户需要关注这些事件,因为它们揭示了密码管理系统的持续漏洞、涉及机密信息处理的法律挑战,以及凭证窃取技术的不断演变。 汇总强调了微软在瓦解恶意软件网络中的积极作用,以及 LastPass 用户反复遭遇的安全问题,同时指出 Bolton 的法律案件涉及机密材料处理不当。

rss · WIRED · 6月27日 10:30

背景: 恶意软件是一种扫描计算机以获取个人身份信息如登录凭证和金融数据的恶意程序,然后将这些被盗信息发送给攻击者,他们经常在暗网市场出售这些数据。这类威胁是针对个人和组织最常见的网络犯罪形式之一。

参考链接

标签: #cybersecurity, #data-breaches, #threat-intelligence, #security-news


摩根大通警示 AI 市场集中度风险 ⭐️ 6.0/10

摩根大通指出 AI 行业存在多重集中度风险,仅 42 家标普 500 公司贡献了 65 至 80%的总利润。该银行强调半导体市场模式类似历史泡沫形成,且杠杆芯片 ETF 自 2024 年初以来影响力增长五倍。 该分析对投资者和市场参与者具有重要意义,揭示了 AI 生态系统利润分布的潜在脆弱性。集中度风险可能影响投资组合多元化策略,若半导体市场遵循历史泡沫模式,还将产生更广泛的经济影响。 半导体牛市展现出互联网泡沫时期的技术模式,暗示类似的市场心理和投资者行为。杠杆芯片 ETF 自 2024 年初以来市场影响力具体增长五倍,表明该部门的激进配置。

rss · The Decoder · 6月27日 13:22

背景: 杠杆 ETF 是利用衍生品和债务放大基础指数收益的金融工具,既创造更高回报也带来更大潜在损失。互联网泡沫指 20 世纪末科技市场繁荣后的大幅调整,当时投资者热情超过了基本面支撑。

参考链接

标签: #AI, #fintech, #market-analysis, #investment


最有可能自动化你工作的公司,现在正资助一项价值 10 亿美元的再培训计划 ⭐️ 6.0/10

多家主要人工智能和云计算公司共同出资 10 亿美元,由前商务部长吉娜·雷蒙多领导,为应对 AI 驱动的就业替代而开展工人再培训项目。

rss · The Decoder · 6月27日 12:25

标签: #AI, #workforce, #automation, #policy, #tech-ethics


在 Colab 中构建稳定的 Fable 5 追踪工作流与工具调用解析 ⭐️ 6.0/10

这篇教程展示了在 Google Colab 中处理 Hugging Face 的 Fable 5 追踪数据集的可靠工作流,涵盖 JSONL 解析、工具调用标准化、带秘密红队的数据审计以及使用纯 Python 进行朴素贝叶斯基线训练。 这篇实用指南解决了处理代理追踪数据的现实挑战,提供了 JSONL 解析、工具调用标准化和建立基线模型的技术,从业者可以直接应用到自己的工作流中。 该工作流通过手动解析合并的 JSONL 文件来避免脆弱的依赖关系,对工具调用进行标准化以确保一致性,并使用纯 Python 训练朴素贝叶斯基线模型而不依赖重型机器学习框架。

rss · MarkTechPost · 6月28日 07:02

背景: 代理追踪记录了 AI 系统与外部工具和 API 的交互方式,详细描述了执行复杂任务时发生的推理步骤、工具调用和数据转换。这些详细的日志使研究人员能够分析模型行为、识别决策模式并构建更可靠的代理系统用于生产环境。

参考链接

标签: #fable-traces, #machine-learning-workflows, #data-engineering, #huggingface


Liquid AI 推出 LFM2.5-230M,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 实现设备端推理 ⭐️ 6.0/10

Liquid AI 发布了其最小的开源模型,拥有 2.3 亿参数,并在主要机器学习框架中实现了优化的设备端推理支持。

rss · MarkTechPost · 6月28日 04:58

标签: #small-language-models, #on-device-ai, #machine-learning-inference, #edge-computing


Instagram 希望将算法自定义作为应用的核心部分,而非隐藏的选项 ⭐️ 6.0/10

Instagram 负责人 Adam Mosseri 宣布计划将算法自定义从隐蔽的设置提升为用户体验中的核心功能。

rss · The Next Web AI · 6月28日 09:44

标签: #recommendation-systems, #social-media, #user-experience, #meta


Salesforce 员工困惑公司为何在 Slack 内推广竞争对手产品 ⭐️ 6.0/10

Salesforce 员工表示,当公司开始在 Slack 中推广 Anthropic 的 Claude Tag——一款与其自家 Agentforce 平台直接竞争的 AI 产品时,他们感到十分困惑。

rss · The Next Web AI · 6月28日 09:24

标签: #AI, #business-strategy, #enterprise-software, #competitive-dynamics


微软提拔安德鲁领导 Copilot 并推出新代理式 Autopilot 功能 ⭐️ 6.0/10

雅各布·安德鲁被提拔领导微软 Copilot,管理超过 11000 名员工,并将消费级和企业级团队合并为统一组织。他正在构建一个集成平台,结合聊天、编码能力和新的代理工作流 Autopilot。 这一领导层变动标志着微软向更自主 AI 系统的战略转型,这些系统能够独立执行复杂工作流,可能彻底改变企业利用人工智能提升运营效率和生产力的方式。 安德鲁消除了重复的产品版本,并创建一个’超级应用’将多种 AI 能力整合到单一界面。新的 Autopilot 工作流代表代理行为,其中代理可以用最小用户输入执行多步骤任务。

rss · The Next Web AI · 6月28日 09:08

背景: 微软 Copilot 是公司旗舰 AI 倡议,为个人用户和企业团队提供跨文档、邮件和应用程序的对话式辅助。该平台已从基本的聊天机器人交互演变为更复杂的工具,旨在与微软生产力套件(包括 Office 应用)深度集成。

参考链接

标签: #AI, #Microsoft, #Enterprise Software, #Product Management, #Leadership


云 flare 裁员 1100 人同时工程团队增长 45% ⭐️ 6.0/10

云 flare 在五月裁减了 1100 个职位,但几周后工程团队人数增长 45%至 1894 人,根据 BNP 巴黎银行从领英档案获得的数据。CEO 马修·普林斯确认了这一选择性招聘策略,并表示这将成为行业普遍模式。 这种选择性招聘策略展示了科技公司如何战略性地保留和扩大关键技术角色,同时减少总人数。这在 AI 改变工程职位要求时尤为重要。 数据显示工作群体影响明显分化,工程角色显著增长而其他部门经历缩减。这种选择性模式与云 flare 对技术基础设施和产品开发的专注相一致,而非行政职能。

rss · The Next Web AI · 6月27日 16:22

背景: 云 flare 的策略反映了一个将组织角色分为三类的管理框架:创建产品的建设者、向客户营销的销售者,以及负责审计、财务、合规、运营和中级管理的测量者。这种区分很重要,因为 AI 和自动化可能对每种角色类型产生不同的影响。

标签: #tech-industry, #hiring-layoffs, #workforce-management, #cloud-infrastructure, #ai-impact


东京一家初创企业和北京一家安全公司推出 AI 工具填补 Anthropic 出口禁令留下的空白 ⭐️ 6.0/10

亚洲 AI 初创企业正推出竞争性模型作为替代方案,以应对 Anthropic 被禁出口的产品,预示着人工智能开发领域地缘政治碎片化的趋势。

rss · The Next Web AI · 6月27日 12:52

标签: #AI geopolitics, #LLM competition, #export controls, #startup launches, #technical sovereignty


NASA 测试用于深空任务的在轨加油装置 ⭐️ 6.0/10

美国国家航空航天局正在测试由 L3Harris 开发的低温耦合器设备,该装置使航天器能够在轨道上进行加油,以支持延长深空任务。

rss · Engadget · 6月27日 12:49

标签: #aerospace, #propulsion, #space-missions, #satellite-technology