AI 胜利找到 Linux 安全过错,如故内核级别的零日过错。
刚刚,OpenAI 总裁转发了清静筹商员 Seen Heelan 的实验恶果:用 o3 模子找到了 Linux 内核 SMB 终了中的一个而已零日过错。
更让东说念主诧异的是,通盘过程中莫得效到任何复杂的器具——莫得脚手架、莫得智能体框架、莫得器具调用,只是是 o3 API 自己。
这个过错被编号为 CVE-2025-37899,是 SMB "刊出"大呼处理时事中的一个开释后使用(use-after-free)过错。
据作家清晰,这是初次公开征询的由大模子发现的此类过错。
有网友看过发现过程后讴歌,原以为会有很跋扈的实验建树,但其实只是把一堆代码缝到一齐,让 o3 查验 100 次。
但愿其他白帽黑客也曾开动像这么查验其他要害操作系统了。
OpenAI 首席筹商官 Mark Chen 暗示:像 o3 这么的推理模子正开动助力深度本领责任和极端念念的科学发现。接下来一年,近似这么的恶果将会越来越多量:
Sean Heelan 是一位清静筹商员,专注于基于大模子的过错筹商和过错专揽自动化生成。
他原来在手动查验 Linux 内核的 KSMBD(内核态 SMB3 合同终了)过错,想要暂时隔离大模子相关的器具拓荒。
但 o3 发布后,他忍不住想测试一下:"既然我手里也曾有这些过错,不如望望 o3 能不成找到它们?"
他先用一个我方手动发现的过错 CVE-2025-37778 看成测试。这是 Kerberos 认证旅途中的一个开释后使用过错,是测试大模子智商很好的基准,因为:
它是 Linux 内核而已曲折面的一部分
它并不通俗,发现他需秩序路若何触发特定的会话景况、认证函数的多条扩充旅途、跨函数的对象生命周期治理
但它也并非极其复杂,作家本东说念主不错在 10 分钟内带着同期了解触及到的约 3300 行代码
接下来开动实验之前,还需要搞了了一个问题,该给大模子展示哪些代码?
梦想情况天然是大模子读取通盘代码库并输出绝交,但试验中上由于高下文窗口的适度还无法预先。
最终 Heelan 为 LLM 提供了"会话建树"大呼处理时事的代码,包括它调用的统统函数的代码等等,直到调用深度达到 3(这是包含推理过错所需代码所需的深度),还包含了大呼处理器、贯穿建立 / 铲除、肯求分发等完好高下文。
领导词中告诉 o3 专门寻找 use-after-free 过错,提供 KSMBD 架构证据,强调要幸免误报,每个实验运行 100 次,统计胜利率。
相关代码和领导词已开源在 GitHub 上。
Heelan 还按同样历程测试了 Claude3.7 和 Claude 3.5 看成对比,绝交 o3 的阐明让东说念主目下一亮:
OpenAI o3: 100 次运行中胜利找到 8 次过错
Claude 3.7: 100 次中找到 3 次
Claude 3.5: 100 次中一次都没找到
此外极端念念的的是,o3 和 Claude 的输出格调王人备不同。
o3 生成的像东说念主类写的过错禀报,结构清亮、要点隆起
Claude 更像念念维流或责任日记,细节丰富但略显冗长。
接下来发生的事情更精彩了。
Heelan 想测试 o3 在更大代码量下的阐明,于是给它提供了统统 SMB 大呼处理时事的代码,约12000 行代码。
固然找到原始过错的胜利率降到了 1%,性能赫然下落。但在运行绝交中,o3 禀报了一个全新的过错。
Heelan 我方之前也不知说念这个过错,它同样是由于 sess->user 的开释形成的,但此次是在会话刊出处理时事中。
o3 我方对这个过错的讲明如下。
当一个 ksmbd 责任线程还在扩充使用 sess->user 的肯求时,另一个处理合并会话 SMB2 LOGOFF 的线程开释了该结构。莫得同步机制保护该指针,是以第一个线程会解援用已开释的内存——这是一个经典的开释后使用过错,会导致内核内存损坏和任性代码扩充。
更极端念念的是,筹商员发现 o3 不仅能找到过错,某些情况下拓荒决策比东说念主类更完善。
关于之前的 Kerberos 认证过错,Heelan 当先提议的拓荒是通俗地将指针置空:
if ( sess->state == SMB2_SESSION_VALID ) { ksmbd_free_user ( sess->user ) ; sess->user = NULL; // 添加这行 }
但 o3 的禀报中有指出这个拓荒不够充分,因为 SMB 合同允许两个不同的贯穿"绑定"到合并个会话,在开释和置空之间的陡然窗口期,另一个线程仍可能拜访这个指针。
最终 Heelan 承认,淌若使用 o3 来找和修规复始过错,"表面上"会比我方完成更好。
之是以加上"表面上"的摈弃,是因为目前 AI 误报的比例有点高,东说念主类很难隆重仔细地巡视 o3 的每份禀报。
不外他也觉得跟着本领的发展,这个比例只会越来越低。
Heelan 在禀报扫尾咨嗟说念:
大模子在时事分析本领的智商空间中,处于一个比咱们见过的任何东西都更接近东说念主类的位置。斟酌到创造力、机动性和通用性,LLM 更像是东说念主类代码审计员,而不是象征扩充、概述讲明或依稀测试。
他寥落强调,淌若你从事安全筹商责任,目前应该开动密切关怀了:
巨匠级筹商员不会被取代,反而会变得更高效
关于 10000 行以内的代码问题,o3 有至极大的概率能治理或匡助治理
固然仍有约 1:50 的信噪比问题,但这也曾值得参预时候和元气心灵
不外也有东说念主看到了其中的风险:
淌若坏东说念主专揽 AI 的智商找到近似的过错并曲折系统又若何呢?
— 完 —
� � 量子位 AI 主题运筹帷幄正在征聚合!迎接参与专题365 行 AI 落地决策,一千零一个 AI 应用,或与咱们共享你在寻找的 AI 家具,或发现的AI 新动向。
� � 也迎接你加入量子位逐日 AI 相通群,一齐来畅聊 AI 吧~
一键关怀 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「留意心」
迎接在批驳区留住你的意见!欧洲杯体育