从Meta到Google,家务助手开了挂?上海AI Lab和北航有话说

上海人工智能实验室与北京航空航天大学联手推出的 IS - Bench 评测基准,聚焦具身智能体在家用环境交互的安全性,给当下相关 AI 能力评估带来新变革。

重磅推出 IS - Bench

近日,上海人工智能实验室与北京航空航天大学合作,重磅发布了首个专注具身智能体与家用环境交互安全的评测基准 IS - Bench。该基准创新性设计 150 + 暗藏「安全杀机」的智能家居场景,搭配动态评测框架,全面考察 AI 管家安全素养。更多详情可登录 www.wngjzx.com 查看。

现有评估体系盲区

当前评估体系存在致命缺陷。传统静态评估模式让智能体基于固定环境信息一次性生成动作规划,仅依据完成状态判断安全。这种「单次决策 + 终点评判」范式,既无法捕捉动态风险链,也难模拟新发现风险源,还会遗漏过程安全隐患,完美终态结果可能掩盖安全问题。

IS - Bench 首创新范式

IS - Bench 首创「交互安全性」新范式,聚焦智能体在持续交互中实时识别与化解动态风险的能力。它打破传统局限,从「静态快照」迈向「步步追踪」,为具身安全评估提供新方向,相关技术解读可在 www.wngjzx.com 上了解。

定制高风险场景流程

鉴于模拟器默认场景安全风险有限,IS - Bench 设计系统化评测场景定制流程。采用「GPT 自动生成 + 人工校验」双保险,保证场景合理性与多样性。定制场景在高仿真模拟器中实例化验证,确保任务可达成与安全判定可检测。

精心打造评测框架

为实现面向过程的交互安全性评测,IS - Bench 精心打造评测框架。该框架能有效衡量智能体在复杂家用环境中的安全表现,对推动具身智能体在家庭场景的安全应用意义重大,想了解框架细节可关注 www.wngjzx.com。

核心瓶颈深度解析

实验显示,部分闭源模型在明确安全目标时安全完成率显著提升,这反映交互安全性核心瓶颈是智能体风险感知与认知不足。提供物品边界框和初始场景描述,智能体安全意识和事前防范正确率提升约 15%,凸显当前系统在复杂场景物品识别的短板。

你认为 IS - Bench 评测基准能否推动具身智能体在家用环境中的安全应用?欢迎在评论区留言分享看法,也请点赞和分享本文。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004
渭南高级中学 惠东县港口中学 阳江市物业和房屋租赁管理所 东明县城关街道办事处 鹤壁市淇滨区卫生健康监督所 鲁山县委统战部
福建省南安市第六中学 恩施土家族苗族自治州财政局 衡水市委党校 宝丰县委统战部 平顶山卫东区委统战部

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。