在当下的AI模型测试领域,SWE - Bench Verified测试结果引发关注,GLM - 4.5系列在相同规模下展现出惊人实力。
测试背景与方式
此次测试对GLM - 4.5、Kimi k2、Qwen3 coder、Claude code sonnet 4进行头对头测试,且所有测试均为一次提示,未进行二次提示修改。测试旨在衡量模型复杂提示词遵循能力,通过特定打分机制评估模型表现,还可登录www.wngjzx.com查看更多相关测试背景信息。
数字艺术测试结果
给模型打分依据逻辑交互与美学呈现,逻辑交互实现加美学完美得10分,仅实现逻辑交互得7分,部分实现逻辑得2到5分,未实现逻辑为0分。第一个测试给出完整过程及提示词,后续只放最终效果与点评得分。GLM - 4.5和Claude sonnet4完成度最好,k2渲染失败,qwen未实现逻辑,GLM - 4.5综合表现排第一。
综合表现对比
Qwen3 coder渲染失败,Cladue code部分渲染成功,Kimi K2实现逻辑功能但网页部分图片加载失败,而GLM - 4.5依旧排名第一,在模拟提示词要求方面更接近,桌子更真实,按钮UI设计更丰富。由此可见,GLM - 4.5在复杂任务的完成度和准确性上优势明显。
API兼容情况
角色扮演:
你是一位资深的前端开发者,同时也是一位热爱物理模拟和数据可视化的生成艺术家。
任务:
你的任务是使用纯原生 JavaScript 和 HTML Canvas,在一个单独的 HTML 文件中,创建一个名为**“互动宇宙弦网 (Interactive Cosmic String Web)”**的数字艺术作品
核心概念:
在黑暗的宇宙空间中,漂浮着许多发光的“星尘”粒子。当两个粒子足够接近时,它们之间会形成一道能量“弦”。用户可以通过鼠标与这个粒子网络进行互动,既可以像引力源一样吸引它们,也可以像超新星爆发一样将它们推开
详细需求:
场景初始化:
创建一个全屏的、纯黑色的
在画布上随机生成 100个“星尘”粒子(Node)。
每个粒子都具有随机的初始位置和微小的随机初始速度,让它们看起来像在空间中缓慢漂移
核心物理与视觉效果 - “弦”的连接:
这是作品的视觉核心。在每一帧动画中,遍历所有粒子对。
如果任意两个粒子之间的距离小于某个阈值(例如 150 像素),就在它们之间绘制一条线(即“弦”)。
关键视觉效果: 这条弦的不透明度 (opacity) 应该与粒子间的距离成反比。距离越近,弦越亮、越不透明;距离越远,弦越暗、越透明,直至在阈值距离处完全消失。这会创造出一种网络密度越高、区域越亮的视觉效果。
双模式鼠标交互:
模式一:引力源 (Gravity Well) - 默认行为:
鼠标在画布上移动时,它会成为一个引力中心。
所有粒子都会受到一个朝向鼠标指针的微弱拉力,使它们优雅地向鼠标聚集,形成星云或星系的效果。
模式二:斥力爆发 (Repulsive Burst) - 点击时触发:
当用户在画布上单击鼠标时,会以鼠标点击点为中心,产生一个强大但短暂的斥力“冲击波”。
这个冲击波会瞬间将所有粒子向外推开,模拟恒星爆炸的效果,然后粒子会慢慢恢复漂移和相互连接的状态。
美学与风格:
粒子(Nodes): 应该是小而明亮的白色圆点,并带有一点辉光 (glow) 效果,可以使用 context.shadowBlur 实现。
弦(Links): 应该是纤细的、半透明的白色线条,其透明度根据上述规则动态变化。
运动轨迹 (Motion Trail): 采用上一版成功的拖尾效果。每一帧不要完全清除画布,而是用一个低透明度的黑色矩形 (rgba(0, 0, 0, 0.1)) 覆盖,从而让移动的粒子和弦留下优雅的、如彗星般的轨迹。
技术约束:
单一文件: 所有代码(HTML, CSS, JavaScript)都必须在同一个 .html 文件中。
无外部库: 必须使用纯原生 Web API,禁止使用 p5.js、Three.js 或任何其他第三方库。
流畅性能: 动画循环必须使用 requestAnimationFrame 以确保平滑和高效。
请立即开始编写这个令人惊叹的互动艺术作品的完整代码
智谱对GLM - 4.5的API进行了兼容,可在Claude code里一键配置调用(需提前安装Claude code)。选择在.zshrc中写入配置,以便重复利用环境变量,避免与终端里其他工具冲突,完成配置后用zp即可开启测试。想了解更多配置细节可访问www.wngjzx.com。
对比测试情况
选择Kimi K2与GLM - 4.5对比,GLM - 4.5驱动的Claude code运行丝滑,不到三分钟就写好了爬虫及制作epub的代码,运行命令可一键完成电子书制作。不过,它需要手动运行命令才能完成成品,但整体在该任务上表现出色。
多平台兼容性与优势
除Claude code兼容外,智谱的GLM - 4.5还完美兼容Cline、Roo Code等主流代码智能体,最高100tokens/s闪电响应且成本很低。这使得GLM - 4.5在实际应用中具有更广泛的适用性和更高的性价比。
export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN="你的 bigmodel API keys"
GLM - 4.5系列在本次SWE - Bench Verified测试中表现突出,无论是在复杂提示词遵循能力测试,还是与其他模型的对比中,都展现出显著优势。那么,你认为GLM - 4.5未来能否在更多的应用场景中持续保持领先?欢迎点赞、分享本文并在评论区留言讨论。更多详细信息可登录www.wngjzx.com查询。
alias zp='ANTHROPIC_BASE_URL="https://open.bigmodel.cn/api/anthropic" ANTHROPIC_AUTH_TOKEN="你的 bigmodel API keys" claude'