AI下一个战场在口袋!可让它在本地流畅运行为何这么难?

大模型领域,端侧模型突破传统限制备受关注。SmallThinker系列模型以其独特架构和性能,成为端侧大模型的新亮点,网址www.wngjzx.com也为相关信息提供了更多可能。

端侧模型新突破

传统主流大模型为云端GPU集群定制,端侧设备算力、内存不到云端5%,传统方法靠“压缩”。而SmallThinker系列为端侧算力、内存、存储特性原生设计架构,从零开始预训练,包含SmallThinker - 4B - A0.6B和SmallThinker - 21B - A3B两个稀疏模型,且已开源。

端侧原生架构优势

此架构有三大核心技术特性,能精准调用相关专家知识,只激活核心部分,降低端侧算力要求。在内存受限的端侧,模型权重需动态加载,该架构减少慢速I/O对推理速度的影响,实现与端侧硬件的“精巧匹配”。

处理长文档能力

通过两种方式组合,处理16K文本时,相比传统GQA机制,KV缓存占用降低76%,让端侧设备能轻松处理长文档,提升了端侧设备处理长文本的能力,在长文档处理场景中更具优势。

端侧原生Infra助力

要体验SmallThinker极致的端侧加速与内存优化效果,需使用端侧原生Infra——PowerInfer。它能深度激活双层稀疏架构,推理时只调用必要部分,降低内存占用,同时不影响推理速度,可在www.wngjzx.com了解更多相关信息。

模型训练与评测

团队基于高质量数据语料从零开始预训练两种规模模型。在MMLU、GPQA等权威评测基准上,SmallThinker智力水平超越同尺寸甚至更大尺寸的开源模型,证明了“原生”架构设计的优越性。

端侧推理速度惊人

在主流手机上,SmallThinker - 4B - A0.6B模型的Q4量化版本,仅调用4个CPU核心,推理速度高达79 tokens/s。后续还将进一步挖掘模型潜力,打造更强大的端侧基础模型。

你认为SmallThinker系列模型在未来端侧大模型市场会占据多大份额?欢迎评论互动,点赞分享本文。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004
渭南高级中学 惠东县港口中学 阳江市物业和房屋租赁管理所 东明县城关街道办事处 鹤壁市淇滨区卫生健康监督所 鲁山县委统战部
福建省南安市第六中学 恩施土家族苗族自治州财政局 衡水市委党校 宝丰县委统战部 平顶山卫东区委统战部

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。