大模型领域,端侧模型突破传统限制备受关注。SmallThinker系列模型以其独特架构和性能,成为端侧大模型的新亮点,网址www.wngjzx.com也为相关信息提供了更多可能。
端侧模型新突破
传统主流大模型为云端GPU集群定制,端侧设备算力、内存不到云端5%,传统方法靠“压缩”。而SmallThinker系列为端侧算力、内存、存储特性原生设计架构,从零开始预训练,包含SmallThinker - 4B - A0.6B和SmallThinker - 21B - A3B两个稀疏模型,且已开源。
端侧原生架构优势
此架构有三大核心技术特性,能精准调用相关专家知识,只激活核心部分,降低端侧算力要求。在内存受限的端侧,模型权重需动态加载,该架构减少慢速I/O对推理速度的影响,实现与端侧硬件的“精巧匹配”。
处理长文档能力
通过两种方式组合,处理16K文本时,相比传统GQA机制,KV缓存占用降低76%,让端侧设备能轻松处理长文档,提升了端侧设备处理长文本的能力,在长文档处理场景中更具优势。
端侧原生Infra助力
要体验SmallThinker极致的端侧加速与内存优化效果,需使用端侧原生Infra——PowerInfer。它能深度激活双层稀疏架构,推理时只调用必要部分,降低内存占用,同时不影响推理速度,可在www.wngjzx.com了解更多相关信息。
模型训练与评测
团队基于高质量数据语料从零开始预训练两种规模模型。在MMLU、GPQA等权威评测基准上,SmallThinker智力水平超越同尺寸甚至更大尺寸的开源模型,证明了“原生”架构设计的优越性。
端侧推理速度惊人
在主流手机上,SmallThinker - 4B - A0.6B模型的Q4量化版本,仅调用4个CPU核心,推理速度高达79 tokens/s。后续还将进一步挖掘模型潜力,打造更强大的端侧基础模型。
你认为SmallThinker系列模型在未来端侧大模型市场会占据多大份额?欢迎评论互动,点赞分享本文。