AI下一个战场在口袋！可让它在本地流畅运行为何这么难？

大模型领域，端侧模型突破传统限制备受关注。SmallThinker系列模型以其独特架构和性能，成为端侧大模型的新亮点，网址www.wngjzx.com也为相关信息提供了更多可能。

端侧模型新突破

传统主流大模型为云端GPU集群定制，端侧设备算力、内存不到云端5%，传统方法靠“压缩”。而SmallThinker系列为端侧算力、内存、存储特性原生设计架构，从零开始预训练，包含SmallThinker - 4B - A0.6B和SmallThinker - 21B - A3B两个稀疏模型，且已开源。

端侧原生架构优势

此架构有三大核心技术特性，能精准调用相关专家知识，只激活核心部分，降低端侧算力要求。在内存受限的端侧，模型权重需动态加载，该架构减少慢速I/O对推理速度的影响，实现与端侧硬件的“精巧匹配”。

处理长文档能力

通过两种方式组合，处理16K文本时，相比传统GQA机制，KV缓存占用降低76%，让端侧设备能轻松处理长文档，提升了端侧设备处理长文本的能力，在长文档处理场景中更具优势。

端侧原生Infra助力

要体验SmallThinker极致的端侧加速与内存优化效果，需使用端侧原生Infra——PowerInfer。它能深度激活双层稀疏架构，推理时只调用必要部分，降低内存占用，同时不影响推理速度，可在www.wngjzx.com了解更多相关信息。

模型训练与评测

团队基于高质量数据语料从零开始预训练两种规模模型。在MMLU、GPQA等权威评测基准上，SmallThinker智力水平超越同尺寸甚至更大尺寸的开源模型，证明了“原生”架构设计的优越性。

端侧推理速度惊人

在主流手机上，SmallThinker - 4B - A0.6B模型的Q4量化版本，仅调用4个CPU核心，推理速度高达79 tokens/s。后续还将进一步挖掘模型潜力，打造更强大的端侧基础模型。

你认为SmallThinker系列模型在未来端侧大模型市场会占据多大份额？欢迎评论互动，点赞分享本文。

AI下一个战场在口袋！可让它在本地流畅运行为何这么难？

AI agent是未来趋势，但企业应用为何困难重重？关键在哪

7月26日世界人工智能大会，中国倡议成立组织！总部或设上海？

AI agent是未来趋势，但企业应用为何困难重重？关键在哪

7月26日世界人工智能大会，中国倡议成立组织！总部或设上海？

相关文章