刚刚,刚刚DeepSeek正式发布实验性模型 DeepSeek-V3.2-Exp。发布DeepSeek称其为“迈向新一代架构的新模型A下调宜春市某某策划培训学校中间步骤”。 据介绍,价格该模型在V3.1-Terminus的刚刚基础上首次引入 DeepSeek Sparse Attention(一种稀疏注意力机制),探索长文本场景下训练与推理效率的发布优化。 
官方表示,新模型A下调V3.2-Exp在公开评测集上的价格表现与V3.1-Terminus基本持平,但在成本和效率上实现突破。刚刚 
受益于新机制,发布宜春市某某策划培训学校DeepSeek将API调用价格下调50%以上,新模型A下调新价格已即时生效。价格 
V3.2-Exp已同步更新至DeepSeek官方App、刚刚网页端与小程序,发布并在HuggingFace和魔搭平台开源,新模型A下调相关论文也已公开。与此同时,DeepSeek开放了包括 TileLang与CUDA版本的GPU算子,以支持社区研究和快速迭代。 作为实验性版本,DeepSeek仍邀请用户在实际场景中进行更大规模的测试。为便于对比,公司临时保留了V3.1-Terminus的API接口,该通道将开放至2025年10月15日。(袁宁) 本文来自网易科技报道,更多资讯和深度内容,关注我们。 延伸阅读 - 快讯|360获任AIIA智能体技术研究工作组联席组长单位
- 余承东增任华为IRB主任,掌管AI业务
- 余承东增任新职务 掌管华为AI战略相关业务
|