加我进AI讨论学习群,公众号右下角“联系方式”\x0d\x0a\x0d\x0a关注发送“知识精华”,可获得免费的知识链接地址
DeepSeek:价格屠夫与框架王者
新年好!年前忙碌,年后终于可以和大家聊聊最近大火的DeepSeek了。它以低廉的价格和强大的性能,迅速成为AI领域的一匹黑马,被誉为“价格屠夫”。本文将从DeepSeek的优势、使用方法以及本地部署等方面进行详细解读。
一、DeepSeek的独特之处:框架为王
DeepSeek最初让我印象深刻的是它的价格,相较于国外动辄上千亿美元训练的模型,它仅需500多万就能达到相当的水平,成本差距近两万倍!但这并非它成功的唯一原因。
很多人关注DeepSeek的RLHF(基于人类反馈的强化学习)或MOE(混合专家模型)等技术,但在我看来,DeepSeek真正的优势在于其卓越的“框架”。这个框架不仅大幅降低了成本,还提升了速度和质量,真正做到了“事半功倍”。这正是西方国家对其忌惮的原因。
DeepSeek目前的输出结果虽然不错,但谈不上惊艳。然而,凭借其极低的成本优势,我相信,随着时间的推移,它将超越其他竞争对手。
在众多国内LLM中,我推荐阿里QWEN、智谱和DeepSeek这三家,它们都是我深度使用后筛选出来的优秀选择。
二、提示词依然重要:认知是关键
很多人误以为DeepSeek不需要提示词,这是错误的。我一直强调,AI的本质是工具。不会使用工具的人,即使拥有最好的工具,也无法发挥其最大效用。
DeepSeek基于强化学习,能够列举更多可能性,但这并不意味着它能替代你的认知。你仍然需要判断,需要清晰地表达你的需求,因为模型本身并不知道你想要什么。
我更倾向于将提示词分为“推理模型”和“非推理模型”两类,并根据不同的模型类型采用不同的提示词技巧。ChatGPT的成功之处在于其推理能力,它能够在没有明确提示词的情况下分析用户的意图。但这对于掌握提示词技巧的用户来说,只是多打字和少打字的区别而已。
掌握提示词技巧意味着你对任务有清晰的认知,知道如何处理。一个有效的结构化提示词通常包含以下元素:角色设定、目标设定、规则设定和工作流程。
推理模型的核心在于对自身认知和规则的反思。它与结构化提示词的核心思想一致,只是它自动完成了这个过程。但需要注意的是,推理模型的输出并不总是最佳或正确的,因为它仍然是在其现有数据的基础上进行预测。
我的经验是,模型本身并没有变化,但随着我的专业知识的提升,我对模型输出的评价也发生了变化。这说明,AI能否用好,取决于你自身的认知水平。AI目前并不会创造,只会基于数据进行缝合。
为了更好地引导LLM进行推理,可以使用以下通用公式:我要什么?给谁用?希望达到什么样的目标?有没有工作顺序?有没有忌讳?讲人话。
三、本地部署与API接入
对于本地部署,我推荐Dify和Ollama这两个工具。Dify是一个开源的LLMOPS平台,支持本地部署,并保证数据隐私;Ollama则是一款方便易用的开源模型本地部署软件。
在Ollama中,你可以下载DeepSeek的模型(推荐7B或8B版本),并根据提示进行使用。但需要注意的是,这只是为了尝鲜,想要体验DeepSeek的全部性能,还需要借助其他途径,比如接下来要介绍的Siliconflow。
目前,除了DeepSeek官网(经常崩溃),Siliconflow提供了国内唯一的DeepSeek满血版(包括最大的671B版本)。Siliconflow作为一个基础设施团队,致力于提供高效的AI应用服务,它具有以下优势:无需自建服务、高性能模型API、速度优化和多厂家API统一接入。
虽然目前Dify还不支持Siliconflow的API,但其他一些客户端应用、代码生成工具和开发平台等都已支持,你可以尝试接入Siliconflow的API来体验DeepSeek的满血性能。
Siliconflow基于华为云昇腾云服务,提供了DeepSeek-R1和DeepSeek-V3模型推理服务,在国产芯片的加持下,性能表现出色。
希望以上内容能够帮助大家更好地了解和使用DeepSeek。感谢阅读!
联系作者
文章来源:金子的知识星球
作者微信:
作者简介:AIGC研究者,游戏制作人。深耕音舞赛道10余年,负责网易《劲舞时代》、《AU Beat》、其他地区的《Party Masters》等多个产品。 在文案、流程图、脑图、2D绘画、LOGO设计等多方面,验证了AI的使用价值。