本地部署的模型选取恰当,对合理利用硬件资源及提升用户体验极为关键。不同应用场景对模型有各自的要求,下面将具体说明模型的选择方法和应用技巧。

模型选型考量

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

# 拉取模型并运行
ollama run deepseek-r1

# 仅仅拉取:
ollama pull deepseek-r1

本地部署模型时,硬件配置对模型体积有很大影响。以671B模型为例,它的1.58bit量化版本至少得配备136G显存,并且GPU和内存需要协同工作。显存不够用,可能会影响运行速度,甚至导致无法启动。所以,开发者要根据自己电脑的具体配置,综合考虑CPU性能和内存大小等因素,谨慎选择适合的模型。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

开发者使用方式

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',
    api_key='ollama'# 必需但可以随便填写
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            'role''user',
            'content''介绍杭州旅游怎么玩。',
        }
    ],
    model='deepseek-r1',
)

开发者普遍使用库的调用方式。这种做法将操作封装起来,便于根据需求进行灵活调整。比如,在常规的开发任务中,开发者会将模型的使用封装成函数,这样就能在多个模块中方便地调用,有效提高了工作效率。此外,这种方式还让开发者能根据自身的业务需求轻松集成模型功能,大大增强了项目的灵活性和管理性。

pip install vllm --index-url https://mirrors.aliyun.com/pypi/simple/

无代码使用介绍

# HF_ENDPOINT 镜像,在国内下载模型更快
HF_ENDPOINT=https://hf-mirror.com vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)
completion = client.completions.create(model="DeepSeek-R1-Distill-Qwen-1.5B",
                                      prompt="你的提示词。")
print("Completion result:", completion)

如果用户对编写代码感到不感兴趣,他们可以选择不需要编写代码的操作方式。借助一些开源的客户端或网站,用户能够直接应用模型。比如,不少网站提供免费使用模型的服务,用户只需完成注册和登录,就能开始使用。这种方式能缩短学习编程的时间,即便是非专业人士也能轻松上手,感受到人工智能带来的便利。

chat_response = client.chat.completions.create(
    model="DeepSeek-R1-Distill-Qwen-1.5B",
    messages=[
        {"role""system""content""You are a helpful assistant."},
        {"role""user""content""Tell me a joke."},
    ]
)
print("Chat response:", chat_response)

开源客户端使用

from vllm import LLM, SamplingParams

model_name_or_path = "指定模型名称或者路径"
llm = LLM(
        model=model_name_or_path,
        pipeline_parallel_size=1,
        tensor_parallel_size=8,
        max_num_seqs=512,
        max_num_batched_tokens=8192,
        max_model_len=4096,
        gpu_memory_utilization=0.85,
        trust_remote_code=True,
    )
  
sampling_params = SamplingParams(
        temperature=0.0,
        # top_p=0.95,
        max_tokens=1024,
        stop=stop,
    )

# 可以批量
prompts = [
    "Hello, my name is",
    "The president of the United States is",
]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt}, Generated text: {generated_text}")

开源客户端是个不错的选择,其中不少下载安装版的客户端各有千秋,用户可根据个人需求挑选。安装完成后,只需在软件设置里找到LLM的首选项界面,对参数进行一些调整。比如,挑选之前下载的-R1系列模型,然后点击保存按钮。整个设置过程既简单又直观,让不同水平的用户都能轻松上手。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

设置工作区选项

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

进入【工作区设置】和聊天设置界面,对工作区中的LLM提供者及模型进行相应配置。选择合适的模型至关重要,它将直接影响使用效果。以文本生成任务为例,若选用恰当的模型,输出的文本质量将更为出色。点击【agent】按钮,即可完成工作区的基本设置,之后即可启动AI服务。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

提示词使用技巧

在使用模型时,提示词相当关键。很多AI软件都内置了提示词,这使用起来很方便。如果自己输入,就要注意确保AI输出的结果贴近人类的语言习惯。比如,输入“杭州西湖”,然后点击“AI模型组件”按钮,就能自动生成相关内容。掌握了提示词的使用技巧,可以显著提升使用效果,获取更加精准和有用的信息。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

无代码流程编排

Coze和Dify这类无代码流程编排工具,能根据用户需求来定制工作流程。对编程新手而言,使用这些工具非常简单。它们还能与Vllm协同工作,具体操作步骤可查阅官方文档。借助这些工具,用户能够运用AI技术来分解任务、模仿专家行为以及创作内容等。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】

Word集成操作

Word软件也能实现模型功能的集成。只需进行几项特定设置,就能调用本地的模型资源。比如,通过“文件”菜单中的“选项”,挑选“自定义功能区”,然后勾选“开发者工具”,并加入宏模块等,虽然需要几个步骤,但完成之后,使用起来就非常方便。在Word中,你可以随时运用人工智能技术来帮助编写文档和提升内容质量。

本地部署模型时,大家常会遇到哪些让人头疼的问题?欢迎点赞分享,您可以在评论区发表意见,让我们共同探讨交流。

DeepSeek超全指南【本地部署、构建知识库、指令技巧、热门客户端】