創龍首頁 >關于創龍 > 新聞資訊 > 技術文章

聯系我們

Contact Us

公司總機:020-8998-6280

技術熱線:020-3893-9734

技術郵箱:support@tronlong.com

銷售郵箱:sales@tronlong.com

7B/1.5B模型!DeepSeek實測10.5Tokens/s,RK3576/RK3588本地部署

2025/03/11




引言

DeepSeek的免費開源使得AI需求猛增,各個行業應用都在積極接入DeepSeek,為能源電力、智能制造、智慧醫療等工業應用賦能。
創龍科技基于瑞芯微RK3576RK3588國產平臺對DeepSeek-R1的7B1.5B模型進行了全面的性能測評,并整理完整的本地部署測評步驟,提供所需的完整測試文件,方便用戶進行快速評估。
下文為DeepSeek本地部署測評的簡要步驟,如需完整PDF文檔、完整測試文件(例如7B、1.5B模型文件),請在如下鏈接下載:百度網盤鏈接:https://pan.baidu.com/s/1CUKzP3mrpBTqiNNsXO-D3Q提取碼:xhr8



 一、DeepSeek-R1模型簡介

DeepSeek-R1是深度求索(DeepSeek)公司推出的開源大語言模型,是一個兼具強推理能力和任務廣泛適用性的高效模型。DeepSeek-R1基于開源模型進行了微調,根據不同參數量提供了1.5B至32B等多個版本的模型,滿足不同場景下對于計算資源和性能的需求,讓DeepSeek的部署與應用更加靈活。



1 DeepSeek-R1模型


 

2 7B/1.5B模型特點與要求


 

 二、DeepSeek模型部署方案

瑞芯微RK3576為4核Cortex-A72@2.2GHz + 4核Cortex-A53@2.0GHz + 6TOPS算力NPU處理器,RK3588為4核Cortex-A76@2.4GHz + 4核Cortex-A55@1.8GHz + 6TOPS算力NPU處理器,它們在能源電力、工業控制、智慧醫療、儀器儀表等領域有著廣泛應用。

一般有2種部署DeepSeek的方案,分別是“RKLLM量化部署”和“Ollama部署”。為了將RK3576/RK3588強悍的NPU性能發揮出來,推薦使用“RKLLM量化部署”方案。RKLLM量化部署:瑞芯微官方的RKLLM量化部署,使用NPU運行,適用于RK3576、RK3588處理器平臺。Ollama工具部署:Ollama是一個開源的大模型服務工具,使用CPU運行,適用于通用處理器平臺。



 三、7B/1.5B模型性能測評數據

以下為RK3576/RK3588基于“RKLLM量化部署”方案的7B/1.5B模型的性能測評詳細數據。



3 7B/1.5B模型性能測評數據


 

 四、RKLLM量化部署

RKLLM-Toolkit是瑞芯微提供給用戶在計算機上進行大語言模型量化、轉換的開發套件,通過RKLLM-Toolkit提供的接口可便捷地完成模型轉換和模型量化功能。
RKLLM-Toolkit支持將Hugging Face模型或GGUF模型轉換為適配瑞芯微NPU的RKLLM模型。RKLLM Runtime負責加載RKLLM-Toolkit轉換得到的RKLLM模型,并在RK3576/RK3588本地通過調用NPU驅動,加速RKLLM模型的推理。



4 RKLLM軟件框架


5 部署步驟



1)獲取原始模型
RK3576平臺 + 1.5B模型為例,在Ubuntu上位機執行如下命令,下載原始模型文件。
Host# git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B


2)RKLLM工具安裝
Ubuntu上位機創建Python虛擬環境,并執行如下命令安裝RKLLM-Toolkit工具。
Host# pip3 install rkllm_toolkit-1.1.4-cp38-cp38-linux_x86_64.whl


3)模型轉換
然后使用RKLLM-Toolkit工具將Hugging Face模型轉換為適配瑞芯微NPU的RKLLM格式。然后修改export_rkllm.py文件中的模型路徑、平臺名稱以及NPU核心數量,再執行如下命令運行export_rkllm.py文件將模型導出。
Host# python3 export_rkllm.py



6



4)程序編譯
Ubuntu上位機執行如下命令配置交叉編譯環境,并運行build-linux.sh腳本編譯RKLLM Runtime可執行文件。編譯完成后,將會在install目錄生成模型可執行程序以及動態庫。
Host# source /home/tronlong/RK3576/rk3576_linux6.1_release/ubuntu/environmentHost# ./build-linux.sh



7


 

5)運行測試
將案例"bin/rkllm/"目錄下的整個demo_Linux_aarch64文件夾,以及"bin/rkllm/deepseek_model/"目錄下的DeepSeek-R1-Distill-Qwen-1.5B_W4A16G128_RK3576.rkllm模型拷貝至評估板文件系統。然后再將"demo_Linux_aarch64/lib/"目錄的librkllmrt.so動態庫拷貝至估板文件系統lib目錄下。
demo_Linux_aarch64目錄下執行如下命令,加載與測試部署在評估板的DeepSeek-R1模型。
Target# ./llm_demo ../DeepSeek-R1-Distill-Qwen-1.5B_W4A16G128_RK3576.rkllm 2048 4096



圖 8


輸入推理測試問題:設備故障診斷與維修:“某臺設備出現故障,報錯代碼為XXX,可能是什么原因導致的,以及如何解決?”等問題,能否根據典型的工業設備故障現象和代碼,給出準確的故障原因分析和維修建議。
推理測試效果如下所示。



9


10




如需查看RKLLM的推理性能(僅適用基于RKLLM量化部署),請在運行DeepSeek-R1模型前執行如下命令,即可在每次推理完成后顯示Prefill與Generate階段的Token數量與推理耗時。
Target# export RKLLM_LOG_LEVEL=1



11 RK3576


12 RK3588


 五、Ollama部署方案

Ollama是一個開源的本地大語言模型運行框架,專為在本地設備上便捷部署和運行大型語言模型(LLM)而設計,支持在X86/ARM架構設備上零配置運行AI大模型。


1)Ollama安裝
將案例"bin\ollama\"目錄下的ollama-linux-arm64.tgz壓縮包拷貝至評估板文件系統,執行如下命令解壓。解壓完成后,請重啟評估板。
Target# tar -C /usr -xzf ollama-linux-arm64.tgz



13



2)啟動Ollama服務
進入評估板文件系統,執行如下命令,啟動Ollama服務。
Target# ollama serve &



14



3)運行模型
執行如下命令,使用Ollama運行deepseek-r1:1.5b模型。
Target# ollama run deepseek-r1:1.5b 



15



如需更多RK3576/RK3588全國產工業核心板相關資料,可掃描下方二維碼下載,快來試試吧!



 

 

 


創龍官方微信公眾號

Copyright © 2013~2025 廣州創龍電子科技有限公司 All Rights Reserved  | 粵ICP備15055271號