RK182X系列算力卡 20TOPS 算力加持，边缘大模型高效运行

原创 2026-06-10 16:41:00 RK182X RK1820 RK1828

端侧AI算力破局

RK182X系列算力卡，让大模型落地更简单

当下，边缘AI全面进入大语言模型+多模态感知深度融合阶段，储能、工业网关、智能机器人、视频分析等场景，对本地实时推理、低延迟响应、数据安全合规的需求爆发式增长。但RK3588/RK3576/RK3568等主流主控，原生NPU算力有限、内存带宽不足，3B参数量以上的大模型跑不动、响应慢、并发差，“业务刚需猛、端侧算力弱”的冲突日益尖锐。瑞芯微推出了面向人工智能应用的高性能RK182X系列算力卡，依托RKNN3 SDKV1.0.4的发布，为端侧AI模型部署提供全栈式软件支撑，在端侧推理性能、模型适配、功能接口、推理精度上全方位升级，兼具高性能、高适配、高能耗比优势，即插即用补满算力缺口，让LLM/VLM在边缘设备稳定流畅落地！

硬核算力

20TOPS硬核算力，8B大模型端侧推理无压力

RK182X系列内置多核RISC-V CPU与3D堆叠高带宽DRAM，集成多核高算力NPU，峰值算力可达20TOPS且广泛支持从INT4到FP16的多种计算精度，通过PCIe/USB接口与主控设备高速互联，支持从0.5B到8B多种参数量的大语言/多模态模型及传统CNN模型推理及本地化部署，专注于AI端侧推理，不占主控资源，算力独立输出。

	RK1820	RK1828	说明
峰值算力(INT8)	20 TOPS	20 TOPS	峰值算力相同，推理速度基准一致。
DRAM容量	2.5 GB	5 GB	RK1828拥有更大的DRAM容量，支持加载更大的模型权重，可流畅运行Qwen3-8B等主流大模型。
支持最大模型参数量	3B	8B	RK1828拥有更大的DRAM容量，支持加载更大的模型权重，可流畅运行Qwen3-8B等主流大模型。

主流模型全覆盖，打通算法生态壁垒

原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型

RK182X算力卡完成主流AI算法全适配，原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型，覆盖自然语言交互、跨模态图文解析、图像分类检测、音频信号处理等全场景AI应用，算力调度稳定、推理时延优异，配套完备的模型编译工具链，轻松实现模型量化转换、适配优化与嵌入式端快速投产。

模型分类	包含模型列表
LLM大语言模型	Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Qwen2.5-7B、Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、HY-MT1.5-1.8B、Youtu-LLM-2B、GLM-Edge、Gemma4、Qwen3-Reranker-0.6B、Qwen3-Reranker-4B、Qwen3-Embedding-4B
VLM多模态模型	Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen2.5-0mni-3B (Thinker)、Qwen3-VL-2B、Qwen3-VL-4B、FastVLM-1.6B、InternVL3-2B、InternVL3.5-4B、MiMo-VL-7B-RL、SmoVLM、SmoVLM2、UI_TARS、PaddleOCRVL、gme-Qwen2-VL-2B
CNN/视觉模型	SigLIP、SigLIP2、MetaCLIP2、DINOV2、DINOv3、MobileNetV1、MobileNetV2、ResNet-50、YOLOv5、YOLOv6、YOLOv8、YOLO-World、Diffusion Policy
声音模型	GROOT、VITS、Qwen3-ASR、Qwen3_TTS、Whisper、SenseVoice、Zipformer

LLM大语言模型

自然语言交互、知识问答、文本生成

VLM多模态模型

图文解析、视觉问答、跨模态理解

CNN卷积网络

图像分类、目标检测、音频信号处理

完备工具链

量化转换、适配优化、快速投产

全平台兼容

兼容全主控+双系统，老设备零成本焕新算力

RK182X系列算力卡全兼容RK3588、RK3576、RK3568等瑞芯微主流主控，适配Linux/Android双系统，PCIe直插即用无需额外驱动适配。依托该架构设计，产品实现跨主控、跨系统通用，存量在用设备可零改造升级AI大模型算力，无需更换主板、修改整机结构、重新做产品认证，老旧边缘网关、工控主机、AI边缘盒能够低成本迭代升级为高性能AI推理终端，规避硬件换代带来的高额改造成本与周期损耗。

RK3568作为大批量商用落地平台，自带1TOPS板载NPU，原生算力无法适配端侧大模型推理场景；设备预留PCIe扩展位，选配RK1820/RK1828算力卡后可新增20TOPS独立NPU算力，存量整机无需改版，低成本完成算力扩容，稳定运行大语言、多模态大模型。

软件层面，飞凌嵌入式已完成RK182X全系列在Linux/Android双系统的深度驱动调试与全量算子落地验证：工业视觉、服务机器人（Linux端）、智能交互一体机、商用智慧屏（Android端）等多场景均可即插即用。单张算力卡可跨硬件平台、跨操作系统复用，有效压缩客户备货库存、后期运维成本，落地「一卡通用，旧机焕新」的边缘算力升级方案。

OK3588-C开发板搭配RK1828算力卡

模型	主控平台	Input_Tokens	New_Tokens	主控板载NPU推理性能Decode TPS(Tokens/s)	搭配RK182X推理性能(Tokens/s)
Qwen3-VL-2B	RK3588	128	128	15.12	142.37
	RK3576	128	128	7.67	138.53
	RK3568	128	128	不支持大模型推理	137.3

测试参数说明：Input_Tokens和New_tokens分别代表输入/输出Tokens数量；TPS：模型每秒能生成的token数量。

储能行业私有化知识库落地案例

基于RK3588+RK1828算力卡，打造储能专属AI问答交互系统

针对储能BMS场景的储能系统AI问答交互系统需求，飞凌嵌入式基于RK3588+RK1828算力卡打造储能专属私有化知识库，集成语音识别ASR与语音合成TTS模块支持全语音问答，支持多级BMS储能设备实时运行数据查询和储能系统故障智能诊断，精准解析运维人员的提问意图，支持故障排查、数据查询、分析建议等连续交互，端侧离线部署无需联网，实现数据本地闭环、合规安全。

安

本地部署

数据不出场站，满足电力储能行业安全合规要求

速

高速响应

大语言模型端侧推理输出速度稳定60+tokens/s，故障诊断、数据查询实时输出

易

开箱即用

支持知识库快速导入、语音交互、自定义MCP、接口标准化

为什么选择RK182X算力卡？

即插即用

PCIe/USB双接口，双系统支持，部署周期缩短50%+。

全平台覆盖

完美支持RK3588/3576/3568，存量设备一键升级算力。

场景化方案

储能、工业、机器人等垂直场景定制优化，提供全套技术支持。

稳定可靠

工业级品质，批量交付有保障，技术团队全程护航。

RK182X系列算力卡真正解决端侧大模型算力短缺，让LLM/VLM本地跑得稳、跑得快、用得起！

端侧推理实测性能数据

结合真实业务场景下的上下文尺寸和输出长度，多平台实测验证

Ubuntu系统 RK3568 + RK1828算力卡

模型	上下文尺寸	输出长度	TTFT(ms)	TPOT(ms)	Decode TPS(tokens/s)
Qwen2.5-0.5B	1024	2048	166.12	6.03	165.73
Qwen2.5-0.5B	1024	4096	165.65	6.22	160.75
Qwen2.5-1.5B	1024	2048	323.11	9.03	110.76
Qwen2.5-1.5B	1024	4096	323.59	9.34	107.02
Qwen2.5-3B	1024	2048	527.28	12.75	78.43
Qwen2.5-3B	1024	4096	527.66	13.15	76.03
Qwen3-4B	1024	2048	978.94	14.49	69.01
Qwen3-4B	1024	4096	680.97	14.79	67.61
Qwen2.5-7B	1024	2048	1280.04	16.81	59.48
Qwen2.5-7B	1024	4096	1278.79	17.09	58.51
Qwen3-8B	1024	2048	1401.68	19.89	50.28
Qwen3-8B	1024	4096	1418.61	20.08	49.79

LLM模型端侧推理核心性能数据

模型	Vision分辨率	Vision(ms)	LLM TTFT (ms)	LLM Decode TPS(tokens/s)
FastVLM 1.5B stage 3	512×512	152.19	135.51	127.31
InternVL3-2B	448×448	210.77	247.55	126.3
Qwen2.5 VL-3B	392×392	321.98	336.45	83.38
Qwen3-VL-4B	384×384	451.07	203.36	75.82

VLM模型端侧推理核心性能数据

Ubuntu系统 RK3576 + RK1828算力卡

模型	上下文尺寸	输出长度	TTFT(ms)	TPOT(ms)	TPS(tokens/s)
Qwen2.5-0.5B	1024	2048	157.39	6.73	148.61
Qwen2.5-0.5B	1024	4096	156.46	6.83	146.51
Qwen2.5-1.5B	1024	2048	311.2	9.55	104.72
Qwen2.5-1.5B	1024	4096	311.96	9.99	100.1
Qwen2.5-3B	1024	2048	521.04	13.44	74.38
Qwen2.5-3B	1024	4096	520.31	13.75	72.72
Qwen3-4B	1024	2048	937.24	15.45	64.74
Qwen3-4B	1024	4096	929.67	15.54	64.34
Qwen2.5-7B	1024	2048	1242.4	17.73	56.4
Qwen2.5-7B	1024	4096	1287.12	17.83	56.08
Qwen3-8B	1024	2048	1355.74	20.91	47.82
Qwen3-8B	1024	4096	1353.15	20.91	47.83

LLM模型端侧推理核心性能数据

模型	Vision分辨率	Vision(ms)	LLM TTFT(ms)	LLM Decode TPS(tokens/s)
FastVLM 1.5B stage 3	512×512	151.18	130.55	118.11
InternVL3-2B	448×448	207.66	245.57	117.53
Qwen2.5 VL-3B	392×392	316.77	316.69	82.64
Qwen3-VL-4B	384×384	188.74	406.42	75.00

VLM模型端侧推理核心性能数据

Android系统 RK3588 + RK1828算力卡

模型	上下文尺寸	输出长度	TTFT(ms)	TPOT(ms)	TPS(tokens/s)
Qwen2.5-0.5B	1024	2048	129.23	5.61	178.23
Qwen2.5-0.5B	1024	4096	139.01	5.72	174.75
Qwen2.5-1.5B	1024	2048	262.01	8.34	119.84
Qwen2.5-1.5B	1024	4096	266.87	8.65	115.6
Qwen2.5-3B	1024	2048	457.12	11.76	85.06
Qwen2.5-3B	1024	4096	448.11	12.14	82.4
Qwen3-4B	1024	2048	567.66	13.42	74.5
Qwen3-4B	1024	4096	583.42	13.8	72.48
Qwen2.5-7B	1024	2048	1141.81	16.13	62.01
Qwen2.5-7B	1024	4096	830.95	16.24	61.58
Qwen3-8B	1024	2048	1258.39	19.06	52.46
Qwen3-8B	1024	4096	924	18.84	53.09

LLM模型端侧推理核心性能数据

模型	Vision分辨率	Vision(ms)	LLM TTFT (ms)	LLM Decode TPS(tokens/s)
FastVLM_1.5B_stage 3	512×512	131.48	136.93	120.19
InternVL3-2B	448×448	182.66	229.47	120.05
Qwen2.5 VL-3B	392×392	281.04	298.42	87.9
Qwen3-VL-4B	384×384	165.57	377.58	78.08

VLM模型端侧推理核心性能数据

测试参数说明

测试基于主控SOC + RK1820/RK1828，两者之间通过PCIe连接；
TTFT：模型生成第一个token所需的时间；
TPOT：生成每个输出token所需的平均时间；
TPS：模型每秒能生成的token数量；
VLM的Vision和LLM耗时为独立测试。

RK182X系列算力卡即将到货，欢迎有需要的客户朋友持续关注！

咨询立即获得专属报价

联系销售 | 报价咨询 | 索取样品

华北区负责人

华东区负责人

华南区负责人

中西区负责人

RK182X系列算力卡 20TOPS 算力加持，边缘大模型高效运行

RK182X系列算力卡，让大模型落地更简单

20TOPS硬核算力，8B大模型端侧推理无压力

主流模型全覆盖，打通算法生态壁垒

LLM大语言模型

VLM多模态模型

CNN卷积网络

完备工具链

兼容全主控+双系统，老设备零成本焕新算力

储能行业私有化知识库落地案例

本地部署

高速响应

开箱即用

为什么选择RK182X算力卡？

即插即用

全平台覆盖

场景化方案

稳定可靠

端侧推理实测性能数据

Ubuntu系统 RK3568 + RK1828算力卡

Ubuntu系统 RK3576 + RK1828算力卡

Android系统 RK3588 + RK1828算力卡

测试参数说明

咨询立即获得专属报价

相关产品 >

推荐阅读 换一批

产品

服务

资讯

品牌

推荐阅读换一批