RK182X系列算力卡 20TOPS 算力加持,边缘大模型高效运行

原创 2026-06-10 16:41:00 RK182X RK1820 RK1828
端侧AI算力破局

RK182X系列算力卡,让大模型落地更简单

当下,边缘AI全面进入大语言模型+多模态感知深度融合阶段,储能、工业网关、智能机器人、视频分析等场景,对本地实时推理、低延迟响应、数据安全合规的需求爆发式增长。但RK3588/RK3576/RK3568等主流主控,原生NPU算力有限、内存带宽不足,3B参数量以上的大模型跑不动、响应慢、并发差,“业务刚需猛、端侧算力弱”的冲突日益尖锐。 瑞芯微推出了面向人工智能应用的高性能RK182X系列算力卡,依托RKNN3 SDKV1.0.4的发布,为端侧AI模型部署提供全栈式软件支撑,在端侧推理性能、模型适配、功能接口、推理精度上全方位升级,兼具高性能、高适配、高能耗比优势,即插即用补满算力缺口,让LLM/VLM在边缘设备稳定流畅落地!

RK182X系列算力卡产品展示
硬核算力

20TOPS硬核算力,8B大模型端侧推理无压力

RK182X系列内置多核RISC-V CPU与3D堆叠高带宽DRAM,集成多核高算力NPU,峰值算力可达20TOPS且广泛支持从INT4到FP16的多种计算精度,通过PCIe/USB接口与主控设备高速互联,支持从0.5B到8B多种参数量的大语言/多模态模型及传统CNN模型推理及本地化部署,专注于AI端侧推理,不占主控资源,算力独立输出。

RK1820 RK1828 说明
峰值算力(INT8) 20 TOPS 20 TOPS 峰值算力相同,推理速度基准一致。
DRAM容量 2.5 GB 5 GB RK1828拥有更大的DRAM容量,支持加载更大的模型权重,可流畅运行Qwen3-8B等主流大模型。
支持最大模型参数量 3B 8B

主流模型全覆盖,打通算法生态壁垒

原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型

RK182X算力卡完成主流AI算法全适配,原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型,覆盖自然语言交互、跨模态图文解析、图像分类检测、音频信号处理等全场景AI应用 ,算力调度稳定、推理时延优异,配套完备的模型编译工具链,轻松实现模型量化转换、适配优化与嵌入式端快速投产。

模型分类 包含模型列表
LLM大语言模型 Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Qwen2.5-7B、Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、HY-MT1.5-1.8B、Youtu-LLM-2B、GLM-Edge、Gemma4、Qwen3-Reranker-0.6B、Qwen3-Reranker-4B、Qwen3-Embedding-4B
VLM多模态模型 Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen2.5-0mni-3B (Thinker)、Qwen3-VL-2B、Qwen3-VL-4B、FastVLM-1.6B、InternVL3-2B、InternVL3.5-4B、MiMo-VL-7B-RL、SmoVLM、SmoVLM2、UI_TARS、PaddleOCRVL、gme-Qwen2-VL-2B
CNN/视觉模型 SigLIP、SigLIP2、MetaCLIP2、DINOV2、DINOv3、MobileNetV1、MobileNetV2、ResNet-50、YOLOv5、YOLOv6、YOLOv8、YOLO-World、Diffusion Policy
声音模型 GROOT、VITS、Qwen3-ASR、Qwen3_TTS、Whisper、SenseVoice、Zipformer
01

LLM大语言模型

自然语言交互、知识问答、文本生成

02

VLM多模态模型

图文解析、视觉问答、跨模态理解

03

CNN卷积网络

图像分类、目标检测、音频信号处理

04

完备工具链

量化转换、适配优化、快速投产

全平台兼容

兼容全主控+双系统,老设备零成本焕新算力

RK182X系列算力卡全兼容RK3588、RK3576、RK3568等瑞芯微主流主控,适配Linux/Android双系统,PCIe直插即用无需额外驱动适配。依托该架构设计,产品实现跨主控、跨系统通用,存量在用设备可零改造升级AI大模型算力,无需更换主板、修改整机结构、重新做产品认证,老旧边缘网关工控主机、AI边缘盒能够低成本迭代升级为高性能AI推理终端,规避硬件换代带来的高额改造成本与周期损耗。

RK3568作为大批量商用落地平台,自带1TOPS板载NPU,原生算力无法适配端侧大模型推理场景;设备预留PCIe扩展位,选配RK1820/RK1828算力卡后可新增20TOPS独立NPU算力,存量整机无需改版,低成本完成算力扩容,稳定运行大语言、多模态大模型。

软件层面,飞凌嵌入式已完成RK182X全系列在Linux/Android双系统的深度驱动调试与全量算子落地验证:工业视觉、服务机器人(Linux端)、智能交互一体机、商用智慧屏(Android端)等多场景均可即插即用。单张算力卡可跨硬件平台、跨操作系统复用,有效压缩客户备货库存、后期运维成本,落地「一卡通用 ,旧机焕新」的边缘算力升级方案

OK3588-C开发板搭配RK1828算力卡

OK3588-C开发板搭配RK1828算力卡实物展示
模型 主控平台 Input_Tokens New_Tokens 主控板载NPU推理性能Decode TPS(Tokens/s) 搭配RK182X推理性能(Tokens/s)
Qwen3-VL-2B RK3588 128 128 15.12 142.37
RK3576 128 128 7.67 138.53
RK3568 128 128 不支持大模型推理 137.3

测试参数说明:Input_Tokens和New_tokens分别代表输入/输出Tokens数量;TPS:模型每秒能生成的token数量。

储能行业私有化知识库落地案例

基于RK3588+RK1828算力卡,打造储能专属AI问答交互系统

针对储能BMS场景的储能系统AI问答交互系统需求,飞凌嵌入式基于RK3588+RK1828算力卡打造储能专属私有化知识库,集成语音识别ASR与语音合成TTS模块支持全语音问答,支持多级BMS储能设备实时运行数据查询和储能系统故障智能诊断,精准解析运维人员的提问意图,支持故障排查、数据查询、分析建议等连续交互,端侧离线部署无需联网,实现数据本地闭环、合规安全。

本地部署

数据不出场站,满足电力储能行业安全合规要求

高速响应

大语言模型端侧推理输出速度稳定60+tokens/s,故障诊断、数据查询实时输出

开箱即用

支持知识库快速导入、语音交互、自定义MCP、接口标准化

为什么选择RK182X算力卡?

1

即插即用

PCIe/USB双接口 ,双系统支持,部署周期缩短50%+。

2

全平台覆盖

完美支持RK3588/3576/3568,存量设备一键升级算力。

3

场景化方案

储能、工业、机器人等垂直场景定制优化,提供全套技术支持。

4

稳定可靠

工业级品质,批量交付有保障,技术团队全程护航。

RK182X系列算力卡真正解决端侧大模型算力短缺,让LLM/VLM本地跑得稳、跑得快、用得起!

端侧推理实测性能数据

结合真实业务场景下的上下文尺寸和输出长度,多平台实测验证

Ubuntu系统 RK3568 + RK1828算力卡

模型 上下文尺寸 输出长度 TTFT(ms) TPOT(ms) Decode TPS(tokens/s)
Qwen2.5-0.5B 1024 2048 166.12 6.03 165.73
1024 4096 165.65 6.22 160.75
Qwen2.5-1.5B 1024 2048 323.11 9.03 110.76
1024 4096 323.59 9.34 107.02
Qwen2.5-3B 1024 2048 527.28 12.75 78.43
1024 4096 527.66 13.15 76.03
Qwen3-4B 1024 2048 978.94 14.49 69.01
1024 4096 680.97 14.79 67.61
Qwen2.5-7B 1024 2048 1280.04 16.81 59.48
1024 4096 1278.79 17.09 58.51
Qwen3-8B 1024 2048 1401.68 19.89 50.28
1024 4096 1418.61 20.08 49.79
LLM模型端侧推理核心性能数据
模型 Vision分辨率 Vision(ms) LLM TTFT (ms) LLM Decode TPS(tokens/s)
FastVLM 1.5B stage 3 512×512 152.19 135.51 127.31
InternVL3-2B 448×448 210.77 247.55 126.3
Qwen2.5 VL-3B 392×392 321.98 336.45 83.38
Qwen3-VL-4B 384×384 451.07 203.36 75.82
VLM模型端侧推理核心性能数据

Ubuntu系统 RK3576 + RK1828算力卡

模型 上下文尺寸 输出长度 TTFT(ms) TPOT(ms) TPS(tokens/s)
Qwen2.5-0.5B 1024 2048 157.39 6.73 148.61
1024 4096 156.46 6.83 146.51
Qwen2.5-1.5B 1024 2048 311.2 9.55 104.72
1024 4096 311.96 9.99 100.1
Qwen2.5-3B 1024 2048 521.04 13.44 74.38
1024 4096 520.31 13.75 72.72
Qwen3-4B 1024 2048 937.24 15.45 64.74
1024 4096 929.67 15.54 64.34
Qwen2.5-7B 1024 2048 1242.4 17.73 56.4
1024 4096 1287.12 17.83 56.08
Qwen3-8B 1024 2048 1355.74 20.91 47.82
1024 4096 1353.15 20.91 47.83
LLM模型端侧推理核心性能数据
模型 Vision分辨率 Vision(ms) LLM TTFT(ms) LLM Decode TPS(tokens/s)
FastVLM 1.5B stage 3 512×512 151.18 130.55 118.11
InternVL3-2B 448×448 207.66 245.57 117.53
Qwen2.5 VL-3B 392×392 316.77 316.69 82.64
Qwen3-VL-4B 384×384 188.74 406.42 75.00
VLM模型端侧推理核心性能数据

Android系统 RK3588 + RK1828算力卡

模型 上下文尺寸 输出长度 TTFT(ms) TPOT(ms) TPS(tokens/s)
Qwen2.5-0.5B 1024 2048 129.23 5.61 178.23
1024 4096 139.01 5.72 174.75
Qwen2.5-1.5B 1024 2048 262.01 8.34 119.84
1024 4096 266.87 8.65 115.6
Qwen2.5-3B 1024 2048 457.12 11.76 85.06
1024 4096 448.11 12.14 82.4
Qwen3-4B 1024 2048 567.66 13.42 74.5
1024 4096 583.42 13.8 72.48
Qwen2.5-7B 1024 2048 1141.81 16.13 62.01
1024 4096 830.95 16.24 61.58
Qwen3-8B 1024 2048 1258.39 19.06 52.46
1024 4096 924 18.84 53.09
LLM模型端侧推理核心性能数据
模型 Vision分辨率 Vision(ms) LLM TTFT (ms) LLM Decode TPS(tokens/s)
FastVLM_1.5B_stage 3 512×512 131.48 136.93 120.19
InternVL3-2B 448×448 182.66 229.47 120.05
Qwen2.5 VL-3B 392×392 281.04 298.42 87.9
Qwen3-VL-4B 384×384 165.57 377.58 78.08
VLM模型端侧推理核心性能数据

测试参数说明

  • 测试基于主控SOC + RK1820/RK1828,两者之间通过PCIe连接;
  • TTFT:模型生成第一个token所需的时间;
  • TPOT:生成每个输出token所需的平均时间;
  • TPS:模型每秒能生成的token数量;
  • VLM的Vision和LLM耗时为独立测试。

RK182X系列算力卡即将到货,欢迎有需要的客户朋友持续关注!

咨询立即获得专属报价

华北区负责人二维码

华北区负责人

华东区负责人二维码

华东区负责人

华南区负责人二维码

华南区负责人

中西区负责人二维码

中西区负责人

相关产品 >

  • FET3568-C核心板

    RK3568性能强而稳 国产芯|飞凌嵌入式RK3568系列核心板,采用瑞芯微国产高性能AI处理器RK3568设计生产,RK3568兼具CPU、GPU、NPU、VPU于一身,RK3568 性能、性价比在同类产品中具有较高优势,RK3568处理器是一款定位中高端的通用型SoC, 飞凌RK3568核心板主要面向工业互联网、HMI、NVR存储、车载中控、工业网关等领域。目前RK3568系列已经批量稳定出货

    了解详情
    FET3568-C核心板
  • FET3588-C核心板

    RK3588芯片系列是Rockchip推出的旗舰级工业级产品,采用先进的8nm制程工艺,集成4核Cortex-A76+4核Cortex-A55架构,A76主频高达2.4GHz,A55核主频高达1.8GHz,能够提供强大的性能支撑。飞凌FET3588-C核心板经过了严苛的环境温度测试和压力测试,确保在高端应用中能够稳定运行。您可以通过飞凌提供的rk3588开发套件充分评估和验证其性能。

    了解详情
    FET3588-C核心板
  • FET3576-C核心板

    飞凌嵌入式RK3576核心板集成了强大的处理器和丰富的接口,提供出色的计算能力和扩展性。RK3576核心板以其卓越的性能、低功耗和稳定性,成为工业、AIoT、边缘计算、智能移动终端等领域的理想选择。无论是数据处理还是边缘计算,RK3576都能为项目提供强大的硬件支持。核心板推荐选择飞凌嵌入式瑞芯微系列RK3576J业级核心板、RK3576高性能核心板 了解详情
    FET3576-C核心板
  • FET3572-C核心板

    FET3572-C核心板基于瑞芯微新一代八核AIoT平台RK3572处理器开发设计,集成了2个ARM Cortex-A73和6个ARM Cortex-A53高性能核,内置4TOPS超强算力NPU,为各类边缘AI应用提供强劲算力支撑。瑞芯微RK3572,兼顾高性能、低功耗与全栈AI能力的AIoT芯片,新一代八核AIoT芯片,双核A73+六核A53、8nm、4TOPS NPU、8K解码。 了解详情
    FET3572-C核心板

推荐阅读 换一批 换一批