RK182X系列算力卡 20TOPS 算力加持,边缘大模型高效运行
RK182X系列算力卡,让大模型落地更简单
当下,边缘AI全面进入大语言模型+多模态感知深度融合阶段,储能、工业网关、智能机器人、视频分析等场景,对本地实时推理、低延迟响应、数据安全合规的需求爆发式增长。但RK3588/RK3576/RK3568等主流主控,原生NPU算力有限、内存带宽不足,3B参数量以上的大模型跑不动、响应慢、并发差,“业务刚需猛、端侧算力弱”的冲突日益尖锐。 瑞芯微推出了面向人工智能应用的高性能RK182X系列算力卡,依托RKNN3 SDKV1.0.4的发布,为端侧AI模型部署提供全栈式软件支撑,在端侧推理性能、模型适配、功能接口、推理精度上全方位升级,兼具高性能、高适配、高能耗比优势,即插即用补满算力缺口,让LLM/VLM在边缘设备稳定流畅落地!
20TOPS硬核算力,8B大模型端侧推理无压力
RK182X系列内置多核RISC-V CPU与3D堆叠高带宽DRAM,集成多核高算力NPU,峰值算力可达20TOPS且广泛支持从INT4到FP16的多种计算精度,通过PCIe/USB接口与主控设备高速互联,支持从0.5B到8B多种参数量的大语言/多模态模型及传统CNN模型推理及本地化部署,专注于AI端侧推理,不占主控资源,算力独立输出。
| RK1820 | RK1828 | 说明 | |
|---|---|---|---|
| 峰值算力(INT8) | 20 TOPS | 20 TOPS | 峰值算力相同,推理速度基准一致。 |
| DRAM容量 | 2.5 GB | 5 GB | RK1828拥有更大的DRAM容量,支持加载更大的模型权重,可流畅运行Qwen3-8B等主流大模型。 |
| 支持最大模型参数量 | 3B | 8B |
主流模型全覆盖,打通算法生态壁垒
原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型
RK182X算力卡完成主流AI算法全适配,原生支持LLM大语言、VLM图文多模态、CNN卷积网络三类核心模型,覆盖自然语言交互、跨模态图文解析、图像分类检测、音频信号处理等全场景AI应用 ,算力调度稳定、推理时延优异,配套完备的模型编译工具链,轻松实现模型量化转换、适配优化与嵌入式端快速投产。
| 模型分类 | 包含模型列表 |
|---|---|
| LLM大语言模型 | Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Qwen2.5-7B、Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、HY-MT1.5-1.8B、Youtu-LLM-2B、GLM-Edge、Gemma4、Qwen3-Reranker-0.6B、Qwen3-Reranker-4B、Qwen3-Embedding-4B |
| VLM多模态模型 | Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen2.5-0mni-3B (Thinker)、Qwen3-VL-2B、Qwen3-VL-4B、FastVLM-1.6B、InternVL3-2B、InternVL3.5-4B、MiMo-VL-7B-RL、SmoVLM、SmoVLM2、UI_TARS、PaddleOCRVL、gme-Qwen2-VL-2B |
| CNN/视觉模型 | SigLIP、SigLIP2、MetaCLIP2、DINOV2、DINOv3、MobileNetV1、MobileNetV2、ResNet-50、YOLOv5、YOLOv6、YOLOv8、YOLO-World、Diffusion Policy |
| 声音模型 | GROOT、VITS、Qwen3-ASR、Qwen3_TTS、Whisper、SenseVoice、Zipformer |
LLM大语言模型
自然语言交互、知识问答、文本生成
VLM多模态模型
图文解析、视觉问答、跨模态理解
CNN卷积网络
图像分类、目标检测、音频信号处理
完备工具链
量化转换、适配优化、快速投产
兼容全主控+双系统,老设备零成本焕新算力
RK182X系列算力卡全兼容RK3588、RK3576、RK3568等瑞芯微主流主控,适配Linux/Android双系统,PCIe直插即用无需额外驱动适配。依托该架构设计,产品实现跨主控、跨系统通用,存量在用设备可零改造升级AI大模型算力,无需更换主板、修改整机结构、重新做产品认证,老旧边缘网关、工控主机、AI边缘盒能够低成本迭代升级为高性能AI推理终端,规避硬件换代带来的高额改造成本与周期损耗。
RK3568作为大批量商用落地平台,自带1TOPS板载NPU,原生算力无法适配端侧大模型推理场景;设备预留PCIe扩展位,选配RK1820/RK1828算力卡后可新增20TOPS独立NPU算力,存量整机无需改版,低成本完成算力扩容,稳定运行大语言、多模态大模型。
软件层面,飞凌嵌入式已完成RK182X全系列在Linux/Android双系统的深度驱动调试与全量算子落地验证:工业视觉、服务机器人(Linux端)、智能交互一体机、商用智慧屏(Android端)等多场景均可即插即用。单张算力卡可跨硬件平台、跨操作系统复用,有效压缩客户备货库存、后期运维成本,落地「一卡通用 ,旧机焕新」的边缘算力升级方案。
OK3588-C开发板搭配RK1828算力卡
| 模型 | 主控平台 | Input_Tokens | New_Tokens | 主控板载NPU推理性能Decode TPS(Tokens/s) | 搭配RK182X推理性能(Tokens/s) |
|---|---|---|---|---|---|
| Qwen3-VL-2B | RK3588 | 128 | 128 | 15.12 | 142.37 |
| RK3576 | 128 | 128 | 7.67 | 138.53 | |
| RK3568 | 128 | 128 | 不支持大模型推理 | 137.3 |
测试参数说明:Input_Tokens和New_tokens分别代表输入/输出Tokens数量;TPS:模型每秒能生成的token数量。
储能行业私有化知识库落地案例
基于RK3588+RK1828算力卡,打造储能专属AI问答交互系统
针对储能BMS场景的储能系统AI问答交互系统需求,飞凌嵌入式基于RK3588+RK1828算力卡打造储能专属私有化知识库,集成语音识别ASR与语音合成TTS模块支持全语音问答,支持多级BMS储能设备实时运行数据查询和储能系统故障智能诊断,精准解析运维人员的提问意图,支持故障排查、数据查询、分析建议等连续交互,端侧离线部署无需联网,实现数据本地闭环、合规安全。
本地部署
数据不出场站,满足电力储能行业安全合规要求
高速响应
大语言模型端侧推理输出速度稳定60+tokens/s,故障诊断、数据查询实时输出
开箱即用
支持知识库快速导入、语音交互、自定义MCP、接口标准化
为什么选择RK182X算力卡?
即插即用
PCIe/USB双接口 ,双系统支持,部署周期缩短50%+。
全平台覆盖
完美支持RK3588/3576/3568,存量设备一键升级算力。
场景化方案
储能、工业、机器人等垂直场景定制优化,提供全套技术支持。
稳定可靠
工业级品质,批量交付有保障,技术团队全程护航。
RK182X系列算力卡真正解决端侧大模型算力短缺,让LLM/VLM本地跑得稳、跑得快、用得起!
端侧推理实测性能数据
结合真实业务场景下的上下文尺寸和输出长度,多平台实测验证
Ubuntu系统 RK3568 + RK1828算力卡
| 模型 | 上下文尺寸 | 输出长度 | TTFT(ms) | TPOT(ms) | Decode TPS(tokens/s) |
|---|---|---|---|---|---|
| Qwen2.5-0.5B | 1024 | 2048 | 166.12 | 6.03 | 165.73 |
| 1024 | 4096 | 165.65 | 6.22 | 160.75 | |
| Qwen2.5-1.5B | 1024 | 2048 | 323.11 | 9.03 | 110.76 |
| 1024 | 4096 | 323.59 | 9.34 | 107.02 | |
| Qwen2.5-3B | 1024 | 2048 | 527.28 | 12.75 | 78.43 |
| 1024 | 4096 | 527.66 | 13.15 | 76.03 | |
| Qwen3-4B | 1024 | 2048 | 978.94 | 14.49 | 69.01 |
| 1024 | 4096 | 680.97 | 14.79 | 67.61 | |
| Qwen2.5-7B | 1024 | 2048 | 1280.04 | 16.81 | 59.48 |
| 1024 | 4096 | 1278.79 | 17.09 | 58.51 | |
| Qwen3-8B | 1024 | 2048 | 1401.68 | 19.89 | 50.28 |
| 1024 | 4096 | 1418.61 | 20.08 | 49.79 |
| 模型 | Vision分辨率 | Vision(ms) | LLM TTFT (ms) | LLM Decode TPS(tokens/s) |
|---|---|---|---|---|
| FastVLM 1.5B stage 3 | 512×512 | 152.19 | 135.51 | 127.31 |
| InternVL3-2B | 448×448 | 210.77 | 247.55 | 126.3 |
| Qwen2.5 VL-3B | 392×392 | 321.98 | 336.45 | 83.38 |
| Qwen3-VL-4B | 384×384 | 451.07 | 203.36 | 75.82 |
Ubuntu系统 RK3576 + RK1828算力卡
| 模型 | 上下文尺寸 | 输出长度 | TTFT(ms) | TPOT(ms) | TPS(tokens/s) |
|---|---|---|---|---|---|
| Qwen2.5-0.5B | 1024 | 2048 | 157.39 | 6.73 | 148.61 |
| 1024 | 4096 | 156.46 | 6.83 | 146.51 | |
| Qwen2.5-1.5B | 1024 | 2048 | 311.2 | 9.55 | 104.72 |
| 1024 | 4096 | 311.96 | 9.99 | 100.1 | |
| Qwen2.5-3B | 1024 | 2048 | 521.04 | 13.44 | 74.38 |
| 1024 | 4096 | 520.31 | 13.75 | 72.72 | |
| Qwen3-4B | 1024 | 2048 | 937.24 | 15.45 | 64.74 |
| 1024 | 4096 | 929.67 | 15.54 | 64.34 | |
| Qwen2.5-7B | 1024 | 2048 | 1242.4 | 17.73 | 56.4 |
| 1024 | 4096 | 1287.12 | 17.83 | 56.08 | |
| Qwen3-8B | 1024 | 2048 | 1355.74 | 20.91 | 47.82 |
| 1024 | 4096 | 1353.15 | 20.91 | 47.83 |
| 模型 | Vision分辨率 | Vision(ms) | LLM TTFT(ms) | LLM Decode TPS(tokens/s) |
|---|---|---|---|---|
| FastVLM 1.5B stage 3 | 512×512 | 151.18 | 130.55 | 118.11 |
| InternVL3-2B | 448×448 | 207.66 | 245.57 | 117.53 |
| Qwen2.5 VL-3B | 392×392 | 316.77 | 316.69 | 82.64 |
| Qwen3-VL-4B | 384×384 | 188.74 | 406.42 | 75.00 |
Android系统 RK3588 + RK1828算力卡
| 模型 | 上下文尺寸 | 输出长度 | TTFT(ms) | TPOT(ms) | TPS(tokens/s) |
|---|---|---|---|---|---|
| Qwen2.5-0.5B | 1024 | 2048 | 129.23 | 5.61 | 178.23 |
| 1024 | 4096 | 139.01 | 5.72 | 174.75 | |
| Qwen2.5-1.5B | 1024 | 2048 | 262.01 | 8.34 | 119.84 |
| 1024 | 4096 | 266.87 | 8.65 | 115.6 | |
| Qwen2.5-3B | 1024 | 2048 | 457.12 | 11.76 | 85.06 |
| 1024 | 4096 | 448.11 | 12.14 | 82.4 | |
| Qwen3-4B | 1024 | 2048 | 567.66 | 13.42 | 74.5 |
| 1024 | 4096 | 583.42 | 13.8 | 72.48 | |
| Qwen2.5-7B | 1024 | 2048 | 1141.81 | 16.13 | 62.01 |
| 1024 | 4096 | 830.95 | 16.24 | 61.58 | |
| Qwen3-8B | 1024 | 2048 | 1258.39 | 19.06 | 52.46 |
| 1024 | 4096 | 924 | 18.84 | 53.09 |
| 模型 | Vision分辨率 | Vision(ms) | LLM TTFT (ms) | LLM Decode TPS(tokens/s) |
|---|---|---|---|---|
| FastVLM_1.5B_stage 3 | 512×512 | 131.48 | 136.93 | 120.19 |
| InternVL3-2B | 448×448 | 182.66 | 229.47 | 120.05 |
| Qwen2.5 VL-3B | 392×392 | 281.04 | 298.42 | 87.9 |
| Qwen3-VL-4B | 384×384 | 165.57 | 377.58 | 78.08 |
测试参数说明
- 测试基于主控SOC + RK1820/RK1828,两者之间通过PCIe连接;
- TTFT:模型生成第一个token所需的时间;
- TPOT:生成每个输出token所需的平均时间;
- TPS:模型每秒能生成的token数量;
- VLM的Vision和LLM耗时为独立测试。
RK182X系列算力卡即将到货,欢迎有需要的客户朋友持续关注!
华北区负责人
华东区负责人
华南区负责人
中西区负责人
相关产品 >
-
FET3568-C核心板
RK3568性能强而稳 国产芯|飞凌嵌入式RK3568系列核心板,采用瑞芯微国产高性能AI处理器RK3568设计生产,RK3568兼具CPU、GPU、NPU、VPU于一身,RK3568 性能、性价比在同类产品中具有较高优势,RK3568处理器是一款定位中高端的通用型SoC, 飞凌RK3568核心板主要面向工业互联网、HMI、NVR存储、车载中控、工业网关等领域。目前RK3568系列已经批量稳定出货
了解详情
-
FET3588-C核心板
RK3588芯片系列是Rockchip推出的旗舰级工业级产品,采用先进的8nm制程工艺,集成4核Cortex-A76+4核Cortex-A55架构,A76主频高达2.4GHz,A55核主频高达1.8GHz,能够提供强大的性能支撑。飞凌FET3588-C核心板经过了严苛的环境温度测试和压力测试,确保在高端应用中能够稳定运行。您可以通过飞凌提供的rk3588开发套件充分评估和验证其性能。
了解详情
-
FET3576-C核心板
飞凌嵌入式RK3576核心板集成了强大的处理器和丰富的接口,提供出色的计算能力和扩展性。RK3576核心板以其卓越的性能、低功耗和稳定性,成为工业、AIoT、边缘计算、智能移动终端等领域的理想选择。无论是数据处理还是边缘计算,RK3576都能为项目提供强大的硬件支持。核心板推荐选择飞凌嵌入式瑞芯微系列RK3576J业级核心板、RK3576高性能核心板。 了解详情
-
FET3572-C核心板
FET3572-C核心板基于瑞芯微新一代八核AIoT平台RK3572处理器开发设计,集成了2个ARM Cortex-A73和6个ARM Cortex-A53高性能核,内置4TOPS超强算力NPU,为各类边缘AI应用提供强劲算力支撑。瑞芯微RK3572,兼顾高性能、低功耗与全栈AI能力的AIoT芯片,新一代八核AIoT芯片,双核A73+六核A53、8nm、4TOPS NPU、8K解码。 了解详情

