TPU-MLIR开发参考手册

发布记录

版本

发布日期

说明

v1.28.0

2026.04.14

llm_convert 新增 Qwen3.5、Qwen3-ASR、PaddleOCR-VL 与 lfm2-vl 支持; LLM 支持多卡流水线(PP)与 batch-size 部署; 新增 WeightDeduplicate Pass,合并完全相同的权重; 支持 yolov26 后处理融合,新增 llm_model 内存分析工具

v1.27.0

2026.02.04

支持 FP8 CUDA 推理; 动态量化新增 per-token/per-channel 与混合 group-size 模式; LoRA 与动态 shape 支持多核; 新增模块哈希 dump/load 实现编译缓存复用; TPULang 新增 RotPosEmb 与 cumsum 接口

v1.26.0

2025.12.25

新增 CUDA 推理框架; BM1684X 支持动态分组量化; bmodel 文件按 4K 对齐(model_tool 可刷新已有 bmodel); Qwen3-VL 多 ViT 与 LightStereo 支持; LLM 支持 compressed-tensors 模式

v1.25.0

2025.11.28

Qwen3-VL支持 BM1690E支持

v1.24.0

2025.10.30

MINICPMV4支持 支持模型系统与设备内存峰值预估

v1.23.0

2025.09.30

GLM4.1V支持 BM1688 Conv, MatMul支持W4A8量化

v1.22.0

2025.08.31

PPL支持动态编译 llm_analyse支持大模型性能预估

v1.21.0

2025.07.31

BM1688支持yolov8后处理 bmodel_checker支持替换错误输出为参考数据

v1.20.0

2025.06.30

支持IO_RELOC功能; Deconv3D INT8精度问题修复; BatchNorm和Conv反向算子支持128 batch训练

v1.19.0

2025.05.30

支持AWQ与GPTQ模型; 修复Deconv3D F16, F32精度问题

v1.18.0

2025.05.01

yolo系列增加自动混精设置; run_calibration增加SmoothQuant选择; 新增llm一键编译脚本

v1.17.0

2025.04.03

LLM模型编译速度大幅提升; TPULang支持PPL算子接入; 修复Trilu bf16在CV184X上随机出错问题

v1.16.0

2025.03.03

TPULang ROI_Extractor支持; Einsum支持 abcde,abfge->abcdfg模式; LLMC支持Vila模型

v1.15.0

2025.02.05

支持LLMC量化; codegen地址越界判断; 修复若干对比问题

v1.14.0

2025.01.02

yolov8/v11后处理融合支持; Conv3D stride大于15支持; FAttention精度提升

v1.13.0

2024.12.02

精简Release发布包; MaxPoolWithMask训练算子性能优化; RoPE大算子支持;

v1.12.0

2024.11.06

tpuv7-runtime cmodel接入; 支持PPL编写后端算子

v1.11.0

2024.09.27

BM1688 tdb增加SoC模式; bmodel支持细粒度合并; 修复若干性能下降问题

v1.10.0

2024.08.15

支持yolov10; 增加量化调优章节; 优化tpu-perf日志打印

v1.9.0

2024.07.16

量化算法新增octav,aciq_guas和aciq_laplace

v1.8.0

2024.05.30

TPULang支持输入输出顺序指定; tpuperf移除patchelf依赖

v1.7.0

2024.05.15

CV186X双核修改为单核; 支持gemma/llama/qwen等模型

v1.6.0

2024.02.23

添加了Pypi发布形式; 支持用户自定义Global算子; 支持了CV186X处理器平台

v1.5.0

2023.11.03

更多Global Layer支持多核并行;

v1.4.0

2023.09.27

系统依赖升级到Ubuntu22.04; 支持了BM1684 Winograd

v1.3.0

2023.07.27

增加手动指定浮点运算区域功能; 添加支持的前端框架算子列表; 添加NNTC与TPU-MLIR量化方式比较

v1.2.0

2023.06.14

调整了混合量化示例

v1.1.0

2023.05.26

添加使用智能深度学习处理器做后处理

v1.0.0

2023.04.10

支持PyTorch, 增加章节介绍转PyTorch模型

v0.8.0

2023.02.28

添加使用智能深度学习处理器做前处理

v0.6.0

2022.11.05

增加章节介绍混精度操作过程

v0.5.0

2022.10.20

增加指定model-zoo, 测试其中的所有模型

v0.4.0

2022.09.20

支持Caffe, 增加章节介绍转Caffe模型

v0.3.0

2022.08.24

支持TFLite, 增加章节介绍转TFLite模型。

v0.2.0

2022.08.02

增加了运行SDK中的测试样例章节。

v0.1.0

2022.07.29

初版发布, 支持 resnet/mobilenet/vgg/ssd/yolov5s , 并用yolov5s作为用例。

目录