TPU-MLIR开发参考手册

- 地址:
北京市海淀区丰豪东路9号院中关村集成电路设计园(ICPARK)1号楼
- 邮编:
100094
- 网址:
- 邮箱:
- 电话:
010-57590723
版本 |
发布日期 |
说明 |
---|---|---|
v1.19.0 |
2025.05.30 |
支持AWQ与GPTQ模型; 修复Deconv3D F16, F32精度问题 |
v1.18.0 |
2025.05.01 |
yolo系列增加自动混精设置; run_calibration增加SmoothQuant选择; 新增llm一键编译脚本 |
v1.17.0 |
2025.04.03 |
LLM模型编译速度大幅提升; TPULang支持PPL算子接入; 修复Trilu bf16在Mars3上随机出错问题 |
v1.16.0 |
2025.03.03 |
TPULang ROI_Extractor支持; Einsum支持 abcde,abfge->abcdfg模式; LLMC支持Vila模型 |
v1.15.0 |
2025.02.05 |
支持LLMC量化; codegen地址越界判断; 修复若干对比问题 |
v1.14.0 |
2025.01.02 |
yolov8/v11后处理融合支持; Conv3D stride大于15支持; FAttention精度提升 |
v1.13.0 |
2024.12.02 |
精简Release发布包; MaxPoolWithMask训练算子性能优化; RoPE大算子支持; |
v1.12.0 |
2024.11.06 |
tpuv7-runtime cmodel接入; BM1690多核LayerGroup优化; 支持PPL编写后端算子 |
v1.11.0 |
2024.09.27 |
BM1688 tdb增加soc模式; bmodel支持细粒度合并; 修复若干性能下降问题 |
v1.10.0 |
2024.08.15 |
支持yolov10; 增加量化调优章节; 优化tpu-perf日志打印 |
v1.9.0 |
2024.07.16 |
BM1690新增40个模型回归测试; 量化算法新增octav,aciq_guas和aciq_laplace |
v1.8.0 |
2024.05.30 |
BM1690支持多核MatMul算子; TPULang支持输入输出顺序指定; tpuperf移除patchelf依赖 |
v1.7.0 |
2024.05.15 |
CV186X双核修改为单核; BM1690测试流程与BM1684X一致; 支持gemma/llama/qwen等模型 |
v1.6.0 |
2024.02.23 |
添加了Pypi发布形式; 支持用户自定义Global算子; 支持了CV186X处理器平台 |
v1.5.0 |
2023.11.03 |
更多Global Layer支持多核并行; |
v1.4.0 |
2023.09.27 |
系统依赖升级到Ubuntu22.04; 支持了BM1684 Winograd |
v1.3.0 |
2023.07.27 |
增加手动指定浮点运算区域功能; 添加支持的前端框架算子列表; 添加NNTC与TPU-MLIR量化方式比较 |
v1.2.0 |
2023.06.14 |
调整了混合量化示例 |
v1.1.0 |
2023.05.26 |
添加使用智能深度学习处理器做后处理 |
v1.0.0 |
2023.04.10 |
支持PyTorch, 增加章节介绍转PyTorch模型 |
v0.8.0 |
2023.02.28 |
添加使用智能深度学习处理器做前处理 |
v0.6.0 |
2022.11.05 |
增加章节介绍混精度操作过程 |
v0.5.0 |
2022.10.20 |
增加指定model-zoo, 测试其中的所有模型 |
v0.4.0 |
2022.09.20 |
支持Caffe, 增加章节介绍转Caffe模型 |
v0.3.0 |
2022.08.24 |
支持TFLite, 增加章节介绍转TFLite模型。 |
v0.2.0 |
2022.08.02 |
增加了运行SDK中的测试样例章节。 |
v0.1.0 |
2022.07.29 |
初版发布, 支持 |
目录
- 1. TPU-MLIR简介
- 2. 开发环境配置
- 3. 用户界面
- 4. 整体设计
- 5. 前端转换
- 6. 量化
- 7. Calibration
- 8. Lowering
- 9. SubNet
- 10. LayerGroup
- 11. GMEM分配
- 12. CodeGen
- 13. MLIR定义
- 14. 精度验证
- 15. QAT量化感知训练
- 16. TpuLang接口
- 17. 用户自定义算子
- 18. 用PPL写后端算子
- 19. final.mlir 截断方式
- 20. MaskRCNN 大算子接口指南
- 21. LLMC使用指南
- 22. TPU Profile工具使用及分析
- 23. 附录01:从 NNTC 迁移至 TPU-MLIR
- 24. 附录02:TpuLang的基本元素
- 24.1. 张量(Tensor)
- 24.2. 张量前处理(Tensor.preprocess)
- 24.3. 标量(Scalar)
- 24.4. Control Functions
- 24.5. Operator
- 24.5.1. NN/Matrix Operator
- 24.5.2. Base Element-wise Operator
- 24.5.3. Element-wise Compare Operator
- 24.5.4. Activation Operator
- 24.5.5. Data Arrange Operator
- 24.5.6. Sort Operator
- 24.5.7. Shape About Operator
- 24.5.8. Quant Operator
- 24.5.9. Up/Down Scaling Operator
- 24.5.10. Normalization Operator
- 24.5.11. Vision Operator
- 24.5.12. Select Operator
- 24.5.13. Preprocess Operator
- 24.5.14. Transform Operator
- 24.5.15. Transform Operator
- 24.5.16. Transform Operator
- 24.5.17. Transform Operator