支持F32/F16/BF16/INT8/W4A16/W8A16类型;
支持模型Calibration量化;
支持PyTorch、ONNX、Caffe等等深度学习架构;
支持HuggingFace LLM模型,包括浮点模型、AWQ/GPTQ模型;
支持主流模型120+:
1)图像类如yolo系列;
2)语音类如Whisper;
3)LLM模型如Qwen3、Qwen2.5VL、Llama2、MiniCPM-V-2_6、ChatGLM3等等;
采用不同数据类型效果对比图
Qwen2.5-VL-3B-AWQ INT4在算能BM1684X上运行效果