Support Features on Ascend NPU#
This section describes the basic functions and features supported by the Ascend NPU.If you encounter issues or have any questions, please open an issue.
If you want to know the meaning and usage of each parameter, click Server Arguments.
Model and tokenizer#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
|
A2, A3 |
|
{} |
Type: str |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
|
A2, A3 |
HTTP server#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
Quantization and data type#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: str |
Special For GPU |
|
|
|
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
Special For GPU |
|
|
Type: str |
Special For GPU |
|
|
Type: str |
Special For GPU |
|
|
Type: str |
Special For GPU |
|
|
bool flag |
Special For GPU |
|
|
Type: str |
Special For GPU |
Memory and scheduling#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: float |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
Runtime options#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Optional[Callable] |
A2, A3 |
Logging#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
|
A2, A3 |
|
text |
text, json |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
List[str] |
A2, A3 |
|
|
List[float] |
A2, A3 |
|
|
List[float] |
A2, A3 |
|
|
List[float] |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
List[str] |
A2, A3 |
|
|
List[str] |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
A2, A3 |
RequestMetricsExporter configuration#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
A2, A3 |
|
|
Type: str |
A2, A3 |
Data parallelism#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
bool flag |
A2, A3 |
Multi-node distributed serving#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
Model override args#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
LoRA#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: List[str] / |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
Special for GPU |
Kernel Backends (Attention, Sampling, Grammar, GEMM)#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
Special for GPU |
|
|
|
Special for GPU |
|
|
|
Special for GPU |
|
|
bool flag |
Special for GPU |
Speculative decoding#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
|
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: float |
Special for GPU |
|
|
Type: float |
Special for GPU |
|
|
Type: str |
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
Ngram speculative decoding#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
Experimental |
|
|
Type: int |
Experimental |
|
|
Type: int |
Experimental |
|
|
Type: int |
Experimental |
|
|
|
Experimental |
|
|
Type: int |
Experimental |
|
|
Type: int |
Experimental |
Expert parallelism#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
Special for GPU |
|
|
bool flag |
Special for GPU |
|
|
|
A2, A3 |
|
|
Type: str |
Special for GPU |
|
|
Type: int |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
bool flag (set to enable) |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
|
Special for GPU |
|
|
Type: str |
Special for GPU |
Mamba Cache#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: int |
A2, A3 |
Hierarchical cache#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
A2, A3 |
|
|
Type: float |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
|
Special for GPU |
|
|
Type: str |
Special for GPU |
LMCache#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
Special for GPU |
Offloading#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: str |
A2, A3 |
Args for multi-item scoring#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: int |
A2, A3 |
Optimization/debug options#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
List[int] |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Planned |
|
|
bool flag |
A2, A3 |
|
|
Type: float |
Planned |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: JSON |
A2, A3 |
|
|
[“eager”, “inductor”] |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
`` |
Type: str |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
Special for GPU |
|
|
Type: int |
Special for GPU |
|
|
Type: int |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
List[int] |
A2, A3 |
|
|
|
Planned |
|
|
bool flag |
Special for GPU |
|
|
bool flag |
Experimental |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
Special for GPU |
Dynamic batch tokenizer#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: float |
A2, A3 |
Debug tensor dumps#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
List[int] |
A2, A3 |
|
|
Type: str |
A2, A3 |
PD disaggregation#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
|
A2, A3 |
|
|
|
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: str |
Special for GPU |
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: int |
A2, A3 |
Encode prefill disaggregation#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
|
A2, A3 |
|
|
List[str] |
A2, A3 |
Custom weight loader#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
List[str] |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
Type: int |
A2, A3 |
|
|
Type: JSON |
A2, A3 |
|
|
|
A2, A3 |
|
|
bool flag |
Special for GPU |
For PD-Multiplexing#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
Special for GPU |
|
|
Type: str |
Special for GPU |
|
|
Type: int |
Special for GPU |
For Multi-Modal#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
32 |
Type: int |
A2, A3 |
|
10.0 |
Type: float |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: JSON / Dict |
A2, A3 |
|
|
bool flag |
A2, A3 |
|
|
Type: JSON / Dict |
A2, A3 |
For checkpoint decryption#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
|
|
Type: str |
A2, A3 |
|
|
bool flag |
A2, A3 |
For deterministic inference#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
bool flag |
Planned |
For registering hooks#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: JSON list |
A2, A3 |
Configuration file support#
Argument |
Defaults |
Options |
Server supported |
|---|---|---|---|
|
|
Type: str |
A2, A3 |
Other Params#
The following parameters are not supported because the third-party components that depend on are not compatible with the NPU, like Ktransformer, checkpoint-engine etc.
Argument |
Defaults |
Options |
|---|---|---|
|
|
bool flag (set to enable) |
|
|
Type: str |
|
|
Type: str |
|
|
Type: int |
|
2 |
Type: int |
|
|
Type: int |
|
|
Type: int |
The following parameters have some functional deficiencies on community
Argument |
Defaults |
Options |
|---|---|---|
|
|
bool flag |
|
|
Type: str |
|
|
Type: int |
|
|
Type: int |
|
|
Type: str |
|
|
Type: int |
|
|
Type: str |