[feat] Added Quest Sparsity Policy.

2026-01-07 03:29:21 +08:00
parent c99a6f3d3f
commit 2a6e0a2c02
9 changed files with 92 additions and 92 deletions
--- a/nanovllm/kvcache/sparse/policy.py
+++ b/nanovllm/kvcache/sparse/policy.py
@@ -7,15 +7,11 @@ from CPU for each query chunk during chunked attention computation.

 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from enum import Enum, auto
 from typing import List, Optional, Any
 import torch

-
-class SparsePolicyType(Enum):
-    """Built-in sparse attention policy types."""
-    FULL = auto()   # prefill + decode
-    QUEST = auto()  # decode only
+# Import SparsePolicyType from config to avoid circular imports
+from nanovllm.config import SparsePolicyType


@dataclass