Merge pull request #67 from PeterDing/fix/decoding-positions

fix(model_runner): correct position indexing to be 0-based
2025-08-31 18:05:45 +08:00
parent 38baf0bbe4 f5b4840276
commit 6a6d217de7
1 changed files with 1 additions and 1 deletions
--- a/nanovllm/engine/model_runner.py
+++ b/nanovllm/engine/model_runner.py
@@ -167,7 +167,7 @@ class ModelRunner:
        context_lens = []
        for seq in seqs:
            input_ids.append(seq.last_token)
-            positions.append(len(seq))
+            positions.append(len(seq) - 1)
            context_lens.append(len(seq))
            slot_mapping.append(seq.block_table[-1] * self.block_size + seq.last_block_num_tokens  - 1)
        input_ids = torch.tensor(input_ids, dtype=torch.int64, pin_memory=True).cuda(non_blocking=True)