Merge pull request #130 from Kuadrant/token-rate-limit-sequence-diagram-patch

jasonmadigan · web-flow · commit c7b1bd24d2e5 · 2025-07-21T16:32:10.000+01:00
0013-ai-policies: Update token rate limit sequence diagram
diff --git a/rfcs/0013-ai-policies.md b/rfcs/0013-ai-policies.md
@@ -253,7 +253,7 @@ sequenceDiagram
 
   %% pre-model-server token rate limiting check
   GW->>GW: Parse model from request body
-  GW->>L: ShouldRateLimit (hits_addend: 0)
+  GW->>L: CheckRateLimit (read only op)
   alt Limit not reached
     L-->>GW: Rate limit OK
   else Limit reached
@@ -270,7 +270,7 @@ sequenceDiagram
   GW->>GW: Parse usage metrics from response body
 
   %% update token usage count via Limitador
-  GW->>L: ShouldRateLimit (hits_addend: func(usage_metrics))
+  GW->>L: ReportRateLimit (hits_addend: func(usage_metrics))
   L-->>GW: Acknowledge token count update
 
   %% final inference response: deliver back to client