livekit · sam-s10s · May 5, 2026 · devin-ai-integration · May 5, 2026
diff --git a/livekit-agents/livekit/agents/stt/stt.py b/livekit-agents/livekit/agents/stt/stt.py
@@ -7,7 +7,10 @@
 from dataclasses import dataclass, field
 from enum import Enum, unique
 from types import TracebackType
-from typing import Any, Generic, Literal, TypeVar
+from typing import TYPE_CHECKING, Any, Generic, Literal, TypeVar
+
+if TYPE_CHECKING:
+    from .. import vad as _vad
 
 from pydantic import BaseModel, ConfigDict, Field
 
@@ -277,6 +280,15 @@ def prewarm(self) -> None:
         """Pre-warm connection to the STT service"""
         pass
 
+    def on_vad_event(self, ev: _vad.VADEvent) -> None:
+        """Receive VAD events from the session-level VAD, when one is attached.
+
+        Default implementation is a no-op. Plugins may override this to react to
+        external VAD signals — for example, to call `finalize()` on END_OF_SPEECH
+        when running in an externally-driven turn detection mode.
+        """
+        pass
+
 
 class RecognizeStream(ABC):
     class _FlushSentinel:

diff --git a/livekit-agents/livekit/agents/voice/audio_recognition.py b/livekit-agents/livekit/agents/voice/audio_recognition.py
@@ -880,6 +880,14 @@ async def _on_stt_event(self, ev: stt.SpeechEvent) -> None:
 
     @utils.log_exceptions(logger=logger)
     async def _on_vad_event(self, ev: vad.VADEvent) -> None:
+        # Forward to the active STT plugin so it can react to session-level VAD
+        # (e.g. call finalize() on END_OF_SPEECH for externally-driven modes).
+        if (stt_inst := self._session.stt) is not None:
+            try:
+                stt_inst.on_vad_event(ev)
+            except Exception:
+                logger.exception("error forwarding VAD event to STT")
+
         if ev.type == vad.VADEventType.START_OF_SPEECH:
             speech_start_time = time.time() - ev.speech_duration - ev.inference_duration
             if not self._vad_speech_started: