[inference] Add support for request cancelation #200757

pgayvallet · 2024-11-19T15:18:00Z

At the moment, the inference APIs (chatComplete and output) don't provide any way to perform cancelation of a running request / call.

Technically, the genAI stack connectors all support passing an abort signal for their stream sub actions.

E.g for genAI:

kibana/x-pack/plugins/stack_connectors/server/connector_types/openai/openai.ts

Lines 200 to 201 in 9372027

    
           public async streamApi( 
        
             { body, stream, signal, timeout }: StreamActionParams,

.

So it should be possible to leverage that to perform cancelation.

The main question here is how do we want to expose this feature.

For normal (non-stream) mode of the APIs, allowing to passing an abort controller as parameter, and passing the controller down to the stack connector call seems like a good option.
For stream mode, it's less obvious. We could follow the same approach, but it's not really the way it's supposed to be done for observables. The obs-friendly way would be to perform cancelation on unsubscription. This would require some work to make the internal observable chain be compatible with that approach (as we're not using a pure observable as a source). extracted to [inference] Cancel request in stream mode when unsubscribing #203816

The text was updated successfully, but these errors were encountered:

elasticmachine · 2024-11-19T15:18:16Z

Pinging @elastic/appex-ai-infra (Team:AI Infra)

legrego · 2024-11-19T18:50:11Z

For normal (non-stream) mode of the APIs, allowing to passing an abort controller as parameter, and passing the controller down to the stack connector call seems like a good option.

👍 seems reasonable to me.

For stream mode, it's less obvious. We could follow the same approach, but it's not really the way it's supposed to be done for observables. The obs-friendly way would be to perform cancelation on unsubscription. This would require some work to make the internal observable chain be compatible with that approach (as we're not using a pure observable as a source).

@pgayvallet It seems like you have a preferred approach, but it's a bit more effort. Am I misreading, or are there additional considerations such as time pressure or feasibility?

pgayvallet · 2024-11-20T12:15:10Z

There's no time pressure AFAIK.

Regarding feasibility, I'm not 100% sure without doing some testing, but I think we could have the two approaches between stream and non-stream mode cohabitate.

So hopefully it's just about some more effort, yes.

pgayvallet · 2024-12-11T15:08:46Z

I created #203816 to isolate the "cancel on unsubscribe" part of that issue

) ## Summary Fix #200757 Add cancelation support for `chatComplete` and `output`, based on an abort signal. ### Examples #### response mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; try { const abortController = new AbortController(); const chatResponse = await inferenceClient.chatComplete({ connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); } catch(e) { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } // elsewhere abortController.abort() ``` #### stream mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; const abortController = new AbortController(); const events$ = inferenceClient.chatComplete({ stream: true, connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); events$.subscribe({ next: (event) => { // do something }, error: (err) => { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } }); abortController.abort(); ```

…tic#203108) ## Summary Fix elastic#200757 Add cancelation support for `chatComplete` and `output`, based on an abort signal. ### Examples #### response mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; try { const abortController = new AbortController(); const chatResponse = await inferenceClient.chatComplete({ connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); } catch(e) { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } // elsewhere abortController.abort() ``` #### stream mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; const abortController = new AbortController(); const events$ = inferenceClient.chatComplete({ stream: true, connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); events$.subscribe({ next: (event) => { // do something }, error: (err) => { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } }); abortController.abort(); ``` (cherry picked from commit 0b74f62)

…tic#203108) ## Summary Fix elastic#200757 Add cancelation support for `chatComplete` and `output`, based on an abort signal. ### Examples #### response mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; try { const abortController = new AbortController(); const chatResponse = await inferenceClient.chatComplete({ connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); } catch(e) { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } // elsewhere abortController.abort() ``` #### stream mode ```ts import { isInferenceRequestAbortedError } from '@kbn/inference-common'; const abortController = new AbortController(); const events$ = inferenceClient.chatComplete({ stream: true, connectorId: 'some-gen-ai-connector', abortSignal: abortController.signal, messages: [{ role: MessageRole.User, content: 'Do something' }], }); events$.subscribe({ next: (event) => { // do something }, error: (err) => { if(isInferenceRequestAbortedError(e)) { // request was aborted, do something } else { // was another error, do something else } } }); abortController.abort(); ```

pgayvallet added the Team:AI Infra AppEx AI Infrastructure Team label Nov 19, 2024

pgayvallet mentioned this issue Nov 19, 2024

[Observability AI Assistant] Fully migrate to inference client #197630

Closed

This was referenced Dec 5, 2024

[inference] Add cancelation support for chatComplete and output #203105

Closed

[inference] Add cancelation support for chatComplete and output #203108

Merged

[inference] Cancel request in stream mode when unsubscribing #203816

Open

pgayvallet closed this as completed in #203108 Dec 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[inference] Add support for request cancelation #200757

[inference] Add support for request cancelation #200757

pgayvallet commented Nov 19, 2024 •

edited

Loading

elasticmachine commented Nov 19, 2024

legrego commented Nov 19, 2024

pgayvallet commented Nov 20, 2024

pgayvallet commented Dec 11, 2024

[inference] Add support for request cancelation #200757

[inference] Add support for request cancelation #200757

Comments

pgayvallet commented Nov 19, 2024 • edited Loading

elasticmachine commented Nov 19, 2024

legrego commented Nov 19, 2024

pgayvallet commented Nov 20, 2024

pgayvallet commented Dec 11, 2024

pgayvallet commented Nov 19, 2024 •

edited

Loading