Fix tokenizer bug #3

nanbo-liu · 2024-03-22T15:43:24Z

It looks like pipeline is required to have a tokenizer property.
I added a tokenizer property, even though it's not being used for anything.
Notes that sentence-transformers model has their own tokenizer under property model.

in mlserver-huggingface.common.py::load_pipeline_from_setting function

    # If max_batch_size > 1 we need to ensure tokens are padded
    if settings.max_batch_size > 1:
        model = hf_pipeline.model
        if not hf_pipeline.tokenizer.pad_token_id:
            eos_token_id = model.config.eos_token_id  # type: ignore
            if eos_token_id:
                hf_pipeline.tokenizer.pad_token_id = [str(eos_token_id)]  # type: ignore
            else:
                logger.warning(
                    "Model has neither pad_token or eos_token, setting batch size to 1"
                )
                hf_pipeline._batch_size = 1

We are doing some modification to tokenizer when max_batch_size is greater than 1.
It also seems that inference server would deliberately set max_batch_size to be greater than 1
Sentence-transformer model has their own way to handle max_batch_size.
To avoid bug, we keep a tokenizer property in StEmbeddingPipeline

Nanbo Liu added 6 commits March 22, 2024 15:36

update to fix tokenizer bug

b80eb23

rerun lint

53c5a65

rerun lint

f7bcaad

rerun lint

46c0249

rerun lint

2a8a8cb

rerun lint

4b314f6

ajsalow approved these changes Mar 22, 2024

View reviewed changes

nanbo-liu merged commit 8aee783 into Striveworks:master Mar 22, 2024
29 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix tokenizer bug #3

Fix tokenizer bug #3

nanbo-liu commented Mar 22, 2024 •

edited

Loading

Fix tokenizer bug #3

Fix tokenizer bug #3

Conversation

nanbo-liu commented Mar 22, 2024 • edited Loading

nanbo-liu commented Mar 22, 2024 •

edited

Loading