[common] fix bug for dtype convertion function #79

abenmao · 2023-11-24T09:03:01Z

No description provided.

changqi1 · 2023-11-24T11:01:03Z

@abenmao I have some concerns about the kernel perf because there is a conditional judgment in every loop. Would use the following logic to fix this bug.

    constexpr int kStep = 16;
    int blockSize = size / kStep;
    int remainder = size % kStep;

    for (int i = 0; i < blockSize; ++i) {
        __m512 input_vector = _mm512_loadu_ps(src + i * 16);
        __m256i output_vector = cvt_fp32_to_bf16(input_vector);
        _mm256_mask_storeu_epi16(dst + i * 16, 0xffff, output_vector);
    }

    if (remainder != 0) {
        __mmask16 mask = 0xFFFF >> (16 - remainder);
        __m512 input_vector = _mm512_maskz_loadu_ps(mask, src + size - remainder);
        __m256i output_vector = cvt_fp32_to_bf16(input_vector);
        _mm256_mask_storeu_epi16(dst + size - remainder, mask, output_vector);
    }

[common] fix bug for dtype convertion function

44ee799

changqi1 closed this Nov 24, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[common] fix bug for dtype convertion function #79

[common] fix bug for dtype convertion function #79

abenmao commented Nov 24, 2023

changqi1 commented Nov 24, 2023 •

edited

Loading

[common] fix bug for dtype convertion function #79

[common] fix bug for dtype convertion function #79

Conversation

abenmao commented Nov 24, 2023

changqi1 commented Nov 24, 2023 • edited Loading

changqi1 commented Nov 24, 2023 •

edited

Loading