CUDA bitonic merge

Experiments writing a bitonic merge for CUDA to quickly sort/argsort vectors on the order of 10^6 elements.

run

docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm -v $(pwd):/workspace/cbm -v /tmp:/tmp nvcr.io/nvidia/pytorch:24.01-py3
cd cbm
pip install -e .
pytest tests/test_sort.py

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.vscode		.vscode
cbm		cbm
csrc		csrc
tests		tests
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
context.py		context.py
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CUDA bitonic merge

run

About

Releases

Packages

Languages

skrider/cuda-bitonic-merge

Folders and files

Latest commit

History

Repository files navigation

CUDA bitonic merge

run

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages