Merge branch 'apache:main' into main

jikechao · Oct 30, 2024 · beac1b2 · beac1b2
2 parents 46e7f0e + e3e27f5
commit beac1b2
Show file tree

Hide file tree

Showing 1,532 changed files with 107,416 additions and 23,056 deletions.
diff --git a/.github/actions/setup/action.yml b/.github/actions/setup/action.yml
@@ -1,35 +1,39 @@
 runs:
  using: "composite"
  steps:
-  - uses: actions/cache@v1
+  - uses: actions/cache@v3
     env:
-      CACHE_NUMBER: 0
+      CACHE_NUMBER: 1
     with:
       path: ~/conda_pkgs_dir
       key: ${{ runner.os }}-conda-${{ env.CACHE_NUMBER }}-${{ hashFiles('conda/build-environment.yaml') }}
-  - uses: conda-incubator/setup-miniconda@v2
+  - uses: conda-incubator/setup-miniconda@v3
     continue-on-error: true
     id: conda1
     with:
       activate-environment: tvm-build
       channel-priority: strict
       environment-file: conda/build-environment.yaml
       auto-activate-base: false
+      conda-solver: classic
       use-only-tar-bz2: true
-      python-version: 3.7
+      python-version: 3.9
       condarc-file: conda/condarc
-  - uses: conda-incubator/setup-miniconda@v2
+  - uses: conda-incubator/setup-miniconda@v3
     if: steps.conda1.outcome == 'failure'
     with:
       activate-environment: tvm-build
       channel-priority: strict
       environment-file: conda/build-environment.yaml
       auto-activate-base: false
+      conda-solver: classic
       use-only-tar-bz2: true
-      python-version: 3.7
+      python-version: 3.9
       condarc-file: conda/condarc
   - name: Conda info
     shell: pwsh
     run: |
       conda info
       conda list
+      conda info --envs
+      conda list --name base
diff --git a/.github/workflows/main.yml b/.github/workflows/main.yml
@@ -77,15 +77,17 @@ jobs:
       - name: Minimal Metal Compile-and-Run
         shell: bash -l {0}
         run: >-
+          python -m pytest -v -s 'tests/python/codegen/test_target_codegen_metal.py'
+          python -m pytest -v -s 'tests/python/codegen/test_target_codegen_gpu_common.py'
           python -m pytest -v -s 'tests/python/codegen/test_gpu_codegen_allreduce.py::test_allreduce_sum[dims0-metal]'
-      - name: Test iOS RPC
-        shell: bash -l {0}
-        run: >-
-          python -m pip install tornado psutil cloudpickle &&
-          export PYTHONPATH=tests/python/contrib:${PYTHONPATH} &&
-          export BUNDLE_ID=org.apache.tvmrpc &&
-          export BUNDLE_PATH=build-ios-simulator/apps/ios_rpc/ios_rpc/src/ios_rpc-build/Release-iphonesimulator/tvmrpc.app &&
-          python -m pytest -v tests/python/contrib/test_rpc_server_device.py
+#      - name: Test iOS RPC
+#        shell: bash -l {0}
+#        run: >-
+#          python -m pip install tornado psutil cloudpickle &&
+#          export PYTHONPATH=tests/python/contrib:${PYTHONPATH} &&
+#          export BUNDLE_ID=org.apache.tvmrpc &&
+#          export BUNDLE_PATH=build-ios-simulator/apps/ios_rpc/ios_rpc/src/ios_rpc-build/Release-iphonesimulator/tvmrpc.app &&
+#          python -m pytest -v tests/python/contrib/test_rpc_server_device.py
 
   Windows:
     if: ${{ github.repository == 'apache/tvm' }}
@@ -173,7 +175,7 @@ jobs:
           export PATH="${ANDROID_NDK_LATEST_HOME}:$PATH"
           gradle clean build
       - name: Upload android_rpc APK
-        uses: actions/upload-artifact@v2
+        uses: actions/upload-artifact@v4
         with:
           name: android_rpc-debug.apk
           path: ./apps/android_rpc/app/build/outputs/apk/debug/app-debug.apk
@@ -184,7 +186,7 @@ jobs:
           export PATH="${ANDROID_NDK_LATEST_HOME}:$PATH"
           gradle clean build
       - name: Upload android_deploy APK
-        uses: actions/upload-artifact@v2
+        uses: actions/upload-artifact@v4
         with:
           name: android_deploy-debug.apk
           path: ./apps/android_deploy/app/build/outputs/apk/debug/app-debug.apk
diff --git a/3rdparty/cutlass b/3rdparty/cutlass
diff --git a/3rdparty/dmlc-core b/3rdparty/dmlc-core
diff --git a/3rdparty/flashinfer b/3rdparty/flashinfer
diff --git a/3rdparty/mscclpp/include/common.h b/3rdparty/mscclpp/include/common.h
@@ -0,0 +1,107 @@
+// Copyright (c) Microsoft Corporation.
+// Licensed under the MIT license.
+
+#ifndef MSCCL_COMMON_HPP_
+#define MSCCL_COMMON_HPP_
+
+#if defined(__HIP_PLATFORM_AMD__)
+#define WARP_SIZE 64
+#define __syncwarp() __builtin_amdgcn_wave_barrier()
+#else
+#define WARP_SIZE 32
+#endif
+
+constexpr int NRANKS_PER_NODE = 8;
+constexpr int SCRATCH_SIZE = 1024 * 1024 * 70;  // 35 thread-blocks * 8 ranks * 256KB = 70MB
+
+template <typename To, typename From>
+__forceinline__ __device__ To bit_cast(const From& src) {
+  static_assert(sizeof(To) == sizeof(From), "Size mismatch for bit_cast");
+
+  union {
+    From f;
+    To t;
+  } u;
+  u.f = src;
+  return u.t;
+}
+
+template <typename T>
+__forceinline__ __device__ T add_elements(T a, T b) {
+  return a + b;
+}
+
+template <>
+__forceinline__ __device__ __half2 add_elements(__half2 a, __half2 b) {
+  return __hadd2(a, b);
+}
+
+template <typename T>
+__forceinline__ __device__ int4 add_vectors_helper(int4 a, int4 b) {
+  int4 ret;
+  ret.w = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.w), bit_cast<T, int>(b.w)));
+  ret.x = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.x), bit_cast<T, int>(b.x)));
+  ret.y = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.y), bit_cast<T, int>(b.y)));
+  ret.z = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.z), bit_cast<T, int>(b.z)));
+  return ret;
+}
+
+template <typename T>
+__forceinline__ __device__ int4 add_vectors(int4 a, int4 b) {
+  return add_vectors_helper<T>(a, b);
+}
+
+template <>
+__forceinline__ __device__ int4 add_vectors<__half>(int4 a, int4 b) {
+  return add_vectors_helper<__half2>(a, b);
+}
+
+template <typename T>
+__forceinline__ __device__ uint2 add_vectors_helper(uint2 a, uint2 b) {
+  uint2 ret;
+  ret.x = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.x), bit_cast<T, int>(b.x)));
+  ret.y = bit_cast<int, T>(add_elements(bit_cast<T, int>(a.y), bit_cast<T, int>(b.y)));
+  return ret;
+}
+
+template <typename T>
+__forceinline__ __device__ uint2 add_vectors(uint2 a, uint2 b) {
+  return add_vectors_helper<T>(a, b);
+}
+
+template <>
+__forceinline__ __device__ uint2 add_vectors<__half>(uint2 a, uint2 b) {
+  return add_vectors_helper<__half2>(a, b);
+}
+
+template <typename T>
+__forceinline__ __device__ int add_vectors_helper(int a, int b) {
+  return bit_cast<int, T>(add_elements(bit_cast<T, int>(a), bit_cast<T, int>(b)));
+}
+
+template <typename T>
+__forceinline__ __device__ int add_vectors(int a, int b) {
+  return add_vectors_helper<T>(a, b);
+}
+
+template <>
+__forceinline__ __device__ int add_vectors<__half>(int a, int b) {
+  return add_vectors_helper<__half2>(a, b);
+}
+
+template <typename T>
+__forceinline__ __device__ uint32_t add_vectors_helper(uint32_t a, uint32_t b) {
+  return bit_cast<uint32_t, T>(add_elements(bit_cast<T, uint32_t>(a), bit_cast<T, uint32_t>(b)));
+}
+
+template <typename T>
+__forceinline__ __device__ uint32_t add_vectors(uint32_t a, uint32_t b) {
+  return add_vectors_helper<T>(a, b);
+}
+
+template <>
+__forceinline__ __device__ uint32_t add_vectors<__half>(uint32_t a, uint32_t b) {
+  return add_vectors_helper<__half2>(a, b);
+}
+
+#endif  // MSCCL_COMMON_HPP_
+2 −2		.github/workflows/githubci.yml
+5 −1		CMakeLists.txt
+16 −8		cmake/Sanitizer.cmake
+1 −1		cmake/gtest_cmake.in
+698 −351		doc/Doxyfile
+2 −1		include/dmlc/build_config_default.h
+6 −1		include/dmlc/config.h
+3 −0		include/dmlc/endian.h
+2 −2		include/dmlc/filesystem.h
+5 −3		include/dmlc/input_split_shuffle.h
+8 −11		include/dmlc/io.h
+12 −10		include/dmlc/memory_io.h
+1 −1		include/dmlc/optional.h
+16 −1		include/dmlc/parameter.h
+14 −22		include/dmlc/strtonum.h
+1 −1		include/dmlc/threadediter.h
+2 −2		include/dmlc/timer.h
+5 −5		scripts/packages.mk
+4 −4		scripts/test_script.sh
+3 −3		src/config.cc
+2 −2		src/data.cc
+3 −6		src/data/csv_parser.h
+4 −3		src/data/parser.h
+1 −1		src/io/cached_input_split.h
+5 −4		src/io/hdfs_filesys.cc
+1 −1		src/io/input_split_base.h
+6 −5		src/io/local_filesys.cc
+9 −7		src/io/s3_filesys.cc
+2 −1		src/io/single_file_split.h
+2 −1		test/unittest/unittest_parquet_parser.cc
+2 −2		test/unittest/unittest_thread_group.cc
+2 −2		test/unittest/unittest_threaditer_exc_handling.cc
+10 −8		tracker/dmlc_tracker/tracker.py