Adds support for large number of buffers to `DeviceMemcpy::Batched` #4065

elstehle · 2025-03-10T02:47:47Z

Description

Partially addresses #3622

The idea is to use the streaming approach over the buffers being copied, processing at most 512 M buffers at a time. I chose 512 M instead of INT_MAX because that helps to lower the temporary storage requirements for very large number of buffers.
Specifically,

I removed the template parameter BufferOffsetT from the DispatchBatchMemcpy. This type is supposed to represent the num_buffers value provided by the user. Instead I fixed this type to be int64_t. I think having that an extra template parameter is now somewhat superfluous and confusing.
I added a detail::batch_memcpy::per_invocation_buffer_offset_t = ::cuda::std::uint32_t; type alias, which is the hard-coded buffer offset type that we instantiate the relevant kernel templates with.

github-actions · 2025-03-10T04:20:59Z

🟨 CI finished in 1h 31m: Pass: 51%/93 | Total: 1d 21h | Avg: 29m 20s | Max: 1h 20m | Hits: 79%/80264

🟥 cub: Pass: 0%/45 | Total: 22h 35m | Avg: 30m 07s | Max: 1h 20m

🟥 cpu
  🟥 amd64              Pass:   0%/43  | Total: 21h 11m | Avg: 29m 33s | Max:  1h 20m
  🟥 arm64              Pass:   0%/2   | Total:  1h 24m | Avg: 42m 05s | Max: 42m 39s
🟥 ctk
  🟥 12.0               Pass:   0%/5   | Total:  3h 25m | Avg: 41m 04s | Max:  1h 06m
  🟥 12.5               Pass:   0%/2   | Total:  1h 09m | Avg: 34m 49s | Max: 35m 09s
  🟥 12.8               Pass:   0%/38  | Total: 18h 00m | Avg: 28m 25s | Max:  1h 20m
🟥 cudacxx
  🟥 ClangCUDA18        Pass:   0%/2   | Total:  6m 27s | Avg:  3m 13s | Max:  3m 17s
  🟥 nvcc12.0           Pass:   0%/5   | Total:  3h 25m | Avg: 41m 04s | Max:  1h 06m
  🟥 nvcc12.5           Pass:   0%/2   | Total:  1h 09m | Avg: 34m 49s | Max: 35m 09s
  🟥 nvcc12.8           Pass:   0%/36  | Total: 17h 53m | Avg: 29m 49s | Max:  1h 20m
🟥 cudacxx_family
  🟥 ClangCUDA          Pass:   0%/2   | Total:  6m 27s | Avg:  3m 13s | Max:  3m 17s
  🟥 nvcc               Pass:   0%/43  | Total: 22h 28m | Avg: 31m 22s | Max:  1h 20m
🟥 cxx
  🟥 Clang14            Pass:   0%/4   | Total:  2h 16m | Avg: 34m 01s | Max: 34m 57s
  🟥 Clang15            Pass:   0%/2   | Total:  1h 07m | Avg: 33m 48s | Max: 34m 38s
  🟥 Clang16            Pass:   0%/2   | Total:  1h 07m | Avg: 33m 42s | Max: 34m 28s
  🟥 Clang17            Pass:   0%/2   | Total:  1h 09m | Avg: 34m 41s | Max: 36m 37s
  🟥 Clang18            Pass:   0%/7   | Total:  1h 52m | Avg: 16m 07s | Max: 42m 39s
  🟥 GCC7               Pass:   0%/2   | Total:  1h 06m | Avg: 33m 09s | Max: 34m 32s
  🟥 GCC8               Pass:   0%/1   | Total: 32m 04s | Avg: 32m 04s | Max: 32m 04s
  🟥 GCC9               Pass:   0%/2   | Total:  1h 08m | Avg: 34m 06s | Max: 34m 15s
  🟥 GCC10              Pass:   0%/2   | Total:  1h 09m | Avg: 34m 56s | Max: 35m 37s
  🟥 GCC11              Pass:   0%/2   | Total:  1h 05m | Avg: 32m 41s | Max: 33m 28s
  🟥 GCC12              Pass:   0%/2   | Total:  1h 05m | Avg: 32m 43s | Max: 33m 49s
  🟥 GCC13              Pass:   0%/11  | Total:  2h 42m | Avg: 14m 48s | Max: 43m 20s
  🟥 MSVC14.29          Pass:   0%/2   | Total:  2h 26m | Avg:  1h 13m | Max:  1h 19m
  🟥 MSVC14.42          Pass:   0%/2   | Total:  2h 35m | Avg:  1h 17m | Max:  1h 20m
  🟥 NVHPC24.7          Pass:   0%/2   | Total:  1h 09m | Avg: 34m 49s | Max: 35m 09s
🟥 cxx_family
  🟥 Clang              Pass:   0%/17  | Total:  7h 33m | Avg: 26m 40s | Max: 42m 39s
  🟥 GCC                Pass:   0%/22  | Total:  8h 50m | Avg: 24m 06s | Max: 43m 20s
  🟥 MSVC               Pass:   0%/4   | Total:  5h 02m | Avg:  1h 15m | Max:  1h 20m
  🟥 NVHPC              Pass:   0%/2   | Total:  1h 09m | Avg: 34m 49s | Max: 35m 09s
🟥 gpu
  🟥 h100               Pass:   0%/3   | Total: 13m 16s | Avg:  4m 25s | Max: 13m 16s
  🟥 rtx2080            Pass:   0%/34  | Total: 21h 18m | Avg: 37m 35s | Max:  1h 20m
  🟥 rtxa6000           Pass:   0%/8   | Total:  1h 04m | Avg:  8m 00s | Max: 32m 19s
🟥 jobs
  🟥 Build              Pass:   0%/37  | Total: 22h 35m | Avg: 36m 38s | Max:  1h 20m
  🟥 DeviceLaunch       Pass:   0%/1  
  🟥 GraphCapture       Pass:   0%/1  
  🟥 HostLaunch         Pass:   0%/3  
  🟥 TestGPU            Pass:   0%/3  
🟥 sm
  🟥 90                 Pass:   0%/3   | Total: 13m 16s | Avg:  4m 25s | Max: 13m 16s
  🟥 90;90a;100         Pass:   0%/1   | Total: 43m 20s | Avg: 43m 20s | Max: 43m 20s
🟥 std
  🟥 17                 Pass:   0%/20  | Total: 12h 52m | Avg: 38m 37s | Max:  1h 20m
  🟥 20                 Pass:   0%/25  | Total:  9h 42m | Avg: 23m 18s | Max:  1h 14m

🟩 thrust: Pass: 100%/45 | Total: 21h 37m | Avg: 28m 49s | Max: 55m 46s | Hits: 79%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 36m 41s | Avg: 18m 20s | Max: 25m 18s | Hits:  89%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 20h 47m | Avg: 29m 00s | Max: 55m 46s | Hits:  79%/76401 
  🟩 arm64              Pass: 100%/2   | Total: 50m 24s | Avg: 25m 12s | Max: 26m 37s | Hits:  79%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 46m | Avg: 33m 15s | Max: 50m 38s | Hits:  74%/8881  
  🟩 12.5               Pass: 100%/2   | Total:  1h 38m | Avg: 49m 00s | Max: 49m 12s | Hits:  73%/3554  
  🟩 12.8               Pass: 100%/38  | Total: 17h 13m | Avg: 27m 11s | Max: 55m 46s | Hits:  80%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 47m 19s | Avg: 23m 39s | Max: 24m 59s | Hits:  79%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 46m | Avg: 33m 15s | Max: 50m 38s | Hits:  74%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 38m | Avg: 49m 00s | Max: 49m 12s | Hits:  73%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 16h 25m | Avg: 27m 23s | Max: 55m 46s | Hits:  80%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 47m 19s | Avg: 23m 39s | Max: 24m 59s | Hits:  79%/3554  
  🟩 nvcc               Pass: 100%/43  | Total: 20h 50m | Avg: 29m 04s | Max: 55m 46s | Hits:  79%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 50m | Avg: 27m 39s | Max: 28m 53s | Hits:  79%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 54m 06s | Avg: 27m 03s | Max: 27m 16s | Hits:  79%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 57m 10s | Avg: 28m 35s | Max: 29m 31s | Hits:  79%/3554  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 01m | Avg: 30m 39s | Max: 31m 02s | Hits:  79%/3554  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 23m | Avg: 20m 31s | Max: 28m 14s | Hits:  85%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 59m 24s | Avg: 29m 42s | Max: 29m 54s | Hits:  79%/3556  
  🟩 GCC8               Pass: 100%/1   | Total: 30m 01s | Avg: 30m 01s | Max: 30m 01s | Hits:  79%/1778  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 00m | Avg: 30m 27s | Max: 31m 06s | Hits:  79%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 56m 45s | Avg: 28m 22s | Max: 28m 48s | Hits:  79%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 57m 51s | Avg: 28m 55s | Max: 30m 34s | Hits:  79%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 58m 46s | Avg: 29m 23s | Max: 29m 41s | Hits:  79%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 25m | Avg: 20m 32s | Max: 33m 14s | Hits:  87%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 41m | Avg: 50m 56s | Max: 51m 14s | Hits:  55%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 21m | Avg: 47m 12s | Max: 55m 46s | Hits:  60%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 38m | Avg: 49m 00s | Max: 49m 12s | Hits:  73%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 06m | Avg: 25m 06s | Max: 31m 02s | Hits:  81%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  8h 49m | Avg: 25m 11s | Max: 33m 14s | Hits:  83%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  4h 03m | Avg: 48m 42s | Max: 55m 46s | Hits:  58%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 38m | Avg: 49m 00s | Max: 49m 12s | Hits:  73%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 28m 42s | Avg: 14m 21s | Max: 17m 05s | Hits:  89%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total: 17h 28m | Avg: 31m 46s | Max: 53m 45s | Hits:  76%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 40m | Avg: 22m 00s | Max: 55m 46s | Hits:  86%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 20h 05m | Avg: 31m 43s | Max: 55m 46s | Hits:  76%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 50s | Avg: 15m 56s | Max: 32m 07s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 43m 59s | Avg: 10m 59s | Max: 11m 37s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 28m 42s | Avg: 14m 21s | Max: 17m 05s | Hits:  89%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total: 33m 14s | Avg: 33m 14s | Max: 33m 14s | Hits:  79%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 11h 05m | Avg: 33m 15s | Max: 53m 45s | Hits:  75%/35531 
  🟩 20                 Pass: 100%/23  | Total:  9h 55m | Avg: 25m 54s | Max: 55m 46s | Hits:  82%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 15m 05s | Avg: 7m 32s | Max: 12m 47s | Hits: 98%/308

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 15m 05s | Avg:  7m 32s | Max: 12m 47s | Hits:  98%/308   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 18s | Avg:  2m 18s | Max:  2m 18s | Hits:  98%/154   
  🟩 Test               Pass: 100%/1   | Total: 12m 47s | Avg: 12m 47s | Max: 12m 47s | Hits:  98%/154

🟩 python: Pass: 100%/1 | Total: 1h 01m | Avg: 1h 01m | Max: 1h 01m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

github-actions · 2025-03-10T08:54:41Z

🟩 CI finished in 1h 08m: Pass: 100%/93 | Total: 17h 23m | Avg: 11m 13s | Max: 1h 00m | Hits: 94%/133878

🟩 cub: Pass: 100%/45 | Total: 9h 23m | Avg: 12m 31s | Max: 34m 15s | Hits: 91%/53614

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  9h 08m | Avg: 12m 45s | Max: 34m 15s | Hits:  91%/51178 
  🟩 arm64              Pass: 100%/2   | Total: 15m 11s | Avg:  7m 35s | Max:  8m 03s | Hits:  97%/2436  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 00m | Avg: 12m 05s | Max: 29m 36s | Hits:  83%/5922  
  🟩 12.5               Pass: 100%/2   | Total: 22m 43s | Avg: 11m 21s | Max: 11m 41s | Hits:  96%/2254  
  🟩 12.8               Pass: 100%/38  | Total:  8h 00m | Avg: 12m 38s | Max: 34m 15s | Hits:  92%/45438 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 11m 27s | Avg:  5m 43s | Max:  5m 44s | Hits:  97%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 00m | Avg: 12m 05s | Max: 29m 36s | Hits:  83%/5922  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 22m 43s | Avg: 11m 21s | Max: 11m 41s | Hits:  96%/2254  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  7h 49m | Avg: 13m 02s | Max: 34m 15s | Hits:  92%/43334 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 11m 27s | Avg:  5m 43s | Max:  5m 44s | Hits:  97%/2104  
  🟩 nvcc               Pass: 100%/43  | Total:  9h 12m | Avg: 12m 50s | Max: 34m 15s | Hits:  91%/51510 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 30m 00s | Avg:  7m 30s | Max:  7m 47s | Hits:  97%/4880  
  🟩 Clang15            Pass: 100%/2   | Total: 16m 31s | Avg:  8m 15s | Max:  8m 30s | Hits:  97%/2436  
  🟩 Clang16            Pass: 100%/2   | Total: 15m 28s | Avg:  7m 44s | Max:  7m 59s | Hits:  97%/2436  
  🟩 Clang17            Pass: 100%/2   | Total: 15m 19s | Avg:  7m 39s | Max:  7m 44s | Hits:  97%/2436  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 16m | Avg: 10m 55s | Max: 22m 50s | Hits:  98%/8194  
  🟩 GCC7               Pass: 100%/2   | Total: 15m 27s | Avg:  7m 43s | Max:  7m 49s | Hits:  97%/2440  
  🟩 GCC8               Pass: 100%/1   | Total:  7m 35s | Avg:  7m 35s | Max:  7m 35s | Hits:  97%/1220  
  🟩 GCC9               Pass: 100%/2   | Total: 15m 56s | Avg:  7m 58s | Max:  8m 04s | Hits:  97%/2440  
  🟩 GCC10              Pass: 100%/2   | Total: 16m 14s | Avg:  8m 07s | Max:  8m 36s | Hits:  97%/2440  
  🟩 GCC11              Pass: 100%/2   | Total: 16m 29s | Avg:  8m 14s | Max:  8m 40s | Hits:  97%/2436  
  🟩 GCC12              Pass: 100%/2   | Total: 17m 04s | Avg:  8m 32s | Max:  8m 36s | Hits:  97%/2436  
  🟩 GCC13              Pass: 100%/11  | Total:  2h 51m | Avg: 15m 36s | Max: 25m 12s | Hits:  98%/13398 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 00m | Avg: 30m 14s | Max: 30m 52s | Hits:  15%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 06m | Avg: 33m 12s | Max: 34m 15s | Hits:  15%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 22m 43s | Avg: 11m 21s | Max: 11m 41s | Hits:  96%/2254  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 33m | Avg:  9m 02s | Max: 22m 50s | Hits:  97%/20382 
  🟩 GCC                Pass: 100%/22  | Total:  4h 20m | Avg: 11m 50s | Max: 25m 12s | Hits:  97%/26810 
  🟩 MSVC               Pass: 100%/4   | Total:  2h 06m | Avg: 31m 43s | Max: 34m 15s | Hits:  15%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total: 22m 43s | Avg: 11m 21s | Max: 11m 41s | Hits:  96%/2254  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total: 53m 44s | Avg: 17m 54s | Max: 25m 12s | Hits:  98%/3654  
  🟩 rtx2080            Pass: 100%/34  | Total:  6h 08m | Avg: 10m 49s | Max: 34m 15s | Hits:  88%/40216 
  🟩 rtxa6000           Pass: 100%/8   | Total:  2h 22m | Avg: 17m 46s | Max: 23m 48s | Hits:  99%/9744  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  6h 29m | Avg: 10m 32s | Max: 34m 15s | Hits:  89%/43870 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 21m 22s | Avg: 21m 22s | Max: 21m 22s | Hits:  99%/1218  
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 27s | Avg: 16m 27s | Max: 16m 27s | Hits:  99%/1218  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 11m | Avg: 23m 56s | Max: 25m 12s | Hits:  99%/3654  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 04m | Avg: 21m 28s | Max: 22m 49s | Hits:  99%/3654  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total: 53m 44s | Avg: 17m 54s | Max: 25m 12s | Hits:  98%/3654  
  🟩 90;90a;100         Pass: 100%/1   | Total:  9m 23s | Avg:  9m 23s | Max:  9m 23s | Hits:  97%/1218  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 50m | Avg: 11m 30s | Max: 32m 10s | Hits:  86%/23591 
  🟩 20                 Pass: 100%/25  | Total:  5h 33m | Avg: 13m 20s | Max: 34m 15s | Hits:  95%/30023

🟩 thrust: Pass: 100%/45 | Total: 6h 43m | Avg: 8m 57s | Max: 32m 04s | Hits: 96%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 00s | Avg:  8m 30s | Max: 11m 07s | Hits:  99%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  6h 33m | Avg:  9m 09s | Max: 32m 04s | Hits:  96%/76401 
  🟩 arm64              Pass: 100%/2   | Total:  9m 45s | Avg:  4m 52s | Max:  5m 11s | Hits:  99%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 46m 15s | Avg:  9m 15s | Max: 26m 34s | Hits:  94%/8881  
  🟩 12.5               Pass: 100%/2   | Total: 29m 39s | Avg: 14m 49s | Max: 14m 55s | Hits:  99%/3554  
  🟩 12.8               Pass: 100%/38  | Total:  5h 27m | Avg:  8m 36s | Max: 32m 04s | Hits:  96%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 54s | Avg:  4m 57s | Max:  5m 06s | Hits: 100%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 46m 15s | Avg:  9m 15s | Max: 26m 34s | Hits:  94%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 29m 39s | Avg: 14m 49s | Max: 14m 55s | Hits:  99%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  5h 17m | Avg:  8m 49s | Max: 32m 04s | Hits:  96%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 54s | Avg:  4m 57s | Max:  5m 06s | Hits: 100%/3554  
  🟩 nvcc               Pass: 100%/43  | Total:  6h 33m | Avg:  9m 08s | Max: 32m 04s | Hits:  96%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 19m 56s | Avg:  4m 59s | Max:  5m 19s | Hits: 100%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 10m 49s | Avg:  5m 24s | Max:  5m 25s | Hits: 100%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 03s | Avg:  5m 31s | Max:  5m 33s | Hits: 100%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 11m 01s | Avg:  5m 30s | Max:  5m 44s | Hits: 100%/3554  
  🟩 Clang18            Pass: 100%/7   | Total: 42m 17s | Avg:  6m 02s | Max: 10m 15s | Hits: 100%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 10m 28s | Avg:  5m 14s | Max:  5m 25s | Hits:  99%/3556  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 29s | Avg:  5m 29s | Max:  5m 29s | Hits:  99%/1778  
  🟩 GCC9               Pass: 100%/2   | Total: 10m 58s | Avg:  5m 29s | Max:  5m 49s | Hits:  99%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 10m 37s | Avg:  5m 18s | Max:  5m 19s | Hits:  99%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 10m 53s | Avg:  5m 26s | Max:  5m 27s | Hits:  99%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 04s | Avg:  6m 02s | Max:  6m 12s | Hits:  99%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  1h 15m | Avg:  7m 32s | Max: 11m 27s | Hits:  99%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 53m 37s | Avg: 26m 48s | Max: 27m 03s | Hits:  70%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 29m | Avg: 29m 40s | Max: 32m 04s | Hits:  70%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 29m 39s | Avg: 14m 49s | Max: 14m 55s | Hits:  99%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 35m | Avg:  5m 35s | Max: 10m 15s | Hits: 100%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  2h 15m | Avg:  6m 28s | Max: 11m 27s | Hits:  99%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 22m | Avg: 28m 31s | Max: 32m 04s | Hits:  70%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total: 29m 39s | Avg: 14m 49s | Max: 14m 55s | Hits:  99%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 15m 24s | Avg:  7m 42s | Max: 10m 42s | Hits:  99%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total:  4h 20m | Avg:  7m 54s | Max: 27m 03s | Hits:  97%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 07m | Avg: 12m 43s | Max: 32m 04s | Hits:  94%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  5h 12m | Avg:  8m 13s | Max: 29m 56s | Hits:  96%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 05s | Avg: 15m 41s | Max: 32m 04s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 43m 31s | Avg: 10m 52s | Max: 11m 27s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 15m 24s | Avg:  7m 42s | Max: 10m 42s | Hits:  99%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 27s | Avg:  6m 27s | Max:  6m 27s | Hits:  99%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 01m | Avg:  9m 05s | Max: 27m 03s | Hits:  95%/35531 
  🟩 20                 Pass: 100%/23  | Total:  3h 24m | Avg:  8m 53s | Max: 32m 04s | Hits:  97%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 15m 32s | Avg: 7m 46s | Max: 13m 12s | Hits: 98%/308

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max: 13m 12s | Hits:  98%/308   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 20s | Avg:  2m 20s | Max:  2m 20s | Hits:  98%/154   
  🟩 Test               Pass: 100%/1   | Total: 13m 12s | Avg: 13m 12s | Max: 13m 12s | Hits:  98%/154

🟩 python: Pass: 100%/1 | Total: 1h 00m | Avg: 1h 00m | Max: 1h 00m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

…s-batched-cpy

github-actions · 2025-03-13T09:16:49Z

🟩 CI finished in 2h 14m: Pass: 100%/93 | Total: 1d 05h | Avg: 18m 45s | Max: 2h 03m | Hits: 91%/133890

🟩 cub: Pass: 100%/45 | Total: 17h 54m | Avg: 23m 52s | Max: 2h 03m | Hits: 87%/53614

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 17h 39m | Avg: 24m 37s | Max:  2h 03m | Hits:  87%/51178 
  🟩 arm64              Pass: 100%/2   | Total: 15m 32s | Avg:  7m 46s | Max:  8m 16s | Hits:  97%/2436  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 47m | Avg: 21m 29s | Max:  1h 16m | Hits:  82%/5922  
  🟩 12.5               Pass: 100%/2   | Total:  2h 27m | Avg:  1h 13m | Max:  1h 18m | Hits:  62%/2254  
  🟩 12.8               Pass: 100%/38  | Total: 13h 39m | Avg: 21m 34s | Max:  2h 03m | Hits:  89%/45438 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 11m 14s | Avg:  5m 37s | Max:  5m 49s | Hits:  97%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 47m | Avg: 21m 29s | Max:  1h 16m | Hits:  82%/5922  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 27m | Avg:  1h 13m | Max:  1h 18m | Hits:  62%/2254  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 13h 28m | Avg: 22m 27s | Max:  2h 03m | Hits:  89%/43334 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 11m 14s | Avg:  5m 37s | Max:  5m 49s | Hits:  97%/2104  
  🟩 nvcc               Pass: 100%/43  | Total: 17h 43m | Avg: 24m 43s | Max:  2h 03m | Hits:  87%/51510 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 31m 26s | Avg:  7m 51s | Max:  8m 17s | Hits:  97%/4880  
  🟩 Clang15            Pass: 100%/2   | Total: 16m 16s | Avg:  8m 08s | Max:  8m 19s | Hits:  97%/2436  
  🟩 Clang16            Pass: 100%/2   | Total: 15m 14s | Avg:  7m 37s | Max:  7m 44s | Hits:  97%/2436  
  🟩 Clang17            Pass: 100%/2   | Total: 15m 36s | Avg:  7m 48s | Max:  7m 52s | Hits:  97%/2436  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 17m | Avg: 11m 04s | Max: 22m 39s | Hits:  98%/8194  
  🟩 GCC7               Pass: 100%/2   | Total: 15m 50s | Avg:  7m 55s | Max:  8m 12s | Hits:  96%/2440  
  🟩 GCC8               Pass: 100%/1   | Total:  7m 50s | Avg:  7m 50s | Max:  7m 50s | Hits:  97%/1220  
  🟩 GCC9               Pass: 100%/2   | Total: 16m 05s | Avg:  8m 02s | Max:  8m 27s | Hits:  97%/2440  
  🟩 GCC10              Pass: 100%/2   | Total: 15m 40s | Avg:  7m 50s | Max:  7m 55s | Hits:  97%/2440  
  🟩 GCC11              Pass: 100%/2   | Total: 16m 19s | Avg:  8m 09s | Max:  8m 13s | Hits:  97%/2436  
  🟩 GCC12              Pass: 100%/2   | Total: 17m 14s | Avg:  8m 37s | Max:  8m 57s | Hits:  97%/2436  
  🟩 GCC13              Pass: 100%/11  | Total:  6h 03m | Avg: 33m 00s | Max:  2h 03m | Hits:  89%/13398 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 35m | Avg:  1h 17m | Max:  1h 18m | Hits:  15%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 44m | Avg:  1h 22m | Max:  1h 23m | Hits:  15%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 27m | Avg:  1h 13m | Max:  1h 18m | Hits:  62%/2254  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 36m | Avg:  9m 10s | Max: 22m 39s | Hits:  97%/20382 
  🟩 GCC                Pass: 100%/22  | Total:  7h 32m | Avg: 20m 32s | Max:  2h 03m | Hits:  93%/26810 
  🟩 MSVC               Pass: 100%/4   | Total:  5h 19m | Avg:  1h 19m | Max:  1h 23m | Hits:  15%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 27m | Avg:  1h 13m | Max:  1h 18m | Hits:  62%/2254  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total:  1h 11m | Avg: 23m 43s | Max: 25m 50s | Hits:  88%/3654  
  🟩 rtx2080            Pass: 100%/34  | Total: 12h 32m | Avg: 22m 07s | Max:  1h 23m | Hits:  85%/40216 
  🟩 rtxa6000           Pass: 100%/8   | Total:  4h 11m | Avg: 31m 25s | Max:  2h 03m | Hits:  95%/9744  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total: 13h 14m | Avg: 21m 28s | Max:  1h 23m | Hits:  85%/43870 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 21m 45s | Avg: 21m 45s | Max: 21m 45s | Hits:  99%/1218  
  🟩 GraphCapture       Pass: 100%/1   | Total:  2h 03m | Avg:  2h 03m | Max:  2h 03m | Hits:  69%/1218  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 10m | Avg: 23m 28s | Max: 24m 05s | Hits:  99%/3654  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 04m | Avg: 21m 31s | Max: 22m 13s | Hits:  99%/3654  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total:  1h 11m | Avg: 23m 43s | Max: 25m 50s | Hits:  88%/3654  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 14m | Avg:  1h 14m | Max:  1h 14m | Hits:  65%/1218  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  7h 23m | Avg: 22m 10s | Max:  1h 23m | Hits:  84%/23591 
  🟩 20                 Pass: 100%/25  | Total: 10h 31m | Avg: 25m 14s | Max:  2h 03m | Hits:  90%/30023

🟩 thrust: Pass: 100%/45 | Total: 9h 50m | Avg: 13m 07s | Max: 53m 08s | Hits: 94%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 37s | Avg:  8m 48s | Max: 11m 14s | Hits:  99%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  9h 41m | Avg: 13m 31s | Max: 53m 08s | Hits:  94%/76401 
  🟩 arm64              Pass: 100%/2   | Total:  9m 37s | Avg:  4m 48s | Max:  5m 09s | Hits:  99%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 05m | Avg: 13m 07s | Max: 45m 52s | Hits:  94%/8881  
  🟩 12.5               Pass: 100%/2   | Total:  1h 39m | Avg: 49m 37s | Max: 53m 08s | Hits:  73%/3554  
  🟩 12.8               Pass: 100%/38  | Total:  7h 05m | Avg: 11m 12s | Max: 49m 16s | Hits:  95%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 39s | Avg:  5m 19s | Max:  5m 24s | Hits: 100%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 05m | Avg: 13m 07s | Max: 45m 52s | Hits:  94%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 39m | Avg: 49m 37s | Max: 53m 08s | Hits:  73%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  6h 55m | Avg: 11m 32s | Max: 49m 16s | Hits:  95%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 39s | Avg:  5m 19s | Max:  5m 24s | Hits: 100%/3554  
  🟩 nvcc               Pass: 100%/43  | Total:  9h 40m | Avg: 13m 29s | Max: 53m 08s | Hits:  94%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 20m 29s | Avg:  5m 07s | Max:  5m 38s | Hits: 100%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 10m 42s | Avg:  5m 21s | Max:  5m 27s | Hits: 100%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 10m 59s | Avg:  5m 29s | Max:  5m 43s | Hits: 100%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 10m 56s | Avg:  5m 28s | Max:  5m 29s | Hits: 100%/3554  
  🟩 Clang18            Pass: 100%/7   | Total: 43m 41s | Avg:  6m 14s | Max: 10m 13s | Hits: 100%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 10m 06s | Avg:  5m 03s | Max:  5m 10s | Hits:  99%/3556  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 10s | Avg:  5m 10s | Max:  5m 10s | Hits:  99%/1778  
  🟩 GCC9               Pass: 100%/2   | Total: 10m 45s | Avg:  5m 22s | Max:  5m 30s | Hits:  99%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 11m 42s | Avg:  5m 51s | Max:  5m 56s | Hits:  99%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 11m 31s | Avg:  5m 45s | Max:  5m 50s | Hits:  99%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 33s | Avg:  6m 16s | Max:  6m 32s | Hits:  99%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  1h 55m | Avg: 11m 31s | Max: 31m 27s | Hits:  95%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 31m | Avg: 45m 30s | Max: 45m 52s | Hits:  70%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 06m | Avg: 42m 17s | Max: 49m 16s | Hits:  70%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 39m | Avg: 49m 37s | Max: 53m 08s | Hits:  73%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 36m | Avg:  5m 41s | Max: 10m 13s | Hits: 100%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  2h 56m | Avg:  8m 25s | Max: 31m 27s | Hits:  97%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 37m | Avg: 43m 34s | Max: 49m 16s | Hits:  70%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 39m | Avg: 49m 37s | Max: 53m 08s | Hits:  73%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 29m 02s | Avg: 14m 31s | Max: 17m 36s | Hits:  88%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total:  6h 57m | Avg: 12m 38s | Max: 53m 08s | Hits:  94%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 24m | Avg: 14m 26s | Max: 45m 44s | Hits:  94%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  8h 18m | Avg: 13m 07s | Max: 53m 08s | Hits:  94%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 56s | Avg: 15m 58s | Max: 31m 52s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 44m 25s | Avg: 11m 06s | Max: 11m 32s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 29m 02s | Avg: 14m 31s | Max: 17m 36s | Hits:  88%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total: 31m 27s | Avg: 31m 27s | Max: 31m 27s | Hits:  77%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  4h 40m | Avg: 14m 01s | Max: 53m 08s | Hits:  94%/35531 
  🟩 20                 Pass: 100%/23  | Total:  4h 52m | Avg: 12m 43s | Max: 46m 07s | Hits:  94%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 16m 58s | Avg: 8m 29s | Max: 14m 35s | Hits: 98%/320

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 16m 58s | Avg:  8m 29s | Max: 14m 35s | Hits:  98%/320   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 23s | Avg:  2m 23s | Max:  2m 23s | Hits:  98%/160   
  🟩 Test               Pass: 100%/1   | Total: 14m 35s | Avg: 14m 35s | Max: 14m 35s | Hits:  98%/160

🟩 python: Pass: 100%/1 | Total: 1h 01m | Avg: 1h 01m | Max: 1h 01m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

github-actions · 2025-03-13T14:18:42Z

🟩 CI finished in 1h 16m: Pass: 100%/93 | Total: 17h 23m | Avg: 11m 13s | Max: 1h 06m | Hits: 95%/133890

🟩 cub: Pass: 100%/45 | Total: 9h 13m | Avg: 12m 17s | Max: 33m 44s | Hits: 93%/53614

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  8h 58m | Avg: 12m 31s | Max: 33m 44s | Hits:  92%/51178 
  🟩 arm64              Pass: 100%/2   | Total: 14m 17s | Avg:  7m 08s | Max:  7m 38s | Hits:  99%/2436  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 00m | Avg: 12m 04s | Max: 32m 03s | Hits:  84%/5922  
  🟩 12.5               Pass: 100%/2   | Total: 22m 53s | Avg: 11m 26s | Max: 11m 33s | Hits:  96%/2254  
  🟩 12.8               Pass: 100%/38  | Total:  7h 49m | Avg: 12m 21s | Max: 33m 44s | Hits:  93%/45438 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 12s | Avg:  5m 06s | Max:  5m 09s | Hits: 100%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 00m | Avg: 12m 04s | Max: 32m 03s | Hits:  84%/5922  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 22m 53s | Avg: 11m 26s | Max: 11m 33s | Hits:  96%/2254  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  7h 39m | Avg: 12m 45s | Max: 33m 44s | Hits:  93%/43334 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 12s | Avg:  5m 06s | Max:  5m 09s | Hits: 100%/2104  
  🟩 nvcc               Pass: 100%/43  | Total:  9h 02m | Avg: 12m 37s | Max: 33m 44s | Hits:  92%/51510 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 27m 38s | Avg:  6m 54s | Max:  7m 05s | Hits:  99%/4880  
  🟩 Clang15            Pass: 100%/2   | Total: 13m 53s | Avg:  6m 56s | Max:  7m 01s | Hits:  99%/2436  
  🟩 Clang16            Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max:  6m 47s | Hits:  99%/2436  
  🟩 Clang17            Pass: 100%/2   | Total: 13m 38s | Avg:  6m 49s | Max:  6m 52s | Hits:  99%/2436  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 16m | Avg: 10m 59s | Max: 24m 37s | Hits:  99%/8194  
  🟩 GCC7               Pass: 100%/2   | Total: 13m 48s | Avg:  6m 54s | Max:  6m 56s | Hits:  99%/2440  
  🟩 GCC8               Pass: 100%/1   | Total:  6m 53s | Avg:  6m 53s | Max:  6m 53s | Hits:  99%/1220  
  🟩 GCC9               Pass: 100%/2   | Total: 14m 47s | Avg:  7m 23s | Max:  7m 42s | Hits:  99%/2440  
  🟩 GCC10              Pass: 100%/2   | Total: 14m 54s | Avg:  7m 27s | Max:  7m 34s | Hits:  99%/2440  
  🟩 GCC11              Pass: 100%/2   | Total: 14m 48s | Avg:  7m 24s | Max:  7m 29s | Hits:  99%/2436  
  🟩 GCC12              Pass: 100%/2   | Total: 16m 02s | Avg:  8m 01s | Max:  8m 13s | Hits:  99%/2436  
  🟩 GCC13              Pass: 100%/11  | Total:  2h 51m | Avg: 15m 33s | Max: 24m 42s | Hits:  99%/13398 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 04m | Avg: 32m 27s | Max: 32m 51s | Hits:  15%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 07m | Avg: 33m 42s | Max: 33m 44s | Hits:  15%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 22m 53s | Avg: 11m 26s | Max: 11m 33s | Hits:  96%/2254  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 25m | Avg:  8m 33s | Max: 24m 37s | Hits:  99%/20382 
  🟩 GCC                Pass: 100%/22  | Total:  4h 12m | Avg: 11m 28s | Max: 24m 42s | Hits:  99%/26810 
  🟩 MSVC               Pass: 100%/4   | Total:  2h 12m | Avg: 33m 04s | Max: 33m 44s | Hits:  15%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total: 22m 53s | Avg: 11m 26s | Max: 11m 33s | Hits:  96%/2254  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total: 50m 36s | Avg: 16m 52s | Max: 23m 29s | Hits:  99%/3654  
  🟩 rtx2080            Pass: 100%/34  | Total:  5h 51m | Avg: 10m 20s | Max: 33m 44s | Hits:  90%/40216 
  🟩 rtxa6000           Pass: 100%/8   | Total:  2h 31m | Avg: 18m 53s | Max: 24m 42s | Hits:  99%/9744  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  6h 11m | Avg: 10m 01s | Max: 33m 44s | Hits:  91%/43870 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 24m 42s | Avg: 24m 42s | Max: 24m 42s | Hits:  99%/1218  
  🟩 GraphCapture       Pass: 100%/1   | Total: 19m 12s | Avg: 19m 12s | Max: 19m 12s | Hits:  99%/1218  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 12m | Avg: 24m 13s | Max: 24m 37s | Hits:  99%/3654  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 05m | Avg: 21m 47s | Max: 22m 07s | Hits:  99%/3654  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total: 50m 36s | Avg: 16m 52s | Max: 23m 29s | Hits:  99%/3654  
  🟩 90;90a;100         Pass: 100%/1   | Total:  7m 51s | Avg:  7m 51s | Max:  7m 51s | Hits:  99%/1218  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 41m | Avg: 11m 05s | Max: 33m 44s | Hits:  88%/23591 
  🟩 20                 Pass: 100%/25  | Total:  5h 31m | Avg: 13m 15s | Max: 33m 40s | Hits:  96%/30023

🟩 thrust: Pass: 100%/45 | Total: 6h 47m | Avg: 9m 03s | Max: 33m 28s | Hits: 96%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 04s | Avg:  8m 32s | Max: 10m 38s | Hits:  99%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  6h 37m | Avg:  9m 15s | Max: 33m 28s | Hits:  96%/76401 
  🟩 arm64              Pass: 100%/2   | Total:  9m 47s | Avg:  4m 53s | Max:  5m 16s | Hits:  99%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 47m 18s | Avg:  9m 27s | Max: 27m 40s | Hits:  94%/8881  
  🟩 12.5               Pass: 100%/2   | Total: 28m 39s | Avg: 14m 19s | Max: 14m 52s | Hits:  99%/3554  
  🟩 12.8               Pass: 100%/38  | Total:  5h 31m | Avg:  8m 43s | Max: 33m 28s | Hits:  96%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 44s | Avg:  4m 52s | Max:  4m 53s | Hits: 100%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 47m 18s | Avg:  9m 27s | Max: 27m 40s | Hits:  94%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 28m 39s | Avg: 14m 19s | Max: 14m 52s | Hits:  99%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  5h 21m | Avg:  8m 56s | Max: 33m 28s | Hits:  96%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 44s | Avg:  4m 52s | Max:  4m 53s | Hits: 100%/3554  
  🟩 nvcc               Pass: 100%/43  | Total:  6h 37m | Avg:  9m 15s | Max: 33m 28s | Hits:  96%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 21m 06s | Avg:  5m 16s | Max:  5m 42s | Hits: 100%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 10m 36s | Avg:  5m 18s | Max:  5m 19s | Hits: 100%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 15s | Avg:  5m 37s | Max:  6m 03s | Hits: 100%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 11m 16s | Avg:  5m 38s | Max:  5m 49s | Hits: 100%/3554  
  🟩 Clang18            Pass: 100%/7   | Total: 42m 31s | Avg:  6m 04s | Max:  9m 38s | Hits: 100%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 10m 19s | Avg:  5m 09s | Max:  5m 22s | Hits:  99%/3556  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 20s | Avg:  5m 20s | Max:  5m 20s | Hits:  99%/1778  
  🟩 GCC9               Pass: 100%/2   | Total: 11m 03s | Avg:  5m 31s | Max:  6m 08s | Hits:  99%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 11m 02s | Avg:  5m 31s | Max:  5m 39s | Hits:  99%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 11m 01s | Avg:  5m 30s | Max:  5m 44s | Hits:  99%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 11m 42s | Avg:  5m 51s | Max:  5m 52s | Hits:  99%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  1h 17m | Avg:  7m 44s | Max: 12m 03s | Hits:  99%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 55m 27s | Avg: 27m 43s | Max: 27m 47s | Hits:  70%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 28m | Avg: 29m 37s | Max: 33m 28s | Hits:  70%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 28m 39s | Avg: 14m 19s | Max: 14m 52s | Hits:  99%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 36m | Avg:  5m 41s | Max:  9m 38s | Hits: 100%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  2h 17m | Avg:  6m 34s | Max: 12m 03s | Hits:  99%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 24m | Avg: 28m 52s | Max: 33m 28s | Hits:  70%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total: 28m 39s | Avg: 14m 19s | Max: 14m 52s | Hits:  99%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 16m 54s | Avg:  8m 27s | Max: 12m 03s | Hits:  99%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total:  4h 23m | Avg:  7m 59s | Max: 27m 57s | Hits:  97%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 06m | Avg: 12m 41s | Max: 33m 28s | Hits:  94%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  5h 14m | Avg:  8m 16s | Max: 27m 57s | Hits:  96%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 49m 15s | Avg: 16m 25s | Max: 33m 28s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 43m 44s | Avg: 10m 56s | Max: 12m 03s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 16m 54s | Avg:  8m 27s | Max: 12m 03s | Hits:  99%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 21s | Avg:  6m 21s | Max:  6m 21s | Hits:  99%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 06m | Avg:  9m 18s | Max: 27m 57s | Hits:  95%/35531 
  🟩 20                 Pass: 100%/23  | Total:  3h 24m | Avg:  8m 53s | Max: 33m 28s | Hits:  97%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 16m 26s | Avg: 8m 13s | Max: 14m 03s | Hits: 98%/320

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 16m 26s | Avg:  8m 13s | Max: 14m 03s | Hits:  98%/320   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 23s | Avg:  2m 23s | Max:  2m 23s | Hits:  98%/160   
  🟩 Test               Pass: 100%/1   | Total: 14m 03s | Avg: 14m 03s | Max: 14m 03s | Hits:  98%/160

🟩 python: Pass: 100%/1 | Total: 1h 06m | Avg: 1h 06m | Max: 1h 06m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

bernhardmgruber

LGTM in principle. I find the test fairly complex though. Would it be possible to come up with a test that does not require this many levels of fancy iterators?

cub/cub/device/dispatch/dispatch_batch_memcpy.cuh

cub/test/catch2_test_device_memcpy_batched.cu

cub/test/catch2_test_device_memcpy_batched_common.cuh

elstehle · 2025-03-14T21:21:04Z

LGTM in principle. I find the test fairly complex though. Would it be possible to come up with a test that does not require this many levels of fancy iterators?

I agree, it's partially in the nature of these tests because we have to use fancy iterators to create some empty segments while not blowing up memory requirements. I added a few more comments to improve comprehension. I'm afraid we cannot do much more here.

github-actions · 2025-03-14T23:02:06Z

🟩 CI finished in 1h 41m: Pass: 100%/93 | Total: 17h 30m | Avg: 11m 17s | Max: 1h 04m | Hits: 94%/133890

🟩 cub: Pass: 100%/45 | Total: 9h 26m | Avg: 12m 35s | Max: 35m 13s | Hits: 91%/53614

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  9h 10m | Avg: 12m 48s | Max: 35m 13s | Hits:  91%/51178 
  🟩 arm64              Pass: 100%/2   | Total: 15m 34s | Avg:  7m 47s | Max:  8m 17s | Hits:  97%/2436  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  1h 01m | Avg: 12m 17s | Max: 31m 08s | Hits:  83%/5922  
  🟩 12.5               Pass: 100%/2   | Total: 22m 52s | Avg: 11m 26s | Max: 11m 32s | Hits:  96%/2254  
  🟩 12.8               Pass: 100%/38  | Total:  8h 01m | Avg: 12m 40s | Max: 35m 13s | Hits:  92%/45438 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  5m 29s | Hits:  97%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 01m | Avg: 12m 17s | Max: 31m 08s | Hits:  83%/5922  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 22m 52s | Avg: 11m 26s | Max: 11m 32s | Hits:  96%/2254  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  7h 51m | Avg: 13m 05s | Max: 35m 13s | Hits:  92%/43334 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  5m 29s | Hits:  97%/2104  
  🟩 nvcc               Pass: 100%/43  | Total:  9h 15m | Avg: 12m 55s | Max: 35m 13s | Hits:  91%/51510 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 29m 23s | Avg:  7m 20s | Max:  7m 36s | Hits:  97%/4880  
  🟩 Clang15            Pass: 100%/2   | Total: 15m 35s | Avg:  7m 47s | Max:  8m 02s | Hits:  97%/2436  
  🟩 Clang16            Pass: 100%/2   | Total: 15m 23s | Avg:  7m 41s | Max:  7m 45s | Hits:  97%/2436  
  🟩 Clang17            Pass: 100%/2   | Total: 15m 49s | Avg:  7m 54s | Max:  8m 15s | Hits:  97%/2436  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 16m | Avg: 10m 55s | Max: 22m 50s | Hits:  98%/8194  
  🟩 GCC7               Pass: 100%/2   | Total: 16m 24s | Avg:  8m 12s | Max:  8m 18s | Hits:  97%/2440  
  🟩 GCC8               Pass: 100%/1   | Total:  7m 52s | Avg:  7m 52s | Max:  7m 52s | Hits:  97%/1220  
  🟩 GCC9               Pass: 100%/2   | Total: 16m 04s | Avg:  8m 02s | Max:  8m 17s | Hits:  97%/2440  
  🟩 GCC10              Pass: 100%/2   | Total: 16m 06s | Avg:  8m 03s | Max:  8m 15s | Hits:  97%/2440  
  🟩 GCC11              Pass: 100%/2   | Total: 16m 23s | Avg:  8m 11s | Max:  8m 25s | Hits:  97%/2436  
  🟩 GCC12              Pass: 100%/2   | Total: 16m 46s | Avg:  8m 23s | Max:  8m 26s | Hits:  97%/2436  
  🟩 GCC13              Pass: 100%/11  | Total:  2h 51m | Avg: 15m 34s | Max: 24m 02s | Hits:  98%/13398 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 02m | Avg: 31m 18s | Max: 31m 29s | Hits:  15%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 07m | Avg: 33m 38s | Max: 35m 13s | Hits:  15%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 22m 52s | Avg: 11m 26s | Max: 11m 32s | Hits:  96%/2254  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 32m | Avg:  8m 58s | Max: 22m 50s | Hits:  97%/20382 
  🟩 GCC                Pass: 100%/22  | Total:  4h 20m | Avg: 11m 51s | Max: 24m 02s | Hits:  97%/26810 
  🟩 MSVC               Pass: 100%/4   | Total:  2h 09m | Avg: 32m 28s | Max: 35m 13s | Hits:  15%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total: 22m 52s | Avg: 11m 26s | Max: 11m 32s | Hits:  96%/2254  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total: 51m 23s | Avg: 17m 07s | Max: 24m 02s | Hits:  98%/3654  
  🟩 rtx2080            Pass: 100%/34  | Total:  6h 10m | Avg: 10m 54s | Max: 35m 13s | Hits:  88%/40216 
  🟩 rtxa6000           Pass: 100%/8   | Total:  2h 23m | Avg: 17m 59s | Max: 22m 56s | Hits:  99%/9744  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  6h 32m | Avg: 10m 37s | Max: 35m 13s | Hits:  89%/43870 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 22m 13s | Avg: 22m 13s | Max: 22m 13s | Hits:  99%/1218  
  🟩 GraphCapture       Pass: 100%/1   | Total: 17m 22s | Avg: 17m 22s | Max: 17m 22s | Hits:  99%/1218  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 09m | Avg: 23m 16s | Max: 24m 02s | Hits:  99%/3654  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 04m | Avg: 21m 20s | Max: 22m 15s | Hits:  99%/3654  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total: 51m 23s | Avg: 17m 07s | Max: 24m 02s | Hits:  98%/3654  
  🟩 90;90a;100         Pass: 100%/1   | Total:  9m 31s | Avg:  9m 31s | Max:  9m 31s | Hits:  97%/1218  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 51m | Avg: 11m 35s | Max: 32m 04s | Hits:  86%/23591 
  🟩 20                 Pass: 100%/25  | Total:  5h 34m | Avg: 13m 22s | Max: 35m 13s | Hits:  95%/30023

🟩 thrust: Pass: 100%/45 | Total: 6h 42m | Avg: 8m 56s | Max: 32m 03s | Hits: 96%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 16m 40s | Avg:  8m 20s | Max: 10m 54s | Hits:  99%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  6h 32m | Avg:  9m 07s | Max: 32m 03s | Hits:  96%/76401 
  🟩 arm64              Pass: 100%/2   | Total:  9m 48s | Avg:  4m 54s | Max:  5m 09s | Hits:  99%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 45m 26s | Avg:  9m 05s | Max: 25m 13s | Hits:  94%/8881  
  🟩 12.5               Pass: 100%/2   | Total: 28m 18s | Avg: 14m 09s | Max: 14m 17s | Hits:  99%/3554  
  🟩 12.8               Pass: 100%/38  | Total:  5h 28m | Avg:  8m 38s | Max: 32m 03s | Hits:  96%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 16s | Avg:  5m 08s | Max:  5m 19s | Hits: 100%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 45m 26s | Avg:  9m 05s | Max: 25m 13s | Hits:  94%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 28m 18s | Avg: 14m 09s | Max: 14m 17s | Hits:  99%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  5h 18m | Avg:  8m 50s | Max: 32m 03s | Hits:  96%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 16s | Avg:  5m 08s | Max:  5m 19s | Hits: 100%/3554  
  🟩 nvcc               Pass: 100%/43  | Total:  6h 32m | Avg:  9m 07s | Max: 32m 03s | Hits:  96%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 20m 40s | Avg:  5m 10s | Max:  5m 29s | Hits: 100%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 10m 51s | Avg:  5m 25s | Max:  5m 27s | Hits: 100%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 18s | Avg:  5m 39s | Max:  5m 42s | Hits: 100%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 10m 57s | Avg:  5m 28s | Max:  5m 38s | Hits: 100%/3554  
  🟩 Clang18            Pass: 100%/7   | Total: 44m 00s | Avg:  6m 17s | Max: 10m 15s | Hits: 100%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 11m 00s | Avg:  5m 30s | Max:  6m 05s | Hits:  99%/3556  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 29s | Avg:  5m 29s | Max:  5m 29s | Hits:  99%/1778  
  🟩 GCC9               Pass: 100%/2   | Total: 11m 04s | Avg:  5m 32s | Max:  5m 34s | Hits:  99%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 11m 33s | Avg:  5m 46s | Max:  5m 53s | Hits:  99%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 12m 01s | Avg:  6m 00s | Max:  6m 13s | Hits:  99%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 36s | Avg:  6m 18s | Max:  6m 33s | Hits:  99%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  1h 16m | Avg:  7m 36s | Max: 11m 29s | Hits:  99%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 50m 46s | Avg: 25m 23s | Max: 25m 33s | Hits:  70%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 25m | Avg: 28m 34s | Max: 32m 03s | Hits:  70%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 28m 18s | Avg: 14m 09s | Max: 14m 17s | Hits:  99%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 37m | Avg:  5m 45s | Max: 10m 15s | Hits: 100%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  2h 19m | Avg:  6m 39s | Max: 11m 29s | Hits:  99%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 16m | Avg: 27m 18s | Max: 32m 03s | Hits:  70%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total: 28m 18s | Avg: 14m 09s | Max: 14m 17s | Hits:  99%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 16m 27s | Avg:  8m 13s | Max: 11m 29s | Hits:  99%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total:  4h 22m | Avg:  7m 56s | Max: 27m 04s | Hits:  97%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 03m | Avg: 12m 21s | Max: 32m 03s | Hits:  94%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  5h 11m | Avg:  8m 11s | Max: 27m 04s | Hits:  96%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 30s | Avg: 15m 50s | Max: 32m 03s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 43m 46s | Avg: 10m 56s | Max: 11m 29s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 16m 27s | Avg:  8m 13s | Max: 11m 29s | Hits:  99%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 20s | Avg:  6m 20s | Max:  6m 20s | Hits:  99%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 01m | Avg:  9m 05s | Max: 27m 04s | Hits:  95%/35531 
  🟩 20                 Pass: 100%/23  | Total:  3h 23m | Avg:  8m 51s | Max: 32m 03s | Hits:  97%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 17m 09s | Avg: 8m 34s | Max: 14m 51s | Hits: 98%/320

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 17m 09s | Avg:  8m 34s | Max: 14m 51s | Hits:  98%/320   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 18s | Avg:  2m 18s | Max:  2m 18s | Hits:  98%/160   
  🟩 Test               Pass: 100%/1   | Total: 14m 51s | Avg: 14m 51s | Max: 14m 51s | Hits:  98%/160

🟩 python: Pass: 100%/1 | Total: 1h 04m | Avg: 1h 04m | Max: 1h 04m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 04m | Avg:  1h 04m | Max:  1h 04m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

…VIDIA#4065) * offset iterator * adds support for large number of buffers to memcpy batched * fixes thrust ns * fixes narrowing conversion * expects user iterators to be advancable on the host * update the kernel to always use a 32-bit buffer offset type * fixes benchmarks * removes superfluous includes * addresses review comments

elstehle added 2 commits March 5, 2025 07:40

offset iterator

cf99f19

adds support for large number of buffers to memcpy batched

8038b61

elstehle requested a review from a team as a code owner March 10, 2025 02:47

elstehle requested a review from bernhardmgruber March 10, 2025 02:47

github-project-automation bot added this to CCCL Mar 10, 2025

github-project-automation bot moved this to Todo in CCCL Mar 10, 2025

cccl-authenticator-app bot moved this from Todo to In Review in CCCL Mar 10, 2025

elstehle added 2 commits March 9, 2025 22:57

fixes thrust ns

79632c5

fixes narrowing conversion

7c842f9

elstehle added 2 commits March 12, 2025 23:37

Merge remote-tracking branch 'upstream/main' into enh/large-num-range…

49a241b

…s-batched-cpy

expects user iterators to be advancable on the host

2956048

elstehle mentioned this pull request Mar 13, 2025

Adds support for large number of buffers to DeviceCopy::Batched #4129

Merged

elstehle added 2 commits March 13, 2025 05:45

update the kernel to always use a 32-bit buffer offset type

055a9a6

fixes benchmarks

49296f9

elstehle requested a review from a team as a code owner March 13, 2025 12:56

removes superfluous includes

d773649

elstehle added the breaking Breaking change label Mar 13, 2025

bernhardmgruber approved these changes Mar 14, 2025

View reviewed changes

addresses review comments

589dbd1

elstehle enabled auto-merge (squash) March 14, 2025 21:19

elstehle merged commit a16344a into NVIDIA:main Mar 14, 2025
107 of 108 checks passed

github-project-automation bot moved this from In Review to Done in CCCL Mar 14, 2025

elstehle mentioned this pull request Mar 16, 2025

[EPIC]: CUB large input support #50

Open

25 tasks

Adds support for large number of buffers to DeviceMemcpy::Batched #4065

Adds support for large number of buffers to DeviceMemcpy::Batched #4065

Uh oh!

Conversation

elstehle commented Mar 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description

Uh oh!

github-actions bot commented Mar 10, 2025

🟥 cub: Pass: 0%/45 | Total: 22h 35m | Avg: 30m 07s | Max: 1h 20m

🟩 thrust: Pass: 100%/45 | Total: 21h 37m | Avg: 28m 49s | Max: 55m 46s | Hits: 79%/79956

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 15m 05s | Avg: 7m 32s | Max: 12m 47s | Hits: 98%/308

🟩 python: Pass: 100%/1 | Total: 1h 01m | Avg: 1h 01m | Max: 1h 01m

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

github-actions bot commented Mar 10, 2025

🟩 cub: Pass: 100%/45 | Total: 9h 23m | Avg: 12m 31s | Max: 34m 15s | Hits: 91%/53614

🟩 thrust: Pass: 100%/45 | Total: 6h 43m | Avg: 8m 57s | Max: 32m 04s | Hits: 96%/79956

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 15m 32s | Avg: 7m 46s | Max: 13m 12s | Hits: 98%/308

🟩 python: Pass: 100%/1 | Total: 1h 00m | Avg: 1h 00m | Max: 1h 00m

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

github-actions bot commented Mar 13, 2025

🟩 cub: Pass: 100%/45 | Total: 17h 54m | Avg: 23m 52s | Max: 2h 03m | Hits: 87%/53614

🟩 thrust: Pass: 100%/45 | Total: 9h 50m | Avg: 13m 07s | Max: 53m 08s | Hits: 94%/79956

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 16m 58s | Avg: 8m 29s | Max: 14m 35s | Hits: 98%/320

🟩 python: Pass: 100%/1 | Total: 1h 01m | Avg: 1h 01m | Max: 1h 01m

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

github-actions bot commented Mar 13, 2025

🟩 cub: Pass: 100%/45 | Total: 9h 13m | Avg: 12m 17s | Max: 33m 44s | Hits: 93%/53614

🟩 thrust: Pass: 100%/45 | Total: 6h 47m | Avg: 9m 03s | Max: 33m 28s | Hits: 96%/79956

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 16m 26s | Avg: 8m 13s | Max: 14m 03s | Hits: 98%/320

🟩 python: Pass: 100%/1 | Total: 1h 06m | Avg: 1h 06m | Max: 1h 06m

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

bernhardmgruber left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

elstehle commented Mar 14, 2025

Uh oh!

github-actions bot commented Mar 14, 2025

🟩 cub: Pass: 100%/45 | Total: 9h 26m | Avg: 12m 35s | Max: 35m 13s | Hits: 91%/53614

🟩 thrust: Pass: 100%/45 | Total: 6h 42m | Avg: 8m 56s | Max: 32m 03s | Hits: 96%/79956

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 17m 09s | Avg: 8m 34s | Max: 14m 51s | Hits: 98%/320

🟩 python: Pass: 100%/1 | Total: 1h 04m | Avg: 1h 04m | Max: 1h 04m

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Adds support for large number of buffers to `DeviceMemcpy::Batched` #4065

Adds support for large number of buffers to `DeviceMemcpy::Batched` #4065

elstehle commented Mar 10, 2025 •

edited

Loading