Vectorize `search_n` for small values of n #5352

AlexGuteniev · 2025-03-22T13:38:47Z

⚙️ The optimization

Like I mentioned in #5346, both std::search_n and ranges::search_n make steps by n elements, and avoid going back for a good input (where there are few potential matches), so for large n values vectorization wouldn't be an improvement.

Still for small n, such that vector register width is larger than n, and therefore, the vector step is bigger, it is possible to vectorize in a way that would be faster even for an input with few matches. For more matches, such vectorization will have more advantage, as it would not need to go back.

The approach is to compare elements, get bit mask, and look for contiguous set of ones of proper length. @Alcaro suggested:

you can do things like
match &= match>>1
match &= match>>2
match &= match>>3
to find 7 consecutive 1s, but that probably does something ruinous to instruction parallelism and may cost more than it saves

Turns out this is efficient enough for AVX2 with the values of n up twice smaller than AVX register size in elements. Despite there seems to be indeed high cost of ruined parallelism, I cannot find anything faster.

The shift values are computed based on n. To save one variable (general purpose register), we rely on n=1 to be handled separately, and assume at least one shift to happen.

To deal with matches on vector register boundary, the bitmask is concatenated with the previous one. AVX bitmask is 32 bits for 32 bytes of AVX value, doubled it is 64 bit, still fits x64 register perfectly. The alternative to concatenation could be handling the boundary case with lzcnt/tzcnt, this turned out to be not faster.

The fallback is used for tails and too large n values. For tails it uses lzcnt with inverted carry value to have smooth transition from potential partial match in vectors to the scalar part. The fallback recreates ranges::search_n in <algorithm>, with slight variation.

🥔 Down-level architectures support

SSE4.2 version is implementable in both senses of backporting the current approach to SSE and using pcmpestri. I'd expect either to be of advantage for n values twice smaller than SSE register. Just feel like should not bother trying that.

x86 version works the same way as x64. However, unlike many other vectorization algorithms, this one relies a lot on general-purpose 64 bit integer ops. To mitigate the impact __ull_rshift is used instead of the plain shift. This intrinsic usage doesn't impact 64-bit code, but makes 32-bit codegen better (at the expense of not handling huge shifts, which we don't need anyway). The shift values are of int type to match the intrinsic parameter type.

Still, the efficiency on x86 is questionable (see benchmark results below). Apart from having shifts in multiple instructions, it is apparently due to general purpose registers deficit. The compiler isn't being helpful here too, some register spills look superfluous.

For 32-bit and 64-bit elements, it is possible to use the floating point bit mask, instead of integer bit mask, like in #4987/#5092. This will save bit width. But apart from the mysterious "bypass delay" (integers and floats instructions mix potential penalty), it will also make the bit magic more complicated, more dependent on element width, and still won't reduce the bit width for 8-bit and 16-bit elements, so this doesn't seem to be worth doing.

We could just skip x86. But we don't have precedent of having vectorization for x64, but not having it for x86, so I didn't want to introduce one.

1️⃣ Special n=1 case

We need to handle this case as just find vectorization. find vectorization is more efficient than this one, plus the assumption that the shift happens at least once saves a variable/register.

The question is where we should handle this:

Only in separately compiled code
Only in headers
Both in headers and in separately compiled code

The latter two are indistinguishable in practice, so the real question is, if we should:

Handle it in separately compiled code, effectively reverting Use find for search_n when n=1 #5346 optimization
Keep handling it in header

With removal n=1 case from headers we get:

Better throughput
Simpler header implementation

With keeping n=1 case in headers we get:

Some non-vectorization optimization for non-vector element types (I believe it is noticeable, but not like multiple times)
Some auto-vectorization from Clang and probably MSVC in future (Clang recognizes find pattern)
memchr for corresponding type and disabled vectorization mode

✅ Test coverage

To cover the variety of possibilities, the randomized test should try different input lengths, different n, and different actual matches lengths (including too long matches, too short matches, and different gap between matches). This has to have long run time, so it deserves a dedicated test.

The test coverage is not only useful for vectorization, it also compensates missing non-vectorization coverage, asked in #933.

This PR still doesn't fully address #933 as it is asked because:

It does not cover the forward-only iterator branches
It does not have features, like nice error case print, or seed parameter acceptance

I'm not sure how much these features are required, though. If they are required, further work to complete #933 would certainly need a different PR.

🏁 Benchmarks

In addition to the TwoZones case inherited from ##5346 , it has DenseSmallSequences.

These two are close to normal case and worst case respectively.

TwoZones (Zones in the table below) has half of range with mismatch character and half of rangers with match character. So the search should quickly proceed to the match part then check the first match which is successful.

DenseSmallSequences (Dense in the table below) has too short matches of random with from 0 to n-1 interrupted by a single mismatch character.

The vectorization improvement is more for DenseSmallSequences, but we should probably care about TwoZones somewhat more. If worst case is a priority, we can lift threshold for the vectorization twice.

⏱️ Benchmark results

Click to expand:

Benchmark	V. alg?	x64 Before	x64 After	x64 🏎️	x86 Before	x86 After	x86 🏎️
u8/Std/Zones/3000/40	no	45.4 ns	46.7 ns	0.97	42.4 ns	66.8 ns	0.63
u8/Std/Zones/3000/18	no	63.0 ns	61.8 ns	1.02	62.1 ns	83.2 ns	0.75
u8/Std/Zones/3000/16	yes	66.0 ns	69.3 ns	0.95	77.8 ns	128 ns	0.61
u8/Std/Zones/3000/14	yes	68.7 ns	69.0 ns	1.00	71.7 ns	129 ns	0.56
u8/Std/Zones/3000/10	yes	85.8 ns	72.4 ns	1.19	93.9 ns	130 ns	0.72
u8/Std/Zones/3000/8	yes	103 ns	69.4 ns	1.48	113 ns	128 ns	0.88
u8/Std/Zones/3000/5	yes	157 ns	74.2 ns	2.12	171 ns	128 ns	1.34
u8/Std/Zones/3000/4	yes	189 ns	72.4 ns	2.61	210 ns	125 ns	1.68
u8/Std/Zones/3000/3	yes	250 ns	71.6 ns	3.49	272 ns	132 ns	2.06
u8/Std/Zones/3000/2	yes	368 ns	72.5 ns	5.08	402 ns	130 ns	3.09
u8/Std/Zones/3000/1	find	18.0 ns	18.2 ns	0.99	18.3 ns	21.8 ns	0.84
u8/Rng/Zones/3000/40	no	47.7 ns	45.8 ns	1.04	52.4 ns	66.9 ns	0.78
u8/Rng/Zones/3000/18	no	78.2 ns	60.8 ns	1.29	79.7 ns	83.7 ns	0.95
u8/Rng/Zones/3000/16	yes	84.9 ns	71.1 ns	1.19	85.6 ns	129 ns	0.66
u8/Rng/Zones/3000/14	yes	90.3 ns	71.4 ns	1.26	93.7 ns	128 ns	0.73
u8/Rng/Zones/3000/10	yes	118 ns	72.3 ns	1.63	118 ns	128 ns	0.92
u8/Rng/Zones/3000/8	yes	141 ns	71.7 ns	1.97	144 ns	128 ns	1.13
u8/Rng/Zones/3000/5	yes	215 ns	75.5 ns	2.85	212 ns	125 ns	1.70
u8/Rng/Zones/3000/4	yes	303 ns	72.9 ns	4.16	265 ns	129 ns	2.05
u8/Rng/Zones/3000/3	yes	346 ns	73.8 ns	4.69	344 ns	130 ns	2.65
u8/Rng/Zones/3000/2	yes	509 ns	74.8 ns	6.80	506 ns	129 ns	3.92
u8/Rng/Zones/3000/1	find	18.2 ns	18.4 ns	0.99	18.5 ns	18.7 ns	0.99
u8/Std/Dense/3000/40	no	818 ns	381 ns	2.15	823 ns	654 ns	1.26
u8/Std/Dense/3000/18	no	1006 ns	501 ns	2.01	1036 ns	774 ns	1.34
u8/Std/Dense/3000/16	yes	985 ns	135 ns	7.30	1022 ns	236 ns	4.33
u8/Std/Dense/3000/14	yes	987 ns	136 ns	7.26	1004 ns	244 ns	4.11
u8/Std/Dense/3000/10	yes	1071 ns	144 ns	7.44	1094 ns	245 ns	4.47
u8/Std/Dense/3000/8	yes	1140 ns	138 ns	8.26	1239 ns	246 ns	5.04
u8/Std/Dense/3000/5	yes	1301 ns	147 ns	8.85	1356 ns	279 ns	4.86
u8/Std/Dense/3000/4	yes	1303 ns	147 ns	8.86	1418 ns	243 ns	5.84
u8/Std/Dense/3000/3	yes	1300 ns	147 ns	8.84	1460 ns	248 ns	5.89
u8/Std/Dense/3000/2	yes	1191 ns	149 ns	7.99	1363 ns	244 ns	5.59
u8/Std/Dense/3000/1	find	49.4 ns	47.0 ns	1.05	48.3 ns	49.6 ns	0.97
u8/Rng/Dense/3000/40	no	830 ns	382 ns	2.17	584 ns	653 ns	0.89
u8/Rng/Dense/3000/18	no	813 ns	506 ns	1.61	622 ns	768 ns	0.81
u8/Rng/Dense/3000/16	yes	853 ns	143 ns	5.97	660 ns	237 ns	2.78
u8/Rng/Dense/3000/14	yes	843 ns	137 ns	6.15	665 ns	241 ns	2.76
u8/Rng/Dense/3000/10	yes	875 ns	138 ns	6.34	707 ns	243 ns	2.91
u8/Rng/Dense/3000/8	yes	936 ns	139 ns	6.73	771 ns	240 ns	3.21
u8/Rng/Dense/3000/5	yes	1057 ns	148 ns	7.14	858 ns	240 ns	3.58
u8/Rng/Dense/3000/4	yes	1155 ns	148 ns	7.80	876 ns	248 ns	3.53
u8/Rng/Dense/3000/3	yes	1240 ns	147 ns	8.44	889 ns	252 ns	3.53
u8/Rng/Dense/3000/2	yes	1096 ns	149 ns	7.36	1074 ns	251 ns	4.28
u8/Rng/Dense/3000/1	find	51.6 ns	49.4 ns	1.04	48.9 ns	48.6 ns	1.01
u16/Std/Zones/3000/40	no	41.2 ns	50.2 ns	0.82	46.1 ns	55.3 ns	0.83
u16/Std/Zones/3000/18	no	66.3 ns	69.2 ns	0.96	68.1 ns	76.4 ns	0.89
u16/Std/Zones/3000/16	no	71.0 ns	75.8 ns	0.94	75.3 ns	83.0 ns	0.91
u16/Std/Zones/3000/14	no	77.3 ns	83.5 ns	0.93	79.9 ns	92.0 ns	0.87
u16/Std/Zones/3000/10	no	97.1 ns	105 ns	0.92	103 ns	116 ns	0.89
u16/Std/Zones/3000/8	yes	117 ns	107 ns	1.09	126 ns	175 ns	0.72
u16/Std/Zones/3000/5	yes	166 ns	107 ns	1.55	195 ns	174 ns	1.12
u16/Std/Zones/3000/4	yes	194 ns	107 ns	1.81	231 ns	173 ns	1.34
u16/Std/Zones/3000/3	yes	270 ns	117 ns	2.31	309 ns	177 ns	1.75
u16/Std/Zones/3000/2	yes	385 ns	118 ns	3.26	438 ns	172 ns	2.55
u16/Std/Zones/3000/1	find	48.2 ns	48.9 ns	0.99	37.5 ns	52.1 ns	0.72
u16/Rng/Zones/3000/40	no	49.1 ns	49.7 ns	0.99	50.1 ns	55.0 ns	0.91
u16/Rng/Zones/3000/18	no	85.7 ns	70.1 ns	1.22	107 ns	76.6 ns	1.40
u16/Rng/Zones/3000/16	no	95.8 ns	81.1 ns	1.18	117 ns	83.9 ns	1.39
u16/Rng/Zones/3000/14	no	108 ns	84.1 ns	1.28	128 ns	91.5 ns	1.40
u16/Rng/Zones/3000/10	no	156 ns	103 ns	1.51	168 ns	115 ns	1.46
u16/Rng/Zones/3000/8	yes	185 ns	108 ns	1.71	202 ns	172 ns	1.17
u16/Rng/Zones/3000/5	yes	304 ns	108 ns	2.81	313 ns	171 ns	1.83
u16/Rng/Zones/3000/4	yes	377 ns	106 ns	3.56	394 ns	174 ns	2.26
u16/Rng/Zones/3000/3	yes	500 ns	118 ns	4.24	518 ns	172 ns	3.01
u16/Rng/Zones/3000/2	yes	734 ns	118 ns	6.22	747 ns	173 ns	4.32
u16/Rng/Zones/3000/1	find	47.3 ns	48.9 ns	0.97	37.8 ns	51.1 ns	0.74
u16/Std/Dense/3000/40	no	827 ns	385 ns	2.15	854 ns	422 ns	2.02
u16/Std/Dense/3000/18	no	964 ns	499 ns	1.93	994 ns	554 ns	1.79
u16/Std/Dense/3000/16	no	1019 ns	528 ns	1.93	1010 ns	568 ns	1.78
u16/Std/Dense/3000/14	no	1043 ns	577 ns	1.81	1064 ns	585 ns	1.82
u16/Std/Dense/3000/10	no	1202 ns	695 ns	1.73	1186 ns	708 ns	1.68
u16/Std/Dense/3000/8	yes	1308 ns	211 ns	6.20	1268 ns	337 ns	3.76
u16/Std/Dense/3000/5	yes	1514 ns	210 ns	7.21	1490 ns	340 ns	4.38
u16/Std/Dense/3000/4	yes	1494 ns	211 ns	7.08	1458 ns	355 ns	4.11
u16/Std/Dense/3000/3	yes	1438 ns	232 ns	6.20	1398 ns	365 ns	3.83
u16/Std/Dense/3000/2	yes	1136 ns	232 ns	4.90	1271 ns	346 ns	3.67
u16/Std/Dense/3000/1	find	74.3 ns	76.0 ns	0.98	87.2 ns	89.2 ns	0.98
u16/Rng/Dense/3000/40	no	423 ns	388 ns	1.09	526 ns	524 ns	1.00
u16/Rng/Dense/3000/18	no	549 ns	506 ns	1.08	643 ns	702 ns	0.92
u16/Rng/Dense/3000/16	no	576 ns	528 ns	1.09	702 ns	619 ns	1.13
u16/Rng/Dense/3000/14	no	599 ns	576 ns	1.04	701 ns	634 ns	1.11
u16/Rng/Dense/3000/10	no	699 ns	702 ns	1.00	779 ns	764 ns	1.02
u16/Rng/Dense/3000/8	yes	769 ns	216 ns	3.56	894 ns	347 ns	2.58
u16/Rng/Dense/3000/5	yes	874 ns	211 ns	4.14	1002 ns	341 ns	2.94
u16/Rng/Dense/3000/4	yes	1023 ns	210 ns	4.87	1110 ns	339 ns	3.27
u16/Rng/Dense/3000/3	yes	1320 ns	232 ns	5.69	1260 ns	344 ns	3.66
u16/Rng/Dense/3000/2	yes	1823 ns	233 ns	7.82	1769 ns	344 ns	5.14
u16/Rng/Dense/3000/1	find	75.7 ns	73.7 ns	1.03	83.0 ns	90.3 ns	0.92
u32/Std/Zones/3000/40	no	44.4 ns	43.7 ns	1.02	45.3 ns	58.1 ns	0.78
u32/Std/Zones/3000/18	no	61.9 ns	64.2 ns	0.96	71.3 ns	79.4 ns	0.90
u32/Std/Zones/3000/16	no	64.6 ns	69.5 ns	0.93	74.8 ns	84.0 ns	0.89
u32/Std/Zones/3000/14	no	72.6 ns	76.1 ns	0.95	81.1 ns	103 ns	0.79
u32/Std/Zones/3000/10	no	90.9 ns	96.3 ns	0.94	103 ns	129 ns	0.80
u32/Std/Zones/3000/8	no	113 ns	116 ns	0.97	126 ns	153 ns	0.82
u32/Std/Zones/3000/5	no	167 ns	176 ns	0.95	186 ns	237 ns	0.78
u32/Std/Zones/3000/4	yes	196 ns	162 ns	1.21	228 ns	230 ns	0.99
u32/Std/Zones/3000/3	yes	262 ns	162 ns	1.62	302 ns	232 ns	1.30
u32/Std/Zones/3000/2	yes	393 ns	163 ns	2.41	440 ns	229 ns	1.92
u32/Std/Zones/3000/1	find	80.1 ns	80.3 ns	1.00	70.5 ns	75.8 ns	0.93
u32/Rng/Zones/3000/40	no	49.2 ns	42.4 ns	1.16	52.4 ns	53.4 ns	0.98
u32/Rng/Zones/3000/18	no	101 ns	59.0 ns	1.71	100 ns	77.2 ns	1.30
u32/Rng/Zones/3000/16	no	110 ns	68.7 ns	1.60	110 ns	82.0 ns	1.34
u32/Rng/Zones/3000/14	no	125 ns	75.9 ns	1.65	122 ns	101 ns	1.21
u32/Rng/Zones/3000/10	no	159 ns	95.9 ns	1.66	162 ns	127 ns	1.28
u32/Rng/Zones/3000/8	no	194 ns	118 ns	1.64	198 ns	154 ns	1.29
u32/Rng/Zones/3000/5	no	302 ns	175 ns	1.73	313 ns	232 ns	1.35
u32/Rng/Zones/3000/4	yes	374 ns	163 ns	2.29	381 ns	231 ns	1.65
u32/Rng/Zones/3000/3	yes	494 ns	163 ns	3.03	511 ns	232 ns	2.20
u32/Rng/Zones/3000/2	yes	732 ns	162 ns	4.52	756 ns	233 ns	3.24
u32/Rng/Zones/3000/1	find	80.4 ns	80.3 ns	1.00	70.6 ns	74.3 ns	0.95
u32/Std/Dense/3000/40	no	921 ns	360 ns	2.56	821 ns	534 ns	1.54
u32/Std/Dense/3000/18	no	1171 ns	455 ns	2.57	995 ns	593 ns	1.68
u32/Std/Dense/3000/16	no	1187 ns	475 ns	2.50	978 ns	624 ns	1.57
u32/Std/Dense/3000/14	no	1212 ns	509 ns	2.38	1000 ns	659 ns	1.52
u32/Std/Dense/3000/10	no	1337 ns	605 ns	2.21	1059 ns	865 ns	1.22
u32/Std/Dense/3000/8	no	1463 ns	689 ns	2.12	1119 ns	952 ns	1.18
u32/Std/Dense/3000/5	no	1547 ns	849 ns	1.82	1268 ns	1131 ns	1.12
u32/Std/Dense/3000/4	yes	1460 ns	334 ns	4.37	1332 ns	470 ns	2.83
u32/Std/Dense/3000/3	yes	1442 ns	333 ns	4.33	1406 ns	475 ns	2.96
u32/Std/Dense/3000/2	yes	1149 ns	333 ns	3.45	1211 ns	477 ns	2.54
u32/Std/Dense/3000/1	find	163 ns	158 ns	1.03	151 ns	153 ns	0.99
u32/Rng/Dense/3000/40	no	496 ns	357 ns	1.39	553 ns	537 ns	1.03
u32/Rng/Dense/3000/18	no	600 ns	458 ns	1.31	672 ns	585 ns	1.15
u32/Rng/Dense/3000/16	no	638 ns	473 ns	1.35	665 ns	623 ns	1.07
u32/Rng/Dense/3000/14	no	665 ns	511 ns	1.30	687 ns	664 ns	1.03
u32/Rng/Dense/3000/10	no	777 ns	613 ns	1.27	784 ns	856 ns	0.92
u32/Rng/Dense/3000/8	no	857 ns	688 ns	1.25	873 ns	961 ns	0.91
u32/Rng/Dense/3000/5	no	991 ns	852 ns	1.16	1013 ns	1127 ns	0.90
u32/Rng/Dense/3000/4	yes	1105 ns	343 ns	3.22	1050 ns	470 ns	2.23
u32/Rng/Dense/3000/3	yes	1258 ns	337 ns	3.73	1275 ns	474 ns	2.69
u32/Rng/Dense/3000/2	yes	1751 ns	337 ns	5.20	1863 ns	470 ns	3.96
u32/Rng/Dense/3000/1	find	160 ns	159 ns	1.01	157 ns	152 ns	1.03
u64/Std/Zones/3000/40	no	40.9 ns	50.5 ns	0.81	48.3 ns	54.5 ns	0.89
u64/Std/Zones/3000/18	no	58.2 ns	74.7 ns	0.78	68.8 ns	76.3 ns	0.90
u64/Std/Zones/3000/16	no	63.3 ns	82.8 ns	0.76	73.9 ns	83.7 ns	0.88
u64/Std/Zones/3000/14	no	68.0 ns	90.9 ns	0.75	79.9 ns	92.9 ns	0.86
u64/Std/Zones/3000/10	no	87.0 ns	114 ns	0.76	102 ns	118 ns	0.86
u64/Std/Zones/3000/8	no	106 ns	140 ns	0.76	124 ns	143 ns	0.87
u64/Std/Zones/3000/5	no	168 ns	209 ns	0.80	187 ns	223 ns	0.84
u64/Std/Zones/3000/4	no	192 ns	259 ns	0.74	230 ns	292 ns	0.79
u64/Std/Zones/3000/3	no	266 ns	332 ns	0.80	295 ns	354 ns	0.83
u64/Std/Zones/3000/2	yes	372 ns	248 ns	1.50	434 ns	395 ns	1.10
u64/Std/Zones/3000/1	find	152 ns	151 ns	1.01	157 ns	158 ns	0.99
u64/Rng/Zones/3000/40	no	66.2 ns	49.5 ns	1.34	59.0 ns	55.9 ns	1.06
u64/Rng/Zones/3000/18	no	105 ns	73.8 ns	1.42	101 ns	74.9 ns	1.35
u64/Rng/Zones/3000/16	no	117 ns	81.2 ns	1.44	111 ns	83.4 ns	1.33
u64/Rng/Zones/3000/14	no	130 ns	90.4 ns	1.44	126 ns	91.9 ns	1.37
u64/Rng/Zones/3000/10	no	171 ns	112 ns	1.53	161 ns	118 ns	1.36
u64/Rng/Zones/3000/8	no	209 ns	137 ns	1.53	201 ns	141 ns	1.43
u64/Rng/Zones/3000/5	no	325 ns	204 ns	1.59	312 ns	211 ns	1.48
u64/Rng/Zones/3000/4	no	402 ns	251 ns	1.60	381 ns	262 ns	1.45
u64/Rng/Zones/3000/3	no	531 ns	333 ns	1.59	501 ns	346 ns	1.45
u64/Rng/Zones/3000/2	yes	796 ns	242 ns	3.29	746 ns	357 ns	2.09
u64/Rng/Zones/3000/1	find	149 ns	150 ns	0.99	152 ns	150 ns	1.01
u64/Std/Dense/3000/40	no	936 ns	384 ns	2.44	1172 ns	578 ns	2.03
u64/Std/Dense/3000/18	no	1122 ns	545 ns	2.06	1244 ns	601 ns	2.07
u64/Std/Dense/3000/16	no	1177 ns	545 ns	2.16	1239 ns	622 ns	1.99
u64/Std/Dense/3000/14	no	1208 ns	597 ns	2.02	1225 ns	632 ns	1.94
u64/Std/Dense/3000/10	no	1320 ns	766 ns	1.72	1293 ns	666 ns	1.94
u64/Std/Dense/3000/8	no	1426 ns	910 ns	1.57	1395 ns	735 ns	1.90
u64/Std/Dense/3000/5	no	1582 ns	1075 ns	1.47	1606 ns	966 ns	1.66
u64/Std/Dense/3000/4	no	1488 ns	1219 ns	1.22	1673 ns	1095 ns	1.53
u64/Std/Dense/3000/3	no	1506 ns	1296 ns	1.16	1702 ns	1126 ns	1.51
u64/Std/Dense/3000/2	yes	1464 ns	470 ns	3.11	1457 ns	689 ns	2.11
u64/Std/Dense/3000/1	find	285 ns	303 ns	0.94	288 ns	291 ns	0.99
u64/Rng/Dense/3000/40	no	576 ns	384 ns	1.50	483 ns	578 ns	0.84
u64/Rng/Dense/3000/18	no	876 ns	546 ns	1.60	521 ns	590 ns	0.88
u64/Rng/Dense/3000/16	no	866 ns	540 ns	1.60	546 ns	624 ns	0.88
u64/Rng/Dense/3000/14	no	883 ns	593 ns	1.49	559 ns	625 ns	0.89
u64/Rng/Dense/3000/10	no	944 ns	773 ns	1.22	632 ns	674 ns	0.94
u64/Rng/Dense/3000/8	no	1052 ns	914 ns	1.15	743 ns	731 ns	1.02
u64/Rng/Dense/3000/5	no	1071 ns	1079 ns	0.99	970 ns	950 ns	1.02
u64/Rng/Dense/3000/4	no	1136 ns	1224 ns	0.93	1123 ns	1096 ns	1.02
u64/Rng/Dense/3000/3	no	1303 ns	1282 ns	1.02	1317 ns	1130 ns	1.17
u64/Rng/Dense/3000/2	yes	1761 ns	474 ns	3.72	1801 ns	691 ns	2.61
u64/Rng/Dense/3000/1	find	286 ns	302 ns	0.95	290 ns	296 ns	0.98

🥈 Results interpretation

For x64 and for the vectorized n there is a certain improvement for Zones. For Dense the improvement is even greater.

The non-vectorized cases vary a lot, The fallback happen to be faster than header implementation often, but not always. Out of the header implementations, surprisingly, the ranges one is slower for Zones case.

The x86 results are not very good, but not too bad either.

The table contains a lot of rows, but I don't see a reasonable way to reduce it without losing important information.

# Conflicts: # benchmarks/src/search_n.cpp # stl/inc/algorithm # stl/src/vector_algorithms.cpp

stl/inc/algorithm

benchmarks/src/search_n.cpp

stl/src/vector_algorithms.cpp

tests/std/tests/VSO_0000000_vector_algorithms_search_n/test.cpp

StephanTLavavej · 2025-04-21T00:06:20Z

Thanks! 😻 I pushed moderate changes - please double-check.

5950X results:

Benchmark	Before	After	Speedup
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/40`	37.4 ns	38.8 ns	0.96
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/18`	65.9 ns	47.9 ns	1.38
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/16`	72.1 ns	51.0 ns	1.41
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/14`	79.4 ns	51.3 ns	1.55
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/10`	105 ns	51.3 ns	2.05
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/8`	128 ns	51.1 ns	2.50
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/5`	199 ns	51.9 ns	3.83
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/4`	246 ns	50.9 ns	4.83
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/3`	323 ns	53.8 ns	6.00
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/2`	484 ns	52.5 ns	9.22
`bm<uint8_t, AlgType::Std, PatternType::TwoZones>/3000/1`	23.0 ns	19.7 ns	1.17
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/40`	36.6 ns	38.9 ns	0.94
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/18`	60.1 ns	47.7 ns	1.26
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/16`	66.1 ns	51.2 ns	1.29
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/14`	74.1 ns	51.4 ns	1.44
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/10`	104 ns	51.4 ns	2.02
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/8`	127 ns	51.7 ns	2.46
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/5`	197 ns	52.1 ns	3.78
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/4`	244 ns	51.1 ns	4.77
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/3`	331 ns	59.5 ns	5.56
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/2`	479 ns	54.4 ns	8.81
`bm<uint8_t, AlgType::Rng, PatternType::TwoZones>/3000/1`	23.2 ns	19.6 ns	1.18
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/40`	992 ns	569 ns	1.74
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/18`	925 ns	608 ns	1.52
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/16`	924 ns	98.4 ns	9.39
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/14`	952 ns	102 ns	9.33
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/10`	1042 ns	101 ns	10.32
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/8`	1108 ns	102 ns	10.86
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/5`	1187 ns	102 ns	11.64
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/4`	1241 ns	105 ns	11.82
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/3`	1179 ns	103 ns	11.45
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/2`	1125 ns	104 ns	10.82
`bm<uint8_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/1`	42.6 ns	38.5 ns	1.11
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/40`	364 ns	566 ns	0.64
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/18`	451 ns	612 ns	0.74
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/16`	478 ns	98.0 ns	4.88
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/14`	490 ns	100 ns	4.90
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/10`	559 ns	100 ns	5.59
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/8`	641 ns	102 ns	6.28
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/5`	803 ns	102 ns	7.87
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/4`	900 ns	105 ns	8.57
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/3`	977 ns	104 ns	9.39
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/2`	1176 ns	104 ns	11.31
`bm<uint8_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/1`	46.1 ns	41.3 ns	1.12
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/40`	37.3 ns	46.1 ns	0.81
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/18`	66.4 ns	78.5 ns	0.85
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/16`	72.6 ns	86.4 ns	0.84
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/14`	79.7 ns	97.8 ns	0.81
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/10`	105 ns	136 ns	0.77
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/8`	128 ns	93.0 ns	1.38
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/5`	198 ns	93.0 ns	2.13
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/4`	245 ns	94.3 ns	2.60
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/3`	324 ns	96.9 ns	3.34
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/2`	479 ns	95.8 ns	5.00
`bm<uint16_t, AlgType::Std, PatternType::TwoZones>/3000/1`	46.8 ns	48.3 ns	0.97
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/40`	36.7 ns	46.0 ns	0.80
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/18`	63.4 ns	78.5 ns	0.81
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/16`	69.8 ns	86.4 ns	0.81
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/14`	79.0 ns	97.7 ns	0.81
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/10`	118 ns	136 ns	0.87
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/8`	144 ns	93.3 ns	1.54
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/5`	224 ns	93.0 ns	2.41
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/4`	266 ns	94.5 ns	2.81
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/3`	353 ns	97.0 ns	3.64
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/2`	523 ns	95.8 ns	5.46
`bm<uint16_t, AlgType::Rng, PatternType::TwoZones>/3000/1`	47.2 ns	48.7 ns	0.97
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/40`	1069 ns	405 ns	2.64
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/18`	959 ns	525 ns	1.83
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/16`	1002 ns	573 ns	1.75
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/14`	1036 ns	594 ns	1.74
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/10`	1117 ns	721 ns	1.55
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/8`	1221 ns	172 ns	7.10
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/5`	1368 ns	172 ns	7.95
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/4`	1377 ns	172 ns	8.01
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/3`	1419 ns	176 ns	8.06
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/2`	1428 ns	176 ns	8.11
`bm<uint16_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/1`	81.8 ns	85.2 ns	0.96
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/40`	556 ns	414 ns	1.34
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/18`	612 ns	528 ns	1.16
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/16`	647 ns	573 ns	1.13
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/14`	662 ns	598 ns	1.11
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/10`	723 ns	729 ns	0.99
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/8`	810 ns	173 ns	4.68
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/5`	918 ns	172 ns	5.34
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/4`	1005 ns	172 ns	5.84
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/3`	1048 ns	176 ns	5.95
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/2`	1264 ns	177 ns	7.14
`bm<uint16_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/1`	82.3 ns	85.4 ns	0.96
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/40`	40.5 ns	30.5 ns	1.33
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/18`	66.1 ns	47.7 ns	1.39
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/16`	71.4 ns	52.5 ns	1.36
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/14`	80.4 ns	58.7 ns	1.37
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/10`	104 ns	84.2 ns	1.24
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/8`	128 ns	103 ns	1.24
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/5`	197 ns	157 ns	1.25
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/4`	246 ns	151 ns	1.63
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/3`	324 ns	152 ns	2.13
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/2`	481 ns	152 ns	3.16
`bm<uint32_t, AlgType::Std, PatternType::TwoZones>/3000/1`	84.7 ns	87.7 ns	0.97
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/40`	36.5 ns	30.5 ns	1.20
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/18`	62.3 ns	47.8 ns	1.30
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/16`	69.0 ns	52.5 ns	1.31
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/14`	77.9 ns	58.7 ns	1.33
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/10`	118 ns	84.8 ns	1.39
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/8`	146 ns	103 ns	1.42
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/5`	224 ns	157 ns	1.43
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/4`	280 ns	152 ns	1.84
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/3`	358 ns	152 ns	2.36
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/2`	535 ns	153 ns	3.50
`bm<uint32_t, AlgType::Rng, PatternType::TwoZones>/3000/1`	84.8 ns	87.7 ns	0.97
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/40`	1013 ns	385 ns	2.63
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/18`	960 ns	441 ns	2.18
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/16`	994 ns	467 ns	2.13
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/14`	1010 ns	481 ns	2.10
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/10`	1102 ns	545 ns	2.02
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/8`	1186 ns	633 ns	1.87
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/5`	1304 ns	792 ns	1.65
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/4`	1381 ns	289 ns	4.78
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/3`	1411 ns	288 ns	4.90
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/2`	1420 ns	287 ns	4.95
`bm<uint32_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/1`	157 ns	164 ns	0.96
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/40`	389 ns	387 ns	1.01
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/18`	489 ns	441 ns	1.11
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/16`	530 ns	469 ns	1.13
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/14`	556 ns	483 ns	1.15
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/10`	652 ns	547 ns	1.19
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/8`	756 ns	636 ns	1.19
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/5`	957 ns	795 ns	1.20
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/4`	1086 ns	288 ns	3.77
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/3`	1227 ns	287 ns	4.28
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/2`	1351 ns	287 ns	4.71
`bm<uint32_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/1`	157 ns	164 ns	0.96
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/40`	40.4 ns	40.4 ns	1.00
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/18`	66.0 ns	55.5 ns	1.19
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/16`	71.2 ns	60.2 ns	1.18
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/14`	79.9 ns	67.4 ns	1.19
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/10`	104 ns	95.6 ns	1.09
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/8`	128 ns	116 ns	1.10
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/5`	197 ns	177 ns	1.11
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/4`	243 ns	219 ns	1.11
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/3`	322 ns	288 ns	1.12
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/2`	479 ns	241 ns	1.99
`bm<uint64_t, AlgType::Std, PatternType::TwoZones>/3000/1`	160 ns	167 ns	0.96
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/40`	36.3 ns	41.0 ns	0.89
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/18`	62.7 ns	56.4 ns	1.11
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/16`	69.7 ns	60.8 ns	1.15
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/14`	77.9 ns	67.6 ns	1.15
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/10`	121 ns	96.2 ns	1.26
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/8`	149 ns	117 ns	1.27
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/5`	230 ns	178 ns	1.29
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/4`	286 ns	219 ns	1.31
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/3`	375 ns	288 ns	1.30
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/2`	561 ns	239 ns	2.35
`bm<uint64_t, AlgType::Rng, PatternType::TwoZones>/3000/1`	160 ns	167 ns	0.96
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/40`	1559 ns	565 ns	2.76
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/18`	1426 ns	609 ns	2.34
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/16`	1435 ns	643 ns	2.23
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/14`	1427 ns	654 ns	2.18
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/10`	1437 ns	714 ns	2.01
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/8`	1497 ns	812 ns	1.84
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/5`	1547 ns	919 ns	1.68
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/4`	1522 ns	1013 ns	1.50
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/3`	1455 ns	1044 ns	1.39
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/2`	1257 ns	461 ns	2.73
`bm<uint64_t, AlgType::Std, PatternType::DenseSmallSequences>/3000/1`	307 ns	322 ns	0.95
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/40`	386 ns	565 ns	0.68
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/18`	480 ns	607 ns	0.79
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/16`	517 ns	642 ns	0.81
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/14`	549 ns	657 ns	0.84
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/10`	644 ns	716 ns	0.90
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/8`	742 ns	813 ns	0.91
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/5`	944 ns	925 ns	1.02
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/4`	1075 ns	1017 ns	1.06
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/3`	1192 ns	1045 ns	1.14
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/2`	1476 ns	460 ns	3.21
`bm<uint64_t, AlgType::Rng, PatternType::DenseSmallSequences>/3000/1`	308 ns	321 ns	0.96

AlexGuteniev · 2025-04-21T03:39:17Z

please double-check.

All good.

I want you to also review PR description and explicitly answer about n=1 case.

StephanTLavavej · 2025-04-21T05:16:02Z

Thanks! I think we should keep handling n=1 in the headers. Having a separate check in the separately compiled code is fine. If you want to have the check only in the headers, then a comment in the separately compiled code that we're assuming the check has already been done, would be a good idea.

StephanTLavavej · 2025-04-22T10:13:07Z

I'm mirroring this to the MSVC-internal repo - please notify me if any further changes are pushed.

StephanTLavavej · 2025-04-22T20:52:05Z

🕵️ 🔍 🔢

AlexGuteniev and others added 15 commits March 18, 2025 20:44

Use find for search_n when n=1

9043ffe

Actually test predicate-less unit needle

7af139a

Fix comment typos.

74116a2

Avoid shadowing: count => N

d3766ea

Remove unused <limits>.

2cb7d1c

test

d10807f

benchmark

d965af6

skeleton

ab6df2e

More benchmarks, initial vectorization

d47a02d

Drop RareSignleMatches benchmark

ee1f8f4

more specialization for sizes

8c4a691

more n!

0fcaa86

more n in becnhmark!

cccd241

thresholds!

93139be

Simplify, optimize x86

6071339

github-project-automation bot added this to STL Code Reviews Mar 22, 2025

github-project-automation bot moved this to Initial Review in STL Code Reviews Mar 22, 2025

AlexGuteniev added 2 commits March 22, 2025 15:41

ARM64EC

1c7b6d3

vzerouuper

1ab6a55

StephanTLavavej moved this from Initial Review to Work In Progress in STL Code Reviews Mar 22, 2025

avoid unnecessary bit width conversion

37fe2bc

StephanTLavavej added the performance Must go faster label Mar 22, 2025

This comment was marked as resolved.

Sign in to view

AlexGuteniev marked this pull request as ready for review March 25, 2025 05:29

AlexGuteniev requested a review from a team as a code owner March 25, 2025 05:29

AlexGuteniev added 3 commits March 25, 2025 08:13

Merge remote-tracking branch 'upstream/main' into search_n

7372cf9

# Conflicts: # benchmarks/src/search_n.cpp # stl/inc/algorithm # stl/src/vector_algorithms.cpp

120

8373fed

120

b3b492b

StephanTLavavej self-assigned this Mar 25, 2025

StephanTLavavej moved this from Work In Progress to Initial Review in STL Code Reviews Mar 25, 2025

AlexGuteniev and others added 11 commits April 10, 2025 23:47

Merge branch 'microsoft:main' into search_n

35993e1

Drop unnecessary parens.

49916b7

Use _Last_ptr.

b73964b

Fix typos.

7e702ed

Add newlines.

0f60ba7

_Bits_count => _Bytes_count

a4ac68d

Add const.

80d160e

Adjust headers.

0352dd6

Simplify last_known_good_search_n further.

5db47ac

Guard input.size() - 1 against empty input.

0cbca66

Allow the pattern to be placed at the last possible position.

e7ed6b4

StephanTLavavej reviewed Apr 21, 2025

View reviewed changes

StephanTLavavej approved these changes Apr 21, 2025

View reviewed changes

StephanTLavavej removed their assignment Apr 21, 2025

StephanTLavavej moved this from Initial Review to Ready To Merge in STL Code Reviews Apr 21, 2025

This comment was marked as resolved.

Sign in to view

StephanTLavavej moved this from Ready To Merge to Merging in STL Code Reviews Apr 22, 2025

StephanTLavavej merged commit b0bd6a7 into microsoft:main Apr 22, 2025
39 checks passed

github-project-automation bot moved this from Merging to Done in STL Code Reviews Apr 22, 2025

StephanTLavavej mentioned this pull request Apr 22, 2025

Vectorize remove_copy and unique_copy #5355

Merged

AlexGuteniev deleted the search_n branch April 22, 2025 21:04

AlexGuteniev mentioned this pull request Apr 23, 2025

<algorithm>: randomized test coverage for std::search_n and ranges::search_n #933

Closed

StephanTLavavej mentioned this pull request May 3, 2025

Test coverage for search_n with impossible value #5440

Merged

Vectorize search_n for small values of n #5352

Vectorize search_n for small values of n #5352

Uh oh!

Conversation

AlexGuteniev commented Mar 22, 2025 • edited by StephanTLavavej Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

⚙️ The optimization

🥔 Down-level architectures support

1️⃣ Special n=1 case

✅ Test coverage

🏁 Benchmarks

⏱️ Benchmark results

🥈 Results interpretation

Uh oh!

This comment was marked as resolved.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

StephanTLavavej commented Apr 21, 2025

Uh oh!

This comment was marked as resolved.

This comment was marked as resolved.

AlexGuteniev commented Apr 21, 2025

Uh oh!

StephanTLavavej commented Apr 21, 2025

Uh oh!

StephanTLavavej commented Apr 22, 2025

Uh oh!

Uh oh!

StephanTLavavej commented Apr 22, 2025

🕵️ 🔍 🔢

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Vectorize `search_n` for small values of n #5352

Vectorize `search_n` for small values of n #5352

AlexGuteniev commented Mar 22, 2025 •

edited by StephanTLavavej

Loading