[PT2]: Add Static Dispatch Kernel for wrapped_fbgemm_linear_fp16_weight #160451

kqfu · 2025-08-12T19:49:25Z

Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid.

Test Plan:

MODEL_TYPE=dpa_product_first_ctr_model
MODEL_ENTITY_ID=892669089
SNAPSHOT_ID=37
OTHER_MODEL_ENTITY_ID=892669089
OTHER_SNAPSHOT_ID=36

MODULES=(mix prepare_float_features object user)
SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only)

for i in "${!MODULES[@]}"; do 
MODULE=${MODULES[i]}
SUFFIX=${SUFFIXES[i]}
buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true

Before: P1900475429
I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms
I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms

After: P1900825771
I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m
I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m

Still has some regression but the gap is smaller...

Rollback Plan:

Reviewed By: henryoier, muchulee8

Differential Revision: D80042054

pytorch-bot · 2025-08-12T19:49:28Z

🔗 Helpful Links

🧪 See artifacts and rendered test results at hud.pytorch.org/pr/160451

📄 Preview Python docs built from this PR
📄 Preview C++ docs built from this PR
❓ Need help or want to give feedback on the CI? Visit the bot commands wiki or our office hours

Note: Links to docs will display an error until the docs builds have been completed.

✅ No Failures

As of commit 7a6e78b with merge base dae7710 ():
💚 Looks good so far! There are no failures yet. 💚

This comment was automatically generated by Dr. CI and updates every 15 minutes.

facebook-github-bot · 2025-08-12T19:49:34Z

This pull request was exported from Phabricator. Differential Revision: D80042054

github-actions · 2025-08-12T19:53:20Z

Attention! native_functions.yaml was changed

If you are adding a new function or defaulted argument to native_functions.yaml, you cannot use it from pre-existing Python frontend code until our FC window passes (two weeks). Split your PR into two PRs, one which adds the new C++ functionality, and one that makes use of it from Python, and land them two weeks apart. See https://github.com/pytorch/pytorch/wiki/PyTorch's-Python-Frontend-Backward-and-Forward-Compatibility-Policy#forwards-compatibility-fc for more info.

Caused by:

aten/src/ATen/native/native_functions.yaml

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

…pytorch#160451) Summary: Pull Request resolved: pytorch#160451 Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

facebook-github-bot · 2025-08-13T16:58:15Z

This pull request was exported from Phabricator. Differential Revision: D80042054

…pytorch#160451) Summary: Pull Request resolved: pytorch#160451 Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

facebook-github-bot · 2025-08-13T21:42:28Z

This pull request was exported from Phabricator. Differential Revision: D80042054

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

facebook-github-bot · 2025-08-14T17:27:11Z

This pull request was exported from Phabricator. Differential Revision: D80042054

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

facebook-github-bot · 2025-08-14T17:34:05Z

This pull request was exported from Phabricator. Differential Revision: D80042054

…pytorch#160451) Summary: Pull Request resolved: pytorch#160451 Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

kqfu · 2025-08-15T00:04:02Z

/easycla

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054

facebook-github-bot · 2025-08-15T00:29:42Z

This pull request was exported from Phabricator. Differential Revision: D80042054

facebook-github-bot · 2025-08-15T03:58:03Z

@pytorchbot merge

(Initiating merge automatically since Phabricator Diff has merged)

pytorchmergebot · 2025-08-15T04:00:43Z

Merge started

Your change will be merged once all checks pass (ETA 0-4 Hours).

Learn more about merging in the wiki.

Questions? Feedback? Please reach out to the PyTorch DevX Team

Advanced Debugging

Check the merge workflow status
here

…ht (pytorch#160451) Summary: Add static dispatch kernel for wrapped_fbgemm_linear_fp16_weight. This optimization should improve perf for all Ads DSNN models using Sigmoid. Test Plan: ``` MODEL_TYPE=dpa_product_first_ctr_model MODEL_ENTITY_ID=892669089 SNAPSHOT_ID=37 OTHER_MODEL_ENTITY_ID=892669089 OTHER_SNAPSHOT_ID=36 MODULES=(mix prepare_float_features object user) SUFFIXES=(.predictor.local .predictor.precompute.prepare_float_features .predictor.precompute.remote_object_only .predictor.precompute.remote_request_only) for i in "${!MODULES[@]}"; do MODULE=${MODULES[i]} SUFFIX=${SUFFIXES[i]} buck2 run mode/opt caffe2/torch/fb/model_transform/fx2trt/packaging:load_net_predictor -- --loadMode=BenchmarkAB --inputNetFile=/data/users/$USER/models/${MODEL_ENTITY_ID}/${SNAPSHOT_ID}/${MODEL_ENTITY_ID}_${SNAPSHOT_ID}${SUFFIX} --otherNetFile=/data/users/$USER/models/${OTHER_MODEL_ENTITY_ID}/${OTHER_SNAPSHOT_ID}/${OTHER_MODEL_ENTITY_ID}_${OTHER_SNAPSHOT_ID}${SUFFIX} --moduleName=${MODULE} --submodToDevice "" --benchmarkDontRebatchSamples=true --doNotRandomizeSampleInputs=true ``` Before: P1900475429 I0810 19:29:22.782902 2717337 load_net_predictor_lib.cpp:1807] Average latency A: 0.0843 ms I0810 19:29:22.782905 2717337 load_net_predictor_lib.cpp:1807] Average latency B: 0.0989 ms After: P1900825771 I0811 15:42:34.866408 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency A: 0.0854 ms[0m I0811 15:42:34.866411 2311279 load_net_predictor_lib.cpp:1807] [36mAverage latency B: 0.092 ms[0m Still has some regression but the gap is smaller... Rollback Plan: Reviewed By: henryoier, muchulee8 Differential Revision: D80042054 Pull Request resolved: pytorch#160451 Approved by: https://github.com/henryoier

pytorch-bot bot added the release notes: quantization release notes category label Aug 12, 2025

facebook-github-bot added the fb-exported label Aug 12, 2025

kqfu force-pushed the export-D80042054 branch from 71b1b2b to 2c2381a Compare August 13, 2025 16:48

kqfu force-pushed the export-D80042054 branch from 2c2381a to e267ccb Compare August 13, 2025 16:58

kqfu force-pushed the export-D80042054 branch from e267ccb to 7d9c442 Compare August 13, 2025 21:42

kqfu force-pushed the export-D80042054 branch from 7d9c442 to 3ac1534 Compare August 14, 2025 17:26

kqfu force-pushed the export-D80042054 branch from 3ac1534 to bd08b82 Compare August 14, 2025 17:27

kqfu force-pushed the export-D80042054 branch from bd08b82 to 130e62f Compare August 14, 2025 17:34

henryoier approved these changes Aug 15, 2025

View reviewed changes

pytorch-bot bot added the ciflow/trunk Trigger trunk jobs on your pull request label Aug 15, 2025

kqfu force-pushed the export-D80042054 branch from 130e62f to 7a6e78b Compare August 15, 2025 00:29

pytorchmergebot added the merging label Aug 15, 2025

pytorchmergebot added the Merged label Aug 15, 2025

pytorchmergebot closed this in 858fb80 Aug 15, 2025

pytorchmergebot removed the merging label Aug 15, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[PT2]: Add Static Dispatch Kernel for wrapped_fbgemm_linear_fp16_weight #160451

[PT2]: Add Static Dispatch Kernel for wrapped_fbgemm_linear_fp16_weight #160451

Uh oh!

kqfu commented Aug 12, 2025

Uh oh!

pytorch-bot bot commented Aug 12, 2025 •

edited

Loading

Uh oh!

facebook-github-bot commented Aug 12, 2025

Uh oh!

github-actions bot commented Aug 12, 2025

Uh oh!

facebook-github-bot commented Aug 13, 2025

Uh oh!

facebook-github-bot commented Aug 13, 2025

Uh oh!

facebook-github-bot commented Aug 14, 2025

Uh oh!

facebook-github-bot commented Aug 14, 2025

Uh oh!

kqfu commented Aug 15, 2025

Uh oh!

facebook-github-bot commented Aug 15, 2025

Uh oh!

facebook-github-bot commented Aug 15, 2025

Uh oh!

pytorchmergebot commented Aug 15, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

[PT2]: Add Static Dispatch Kernel for wrapped_fbgemm_linear_fp16_weight #160451

[PT2]: Add Static Dispatch Kernel for wrapped_fbgemm_linear_fp16_weight #160451

Uh oh!

Conversation

kqfu commented Aug 12, 2025

Uh oh!

pytorch-bot bot commented Aug 12, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

🔗 Helpful Links

🧪 See artifacts and rendered test results at hud.pytorch.org/pr/160451

✅ No Failures

Uh oh!

facebook-github-bot commented Aug 12, 2025

Uh oh!

github-actions bot commented Aug 12, 2025

Attention! native_functions.yaml was changed

Uh oh!

facebook-github-bot commented Aug 13, 2025

Uh oh!

facebook-github-bot commented Aug 13, 2025

Uh oh!

facebook-github-bot commented Aug 14, 2025

Uh oh!

facebook-github-bot commented Aug 14, 2025

Uh oh!

kqfu commented Aug 15, 2025

Uh oh!

facebook-github-bot commented Aug 15, 2025

Uh oh!

facebook-github-bot commented Aug 15, 2025

Uh oh!

pytorchmergebot commented Aug 15, 2025

Merge started

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

pytorch-bot bot commented Aug 12, 2025 •

edited

Loading