相比于torch的split的额外开销 #71173

tianyuzhou668 · 2025-02-18T06:40:16Z

请提出你的问题 Please ask your question

你好，最近在做paddle的split操作时发现与torch相比paddle会有额外的kernel操作，性能只有torch的30%，我的测试脚本如下：

import paddle
from paddle import nn
import time


if __name__ == '__main__':

    paddle.set_device("gpu:0")

    x = paddle.ones(shape=[2 * 2048, 5120], dtype='float16')
    weight = paddle.ones(shape=[5120, 5120], dtype='float16')

    res = paddle.empty(shape=[2 * 2048, 5120], dtype='float16')
    for i in range(100):
        res[0 : 2048, :] = paddle._C_ops.linear(x[0 : 2048, :], weight, None)

在用nsys分析时发现会多出一个Eigen::internal::EigenMetaKernel，而torch是通过d2d的copy实现的，paddle的这个操作相比torch会慢30%。请问一下这个有什么可以修改的方向或者绕过的方式吗？

The text was updated successfully, but these errors were encountered:

xiaoguoguo626807 · 2025-02-18T08:55:46Z

linear_result = paddle._C_ops.linear(x[0 : 2048, :], weight, None)
res = paddle.concat([linear_result, res[2048:, :]], axis=0) 这个应该是赋值的时候调用的kernel实现问题，可以用这个绕下看看性能表现。如果循环里的每次结果都需要加到res里，用for i in range(xxx):
matmul_results.append(linear_res)
res = paddle.stack(matmul_results, axis=0)试下

tianyuzhou668 added status/new-issue 新建 type/question 用户提问 labels Feb 18, 2025

paddle-bot bot assigned LiYuRio Feb 18, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

相比于torch的split的额外开销 #71173

相比于torch的split的额外开销 #71173

tianyuzhou668 commented Feb 18, 2025

xiaoguoguo626807 commented Feb 18, 2025

相比于torch的split的额外开销 #71173

相比于torch的split的额外开销 #71173

Comments

tianyuzhou668 commented Feb 18, 2025

请提出你的问题 Please ask your question

xiaoguoguo626807 commented Feb 18, 2025