1. 首页
  2. 数据库
  3. 其它
  4. accelerated_computing 源码

accelerated_computing 源码

上传者: 2021-04-17 18:51:26上传 ZIP文件 3.5KB 热度 6次
笔记 编译并运行: nvcc -o out dim1operqtions.cu -run 性能分析: nsys profile --stats=true ./out后--stats=true ,如果我们要生成一个报告中,我们可以添加-o myreport APOD设计周期:评估,并行化,优化,部署。 可能的优化 更改执行上下文 设置块数= (N + threads - 1) / threads 设置一个具有多个块的网格,该块是流式多处理器(SM)数量的倍数 尽可能在GPU上初始化数据,以减少迁移(DtoH或HtoD)甚至页面错误的次数。 异步内存预取非常有效,并且可以大大减少操作数和内核运行时。 int deviceId; cudaGetDevice (&deviceId); cudadeviceProp props; cudaGetDeviceProperties (&props
下载地址
用户评论