BBuf/how-to-optim-algorithm-in-cuda

how to optimize some algorithm in cuda.

CudaC++Makefilecudallm
This is stars and forks stats for /BBuf/how-to-optim-algorithm-in-cuda repository. As of 29 Apr, 2024 this repository has 549 stars and 50 forks.

how-to-optim-algorithm-in-cuda 我也维护了一个学习深度学习框架(PyTorch和OneFlow)的仓库 https://github.com/BBuf/how-to-learn-deep-learning-framework 以及一个如何学习深度学习编译器(TVM/MLIR/LLVM)的学习仓库 https://github.com/BBuf/tvm_mlir_learn , 有需要的小伙伴可以点一点star 本工程记录如何基于 cuda 优化一些常见的算法。请注意,下面的介绍都分别对应了子目录的代码实现,所以想复现性能的话请查看对应子目录下面的 README 。 0. how-to-compile-pytorch-from-source 记录如何手动编译 PyTorch 源码,学习 PyTorch 的一些 cuda 实现。 1. reduce 这里记录学习 NIVDIA 的reduce优化官方博客 做的笔记。完整实验代码见这里 , 原理讲解请看:【BBuf的CUDA笔记】三,reduce优化入门学习笔记 。后续又添加了 PyTorch BlockReduce...
Read on GithubGithub Stats Page
repotechsstarsweeklyforksweekly
Clowfoe/IMPOSTOR-UPDATEHaxeCLua9201570
ponylang/net_sslPonyPowerShellMakefile5070
linuxdeepin/deepin-musicQMLC++CMake1810870
CN-Belief/MIUI-C++1550270
lnis-uofu/SOFAVerilogTclPython1180270
vitoplantamura/BugCheckerCC++Other845+4121+1
NVISOsecurity/CobaltWhispersCMakefile2100290
PintaProject/PintaC#ShellPython1.5k02430
fmrico/book_ros2C++PythonCMake4130760
EmberGL-org/EmberGLC++C2820330