Transformer

Running:

Online Notebook (CUDA)

https://www.kaggle.com/code/roryclear/cuda-gpt2-demo

Locally

git clone --depth 1 https://github.com/roryclear/transformer.git

pip install -r requirements.txt

pip install pycuda (CUDA only)

pip install pyobjc-framework-Metal (Apple Silicon only)

python demo.py --p="your prompt"

CUDA, OpenCL and Metal GPT-2 inference

Fastest Inference
Support for all GPT-2 Models
Multiple Compute Languages
Remove all Numpy usage (For calculations)
Support any transformer

Performance:

CUDA

T4 x2 (Kaggle Cloud)	GPT2	GPT2-Medium	GPT2-Large
tinygrad	74 t/s	39 t/s	24 t/s
huggingface/transformers	30 t/s	12 t/s	6.1 t/s
roryclear/transformer	75 t/s	31 t/s	15 t/s

P100 (Kaggle Cloud)	GPT2	GPT2-Medium	GPT2-Large
tinygrad	57 t/s	31 t/s	20 t/s
huggingface/transformers	31 t/s	12 t/s	6.0 t/s
roryclear/transformer	59 t/s	21 t/s	10 t/s

Metal

Apple M2	GPT2	GPT2-Medium	GPT2-Large
tinygrad	30 t/s	22 t/s	15 t/s
huggingface/transformers	53 t/s	17 t/s	8 t/s
roryclear/transformer	33 t/s	16 t/s	10 t/s

OpenCL

Intel Integrated Graphics (2020 XPS13)	GPT2	GPT2-Medium	GPT2-Large
tinygrad	16 t/s	5.8 t/s	2.1 t/s
huggingface/transformers	34 t/s	15 t/s	7.7 t/s
roryclear/transformer	11 t/s	5.1 t/s	3.1 t/s

*generating 100 tokens from a 13 token prompt, I don't own any Nvidia hardware to measure CUDA speeds properly.

Name		Name	Last commit message	Last commit date
Latest commit History 671 Commits
README.md		README.md
cuda_test.ipynb		cuda_test.ipynb
demo.py		demo.py
kernels.py		kernels.py
metal_kernels_large.py		metal_kernels_large.py
requirements.txt		requirements.txt
test_cuda.ipynb		test_cuda.ipynb
test_gpt.py		test_gpt.py
tokens.txt		tokens.txt
transformer.py		transformer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transformer

Running:

Online Notebook (CUDA)

Locally

CUDA, OpenCL and Metal GPT-2 inference

Performance:

CUDA

Metal

OpenCL

About

Releases

Packages

Languages

roryclear/transformer

Folders and files

Latest commit

History

Repository files navigation

Transformer

Running:

Online Notebook (CUDA)

Locally

CUDA, OpenCL and Metal GPT-2 inference

Performance:

CUDA

Metal

OpenCL

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages