rmsnorm

Star

Here are 19 public repositories matching this topic...

bzhangGo / rmsnorm

Star

Root Mean Square Layer Normalization

layernorm rmsnorm

Updated Mar 28, 2023
Python

dtunai / Tri-RMSNorm

Star

Efficient kernel for RMS normalization with fused operations, includes both forward and backward passes, compatibility with PyTorch.

machine-learning ai triton rmsnorm

Updated Jun 5, 2024
Python

knotgrass / Griffin

Star

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

h3 linear attention language-model griffin mamba gelu conv1d rmsnorm rg-lru shift-ssm

Updated Dec 23, 2024
Python

Simple and easy to understand PyTorch implementation of Large Language Model (LLM) GPT and LLAMA from scratch with detailed steps. Implemented: Byte-Pair Tokenizer, Rotational Positional Embedding (RoPe), SwishGLU, RMSNorm, Mixture of Experts (MOE). Tested on Taylor Swift song lyrics dataset.

moe mixture-of-experts kv-cache llm rmsnorm swiglu pytorch-llm byte-pair-tokenizer rotational-positional-embedding

Updated Nov 18, 2024
Python

Logos-Flux / optimized-CUDA-GB10

Star

Optimized CUDA kernels for NVIDIA GB10 Blackwell (sm_121, DGX Spark). RMSNorm + GELU. First sm_121 kernel on HuggingFace Kernel Hub.

gpu cuda pytorch nvidia kernels gelu huggingface blackwell rmsnorm gb10 dgx-spark sm121

Updated May 3, 2026
Cuda

AICL-Lab / triton-fused-ops

Star

Fused Triton kernels for Transformer inference: RMSNorm+RoPE, Gated MLP, FP8 GEMM — CPU-testable references, autotuning, and benchmarking

Updated May 25, 2026
Python

Haiderkhan64 / H64LM

Star

249M-param MoE transformer built from scratch in PyTorch. GQA, RoPE, SwiGLU, sparse MoE with 3 aux losses, AMP training loop no Trainer abstractions. Architecture mirrors LLaMA/Mistral/Mixtral decisions, fully inspectable.

nlp research deep-learning pytorch transformer moe language-model from-scratch rope mixture-of-experts gqa llm rmsnorm swiglu

Updated May 22, 2026
Jupyter Notebook

Den-Sec / glublm

Star

A 36M-parameter goldfish language model with a 10-second memory + pixel-art PWA desk pet. Runs in your browser, fully offline. Adopt it at den-sec.github.io/glublm/desk-pet/

Updated May 29, 2026
JavaScript

Saurabh-66 / LLM-pretraining-Open-AI-Parameter-Golf-Challenge

Star

LLM pretraining from scratch on FineWeb dataset (architecture and all components explained), plus optimal use of GPU on SLURM cluster

rope model-evaluation gpu-optimization gqa layernorm rmsnorm llm-training llm-inference llm-evaluation swiglu bpe-tokenizer flashattention muon-optimizer

Updated May 12, 2026
Python

sushantkumar23 / nano-gpt

Star

Simple character level Transformer

transformers pytorch attention attention-mechanism rope self-attention multi-head-attention shakespeare-dataset transformer-architecture llm rmsnorm

Updated May 27, 2024
Jupyter Notebook

rmgogogo / nano-aigc

Star

Generative models nano version for fun. No STOA here, nano first.

Updated Jul 27, 2025
Jupyter Notebook

MadrasLe / MGRrmsnorm

Star

Optimized Fused RMSNorm implementation with CUDA. Features vectorized memory access (float4), warp-level reductions, and efficient backward pass for LLM training

kernel deep-learning optimization high-performance cuda transformer gpu-computing custom-kernel llm rmsnorm

Updated Dec 24, 2025
Python

kyegomez / open_qwen

Sponsor

Star

A non-official implementation of Qwen 3.5, as there doesn’t seem to be a paper or any code available that I can find, so I decided to implement it just for fun.

open-source ai ml transformers pytorch attention alibaba delta-net transformer-models rmsnorm qwen attention-ml

Updated Mar 11, 2026
Python

varad-more / fused-triton-rmsnorm-residual-qkv

Star

Production-grade Triton kernel fusing residual add + RMSNorm + packed QKV projection into a single GPU launch for decoder-only transformer inference (Llama-3, Mistral, Qwen2). +2.4% tok/s, -1.5 GB VRAM on A10G.

cuda pytorch transformer triton llama memory-bandwidth gpu-kernels kernel-fusion rmsnorm llm-inference

Updated Apr 22, 2026
Python

ralolooafanxyaiml / frad

Star

A from-scratch PyTorch LLM implementing Sparse Mixture-of-Experts (MoE) with Top-2 gating. Integrates modern Llama-3 components (RMSNorm, SwiGLU, RoPE, GQA) and a custom-coded Byte-Level BPE tokenizer. Pre-trained on a curated corpus of existential & dark philosophical literature.