#131: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

CUDA で書かれた PyTorch 用カーネルに森田が玉砕しました。

Om Podcasten

森田と向井がコンピュータサイエンス周辺の論文をなんとなく読んで感心する Podcast です。