Transformer Circuits - Decomposing Small Language Models

Can we understand what’s going in Large Language Models by dissecting small ones?

Shea Cardozo

Last updated on Jan 8, 2023 1 min read