Petrov, N., & Andersson, S. (2026). Sparse Experts Scale Better in Efficient Mixture Architectures for Trillion Parameter Models. Computer Life, 14(2), 16-22. https://doi.org/10.54097/baczzj49