[1]

Petrov, N. and Andersson, S. 2026. Sparse Experts Scale Better in Efficient Mixture Architectures for Trillion Parameter Models. Computer Life. 14, 2 (May 2026), 16–22. DOI:https://doi.org/10.54097/baczzj49.