Hankun Wang, Haoran Wang, Yiwei Guo, Zhihan Li, Chenpeng Du, Xie Chen, Kai Yu: Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective. CoRR abs/2412.17048 (2024)