Step-Audio是阶跃开源的一个统治级130B超大语音模型,业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统。它支持多语言对话、情感语气、地区方言、可调节语速以及韵律风格,并包含多个功能强大的子模型,如Step-Audio-Tokenizer、Step-Audio-Chat和Step-Audio-TTS-3B。通过ToolCall机制和角色扮演增强,Step-Audio在复杂任务中的表现尤为出色。