技术

OpenAI新语音模型把推理放进音频回路本身,过去暴露AI身份的那段沉默不见了

会出卖你的,是那段停顿。在此之前,语音AI的工作流是这样的——把语音转成文字、把文字交给一个语言模型、拿回答案、再把答案合成回音频。每一步都耗时间。用户听到沉默,知道另一头正在处理什么,能感觉到那道接缝。OpenAI的新模型GPT-Realtime-2把这一整条流水线压成一个单一模型,让推理在音频回路内部完成。接缝不见了。
Susan Hill

OpenAI本周在自家Realtime API里同时上线三款新音频模型——GPT-Realtime-2、GPT-Realtime-Translate与GPT-Realtime-Whisper。挑大梁的是第一款。OpenAI将其定位为首个具备”GPT-5级推理”能力的语音模型,单一模型同时处理语音输入与语音输出,思考被织进对话之中,而不是被夹塞在转录与合成的衔接处。支撑这一描述的数字是具体的。在Big Bench Audio上,新模型相较前一代参考模型的得分,从81.4%跃升至96.6%。Audio MultiChallenge从34.7%升至48.5%。上下文窗口由3.2万token扩展到12.8万token——足以在一次通话过程中完整装下一名客户的全部历史。

结构层面的变化在跑分里反而看得不那么清楚。过去三年,但凡要把一个语音Agent推上生产环境的人,都得自己手缝整个技术栈——转录用Whisper或Deepgram,推理交给某个LLM,发声用ElevenLabs或Cartesia,再加上一层用来掩盖延迟的提示词工程。每一次部件之间的跨越,都要付出毫秒和清晰度。用户听见的,是脚本插入的”我帮您查一下”、模型思考时的一段空白、最后到来的答案,三幕剧式的拼接。GPT-Realtime-2把那一套支架直接做成原生行为。前导词让Agent得以在调用工具的同时说”我帮您查一下”,于是用户不必继续坐在沉默里。并行工具调用允许模型同时向后端发出多次请求,并把当前进行中的那一项叙述出来。错误恢复行为则把失败拉到台前,而不是让对话凭空冻结。

真正向开发者打开的那块控制面板,才是最有意思的部分。”推理强度”现在变得可配置——minimal、low、medium、high与xhigh——默认是low,目的是在简单问询场景下把延迟压住。回答”你们几点关门?”用不上GPT-5级推理;陪一名客户处理退款争议则用得上。同一个模型可以被指示”在本轮里思考多深”,这是相对于前代模型的实质变化——前代模型推理深度是固定的,开发者必须在部署时就在”快”和”聪明”之间二选一。

怀疑应该留一席之地。”GPT-5级推理”是市场口号,不是可被独立验证的承诺——在没有针对真实对话的独立基准之前,这种比较只能停留在内部。语音Agent本身有一种基准很难捕捉到的失败模式——它用平和、自然的语调把错误内容笃定地说出口的那一刻。更好的推理对此有帮助,但消除不了。价格也是分量。GPT-Realtime-2收费为每百万音频输入token 32美元,每百万输出token 64美元。GPT-Realtime-Translate按每分钟0.034美元计费,GPT-Realtime-Whisper按每分钟0.017美元。对大流量客服业务而言够便宜;但便宜程度不足以让人不动脑筋地把它塞进任何一款消费级对话产品里——你必须替每一段会话长度做明确的预算决策。

具体落地的语境讲述了余下的故事。Zillow在同一天上线语音房源搜索。德国电信在14个欧洲市场铺开了带实时翻译的语音客服。两者正是OpenAI定价瞄准的使用场景——长、带交易、上下文密集的对话,用户能从一个真正在”推理”而非仅仅在”检索”的Agent那里获益。Priceline正在搭建一套系统,让旅行者完全用语音来管理酒店预订与跟踪航班延误。OpenAI最先点名的客户的共同点很清晰——他们恰恰是过去语音系统最不好用的一拨:呼叫中心、客服热线、交易型旅行业务。也就是用户今天对着电话喊”转人工”的那些地方。

新模型即刻在Realtime API开放。ChatGPT本体的语音升级仍在路上——”再等等,正在烧菜”,OpenAI如是说。Sam Altman把这次发布安放在一个行为面的转变上:当用户需要”倾倒”大量上下文时,他们越来越倾向于在AI面前用语音表达。如果这个模式持续,语音AI与文字AI的差距开始收窄——而曾经在电话线上暴露AI身份的那道接缝,会变得越来越难听见。

讨论

有 0 条评论。