微软在Azure AI Foundry上正式发布了 GPT-realtime 模型，更逼真的语音交互和多模态输入能力

1245 阅读 0 评论 0 点赞

微软确实在Azure AI Foundry上正式发布了 GPT-realtime 模型，这款模型由 OpenAI 开发，主打更逼真的语音交互和多模态输入能力，旨在提供更自然的人机对话体验。

下面是一个核心信息表格，帮你快速了解 GPT-realtime：

特性维度	详细说明
发布单位	微软（基于 OpenAI 技术）
发布平台	Azure AI Foundry
核心功能	语音到语音（S2S）转换、多模态输入（支持图像）、自然语音生成
语音质量	更自然、富有表现力的语音，支持句中实时改变语调和语言
新增音色	提供两种新声音：Marin 和 Cedar
指令遵循	显著提升，开发者可针对特定任务（如技术支持）进行定制
函数调用	增强的异步函数调用机制，支持后台处理耗时操作而不中断对话
多模态能力	支持图像输入，可基于图片内容进行对话（例如分析截图进行故障排除）
延迟优化	端到端延迟低至200ms，采用分层计算策略（本地+云端协同）
定价策略	比之前的 gpt-4o-realtime 预览版便宜20%，按每百万token收费
API访问	通过 OpenAI Realtime API 访问，支持保存和重复使用提示
行业应用	客户服务、教育辅导、医疗辅助问诊、无障碍工具等

技术亮点

GPT-realtime 的出色能力，源于其技术上的突破：

多模态感知引擎：模型能同步处理语音、图像和文本信息。例如，在客服场景中，用户发送一张错误代码的截图，GPT-realtime 能同时“看”图并“听”用户描述，综合分析后提供精准解答。
动态情感建模：其生成式情感建模包含256个维度，能捕捉语调、停顿、呼吸音等细微特征，让语音输出富有情感且能根据对话上下文实时调整情绪表达。
异步函数调用机制：这是一个重要的体验优化。在进行需要调用外部API或数据库查询的复杂操作时，模型可以在后台执行这些任务的同时，保持与前端的自然对话，无需用户等待。

主要应用场景

GPT-realtime 的这些特性，使其在多个领域有巨大潜力：

定价与访问

GPT-realtime 通过 Azure AI Foundry 平台向企业和开发者提供。其定价比之前的预览模型降低了20%，具体成本基于 token 使用量计算。开发者可通过 Real-time API 进行集成，并利用新引入的提示缓存等功能来优化成本和效率。

总结一下

微软和 OpenAI 联合发布的 GPT-realtime 模型，通过高度自然的语音合成、强大的多模态理解（尤其是图像与语音的结合）以及低延迟的实时交互，推动了语音AI技术的发展。它降低了开发门槛和应用成本，有望为多个行业带来创新的人机交互体验。