活动背景

GPT-4o Realtime API 发布，语音 AI 正在进入一场新的爆发。AI 的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。

实时音频交互：允许应用程序实时接收并响应语音和文本输入。
自然语音生成：减少 AI 语音的机械感，使对话更加人性化。
多语言能力：促进多语言之间的无缝对话，特别适合全球企业的需求。
更快的响应时间：显著降低延迟，提高语音交互的速度。

现在让我们快速动手来实现一种想法。

在这场工作坊，你会接触到 TEN Framework，其兼容了 Realtime API 和 RTC 的实时多模态 AI Agent 框架！以及使用 TEN 开发的多模态 AI Agent — TEN Agent，它能够立即响应你的语音指令，基于视频进行图像理解，并且还能进行网页和天气检索，让你感受到更自然的人机互动体验。

同时，作为全球领先的企业级公有云平台，Azure 依托 Azure OpenAI（海外版）提供了先进的模型服务，并且全面推动了企业数字化转型的进程，开启了全新的业务模式与应用场景。无论是在客户服务、教育培训，还是娱乐等领域，实时语音和视觉交互能力都将为各行各业带来前所未有的创新机会。

现在报名参与工作坊，使用 TEN framework 与 Azure，尝试自定义一个实时多模态 Agent，即刻探索自己的语音、视频交互的新场景。

现场有来自 TEN Framework 与微软的答疑指导，还为大家准备了精美茶歇与开发者礼品。

即刻报名

请点击链接，跳转第三方平台报名活动！

活动时间：12 月 5 日（周四）13:30-17:30

活动地点：北京微软大厦（具体场地审核通过后入群通知）

活动流程：

完成挑战将获得主办方提供的开发者礼品～

建议报名参与者提前做好如下软硬件配置：

知识：会用命令行、git 和 Docker；
提前下载：Docker and Docker compose；
自备电脑一台。

报名并审核通过后，将会邀请大家进入工作坊专属答疑群，搞定前序工作，现场专注探索你的实时 AI 场景！

创作场景

工作坊报名｜使用 TEN Framework 与 Azure，探索你的多模态交互新场景

活动背景

即刻报名