活动背景
GPT-4o Realtime API 发布,语音 AI 正在进入一场新的爆发。AI 的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。
实时音频交互:允许应用程序实时接收并响应语音和文本输入。
自然语音生成:减少 AI 语音的机械感,使对话更加人性化。
多语言能力:促进多语言之间的无缝对话,特别适合全球企业的需求。
更快的响应时间:显著降低延迟,提高语音交互的速度。
现在让我们快速动手来实现一种想法。
在这场工作坊,你会接触到 TEN Framework,其兼容了 Realtime API 和 RTC 的实时多模态 AI Agent 框架!以及使用 TEN 开发的多模态 AI Agent — TEN Agent,它能够立即响应你的语音指令,基于视频进行图像理解,并且还能进行网页和天气检索,让你感受到更自然的人机互动体验。
同时,作为全球领先的企业级公有云平台,Azure 依托 Azure OpenAI(海外版)提供了先进的模型服务,并且全面推动了企业数字化转型的进程,开启了全新的业务模式与应用场景。无论是在客户服务、教育培训,还是娱乐等领域,实时语音和视觉交互能力都将为各行各业带来前所未有的创新机会。
现在报名参与工作坊,使用 TEN framework 与 Azure,尝试自定义一个实时多模态 Agent,即刻探索自己的语音、视频交互的新场景。
现场有来自 TEN Framework 与微软的答疑指导,还为大家准备了精美茶歇与开发者礼品。
即刻报名
请点击链接,跳转第三方平台报名活动!
活动时间:12 月 5 日(周四)13:30-17:30
活动地点:北京微软大厦(具体场地审核通过后入群通知)
活动流程:
完成挑战将获得主办方提供的开发者礼品~
建议报名参与者提前做好如下软硬件配置:
知识:会用命令行、git 和 Docker;
提前下载:Docker and Docker compose;
自备电脑一台。
报名并审核通过后,将会邀请大家进入工作坊专属答疑群,搞定前序工作,现场专注探索你的实时 AI 场景!
评论