近期科技界瞩目的焦点无疑是OpenAI推出了革新性的大型模型GPT-4。这款模型的显著特色在于其具备多模态能力,能灵活处理文本、图像和音频等多种数据类型,这标志着人机交流步入了更为亲密自然的新阶段。
GPT-4的特性揭示了一个重要趋势:端到端实时多模态技术将成为大型模型发展的新方向。实时文本、音视频传输功能,将成为此类模型的标准配置。借助GPT-4的强大处理能力和RTC(实时通信)技术的支持,用户可以直接向模型输入语音,体验如同与真人对话般流畅自然的交流过程。
在5月23日,作为声网母公司,Agora, Inc.公布了2024年一季度的财务报告。报告显示,一季度Agora, Inc.实现了3302万美元的收入,其中聚焦中国市场的产品声网贡献了1.23亿人民币的营收,非中国市场的Agora则带来了1580万美元的收入。截至3月31日,Agora, Inc.的活跃客户总数达到5553个,较上年同期增长了3%。具体到声网,其活跃客户数量为3833个,Agora的活跃客户数量为1720个。
Agora, Inc.的创始人兼CEO赵斌表示,尽管面临市场挑战,公司仍致力于提升产品性能。他们推出了全新的视频质量优化整体方案,并将SDK稳定性提升至历史最高水平。赵斌坚信,这些改进不仅为现有客户提供价值,也为未来的多元化应用场景奠定了基础。他指出,生成式人工智能模型与用户的音视频对话日益紧密,预示着实时互动技术将迎来重大应用机遇。
RTC(实时通信)技术正逐步成为实现人与AI实时语音对话的关键手段。为了更好地适应大模型技术的演进,声网最近扩充了其AIGC(人工智能生成内容)一站式解决方案,提供了基于大模型的全链路实时音视频方案。这有助于大模型供应商构建实时音视频互动功能,使用户能够通过麦克风与AI进行语音和视频互动,享受行业内领先的低延迟对话体验。
声网的AIGC一站式音视频解决方案还涵盖了类似GPT-4的音频对话能力,通过提供封装完整的SDK和模块化能力,支持RTC实时音视频、实时消息等多种功能,简化API调用流程,提供预设场景演示,最快3小时内即可验证方案可行性,尤其适合快速验证新场景的开发团队和企业。
除了在AIGC领域的进展,Agora, Inc.在2024年一季度还发布了两项重要解决方案:声网赛事直播方案和RTC+AI教育超级双引擎解决方案。前者旨在帮助直播平台以更低的成本实现更高品质的赛事直播和用户体验,后者则推动了在线教育课堂体验的升级和教学模式的创新。
在出海市场,声网继续深耕1v1社交领域,确保在复杂多变的网络环境下,全球各地用户都能享受到流畅稳定的音视频互动体验,助力客户在出海竞争中脱颖而出。据统计,声网1v1社交客户的全球市场渗透率超过70%,在中东地区的1v1社交App收入排行榜中,采用声网SDK的App占据前14位,位居首位。
随着大模型技术的不断进步、出海需求的增长以及对实时技术应用场景的扩展,声网有望在实时技术领域创造更多创新场景和解决方案。