阿里云百炼上新,几分钟就能搭建一个能听、能看、会说的ai助手 -奇异果app官网下载

阿里云百炼上新,几分钟就能搭建一个能听、能看、会说的ai助手 -奇异果app官网下载

近日,阿里云百炼上线了全新音视频实时互动功能,用户可在百炼上自由选择文本、语音和视觉理解等200多款模型,无需代码,数分钟即可搭建一个能听、能看、会说的专属ai助手。阿里云百炼还支持以sdk的形式集成到web、ios和安卓应用,可应用于ai虚拟助手、虚拟陪伴和ai老师等场景。

《阿里云百炼上新,几分钟就能搭建一个能听、能看、会说的ai助手》《阿里云百炼上新,几分钟就能搭建一个能听、能看、会说的ai助手》
用户在百炼上几分钟即可搭建一个能听、能看、会说的专属ai助手

过去一年,大模型正在从纯文本模态向语音和视觉等多模态演进,极大地拓宽了大模型应用的想象空间。然而现有单一模型仍旧无法处理复杂的任务,为了进一步加速单一大模型构建成像人一样自然交互的复杂ai应用,阿里云百炼提供了200多款语言模型qwen、视觉语言模型qwen2-vl、语音合成模型cosyvoice等全模态全尺寸大模型,同时联合阿里云ai实时互动方案,在国内率先为用户提供了便捷的工作流应用和智能体编排应用,例如支持构建rag知识库、prompt调优、sdk集成等。

据介绍,在视觉理解模型方面,阿里云qwen2-vl具备强大的视觉智能体能力,例如采用多模态旋转位置嵌入(m-rope)方法,能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,模型具备更好地理解和建模复杂的多模态数据,该模型一经推出就成为开源社区最受欢迎的多模态大模型;在音频方面,阿里云语音合成模型cosyvoice,通过对生成语音的情感、韵律进行细粒度的控制,情感表现力上得到明显提升,阿里云ai实时互动方案还可提供化智能降噪、智能打断、智能断句等超拟人对话能力。

以搭建一个视觉能力的ai应用为例,用户进入百炼应用控制台后,仅需上传图片知识库、编写提示词、设置音频、调优这四步,数分钟内就能创建一个能完成专属视频交互的ai应用,基于qwen-vl强大的视觉推理能力,它不仅能识别物体的种类,还能准确描述物体的风格、特点、位置以及物体上的文字等关键信息。此外搭建好的应用还支持以音视频sdk集成到用户的web、ios或者安卓应用中,帮助企业快速实现业务创新。

据介绍,阿里云百炼上的通义api每百万tokens价格已降至0.3元,一汽、金山、哈啰集团、国家天文台等超30万企业和机构在使用阿里云百炼。

发表评论

邮箱地址不会被公开。 必填项已用*标注

网站地图