当前位置:首页 > 今日A股公司股市行情 > 正文内容

多模态大模型是实现AGI的必经之路 “能说会道”的AI才是真AI?

2个月前 (03-08)今日A股公司股市行情12

  ChatGPT、DeepSeek引发的AI浪潮席卷全球,各种AI创新不断涌现。

  3月6日,《中国经营报》记者从实时互动(RTE)云行业开创者声网方面获悉,其当日正式发布了全球首个对话式AI引擎,该对话式AI引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。

  记者注意到,早在2024年5月,OpenAI发布GPT-4o时就已开始深度探索端到端的实时多模态大模型能力。2024年年底,微软的AI将拥有实时的语音界面,允许完全动态的交互。而让这些头部AI产品实现“能说会道”的正是声网的兄弟公司Agora。

  在生成式AI的浪潮下,行业普遍认为多模态大模型是实现AGI的必经之路,毕竟一问一答文本输入的机械方式,远不如文本、图片、语音互动来得真实、自然和智能。多位业内人士接受记者采访时表示,随着技术逐渐成熟,AI正步入落地应用阶段。相比近期火热出圈的Manus这些下游应用,AI基础设施(AI Infrastructure)建设必不可少,其实更关键,而“实时互动”则是一个“能听会看”的AI必不可少的能力。

  让大模型“能说会道”

  现实中人与人的沟通就是以语音为主,视觉其次,视觉的重要性在于信息的丰富度,但是信息浓度和沟通效率还得靠语音。多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。

  知名投资机构a16z最新关于Voice AI的报告显示,随着大模型的不断进步,语音将成为一种关键的切入点。声网一直致力于将RTE与生成式AI结合,在音视频领域积累了深厚的技术优势与场景实践,并推出了对话式AI引擎。

  “DeepSeek出来之后,我们做AI的人全部都在加班。对话式引擎牵涉到的部门较多,包括算法、体验、工程化、测试、产品等,所以今年过年期间,我们专门找了一间小黑屋,所有人在里面加班。”声网AI RTE产品线负责人姚光华告诉记者,这个产品目前并不是放到任何场景下都是万能的,但核心体验已经是达到了良好的水准,里面很多功能特性都是独家的。

  据悉,声网对话式AI引擎支持包含DeepSeek、ChatGPT等在内的全球几乎所有大模型厂商,也支持全球主流语音合成供应商任意切换;通过全链路深度优化,并在中、美、欧、东南亚主要城市实测,语音对话延迟中位数低至650ms,实现让AI秒回你的提问。

  记者现场实测,用孙悟空为何在西天取经路上,相比大闹天宫时能力弱化的相关问题,进行了连续追问,并几次打断,该引擎均能快速反应和及时给出有逻辑和说服力的答案。

  而针对现实生活中各种环境人声、噪声干扰的情况,该引擎“选择性注意力锁定”功能可屏蔽95%的环境人声、噪声干扰,精准识别对话人声。同时,声网对话式AI引擎提供了极简的开发部署,只需2行代码,15分钟就能让AI开口说话,相应降低了开发门槛。

  而此次对话式AI引擎最大的卖点可能还是低成本。据介绍,AI语音对话只需0.098元/分钟,单次还赠送1000分钟。自研的“智能打断”功能作为增值服务也只需0.042元/分钟,以更低的成本助力开发者探索AI应用场景。

  “经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话15次,那么月成本不到5毛钱,年成本也只需5元。”姚光华说。

  声网产品线负责人和利鹏则表示,低成本和持续补贴就是让更多的人群不会因为价格而有些场景不敢用,希望更多的场景带来更大的用量,更大的用量带来更大的市场。但首先还是要保证用户体验越来越好,让用户觉得值。

  落地应用是关键

  随着多模态大模型能力的进化,AIGC应用场景将迎来爆发。

  通过声网对话式AI引擎,开发者可以快速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景。例如智能助手场景可以通过自然语言交互,帮助人们进行日程管理、信息查询和任务执行,提升生活便利性,并提高工作效率。

  据和利鹏透露,现在的产品开发过程中都是动态的,潜在的用户不断给他们反馈,过几天就可能会有新的场景,需要及时响应,并不断适应新的场景。“我们把基础能力准备好,让大家在里面去做创新的场景。”

  智能硬件场景是当下十分火热的AI场景,通过嵌入对话式AI引擎,可实现语音控制、智能看护、智能陪伴和个性化服务,将智能设备升级为智能硬件体。适用于AI玩具、AI教育硬件、AI陪伴设备、家居语音助手、穿戴设备个人助手等多种应用场景。

  针对层出不穷的现实应用场景,和利鹏表示,不同的场景有不同的特点和需求,我们还是要找到最合适的落地场景,目前看主要就是延时、交互、陪伴等。“我们内部有十几种场景,最大的就是陪伴类,还有社交娱乐,基于IoT设备的小孩陪伴、教育场景的数字人、外呼和AI面试也是比较多的。”

  来自量子位智库推出的AI智能助手用户数据报告显示,截至2024年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

  2025年,全球实时互动云服务市场正迎来爆发前夜。IDC预测,到2025年,该赛道规模将突破100亿美元,年复合增长率达12%。

  和利鹏告诉记者,AI是一个长期的、大的机会,它不是一波热潮,而是一场变革。AI投入是公司的战略,在公司内部是一号工程。公司产品一定要做好,不然OpenAI不会选择我们,要真正做到产品质量、体验和服务的领先,所以他们在这方面布局和投入是不设限的。

  “看到DeepSeek给中国科技界带来的正向影响,我们也想参与到这种浪潮中,至少为这场浪潮出一份力量,中国企业不管怎么样都是不输别人的。”姚光华表示。

  

(文章来源:中国经营报)

   责任编辑:73 原标题:多模态大模型是实现AGI的必经之路 “能说会道”的AI才是真AI?

相关文章

房企参与公募REITs成绩单来了:7只盈利、4只营收破亿

房企参与公募REITs成绩单来了:7只盈利、4只营收破亿

  去年以来,在政策利好推动下,中国公募REITs(不动产投资信托基金)迈入常态化发展新阶段。那么,2024年,房企公募REITs的成绩单如何?   近期,房企参与的已上...

明日主题前瞻丨英伟达首个“量子日”即将来袭;2025年汽车行业开局良好

明日主题前瞻丨英伟达首个“量子日”即将来袭;2025年汽车行业开局良好

  ①英伟达首个“量子日”即将来袭,产业空间可期   2025年年初,英伟达公司宣布把今年3月20日设为首个“量子日”,以期加强与伙伴合作,推进量子计算技术发展。...

华泰证券:房地产销售迎季节性调整 关注实操政策落地情况

华泰证券:房地产销售迎季节性调整 关注实操政策落地情况

  华泰证券研报称,4月,百强房企(公司可比口径)单月销售金额环比下降14.8%,同比下降14.6%,降幅较3月走阔2.7个百分点;1—4月累计销售金额同比下降10.1%,增速较1—3月走...

钛合金领域“小巨人”,光伏组件知名供应商,两只新股今日申购 打新早知道

钛合金领域“小巨人”,光伏组件知名供应商,两只新股今日申购 打新早知道

     4月28日,有两只新股申购,为北交所的天工股份(920068.BJ)与深证主板泽润新能(301636.SZ)。...

华泰证券:政策组合拳力度加码 看好银行板块估值修复

华泰证券:政策组合拳力度加码 看好银行板块估值修复

  华泰证券认为,3月30日四家大行公告合计定增募资5200亿元(建行1050亿、中行1650亿、邮储1300亿、交行1200亿),用于补充一级核心资本。财政部为主要认购对象,认购金额达5...

南向资金今日净买入77.13亿港元

南向资金今日净买入77.13亿港元

  2月14日南向资金全天成交额1557.15亿港元,成交净买入77.13亿港元。   证券时报·数据宝统计显示,2月14日恒生指数上涨3.69%,南向资金合计买入成交8...