当初熬夜追GPT-4o发布会的震撼还历历在目,但眼看4个月过去了,GPT-4o的视频通话功能却迟迟没有实装,大伙都快被钓成翘嘴了。
前不久,智谱清言App推出了国内首个面向C端开放的视频通话功能,这波不是画饼,是实打实能用上的。
在发布会现场,智谱官方演示了多个AI视频通话功能的使用场景,包括玩你画我猜、识别物体和环境、辅导作业等。
“AI新榜”在拿到内测资格后,立马上手体验了一波。国产“GPT-4o”到底能不能打?话不多说,请看vcr。
无论是前置摄像头还是后置摄像头拍到的画面,清言都能看到,同时可以进行语音交互,整体跟真人打视频通话差不多。
我对着书桌的一个小角落问它都看到了什么,它基本都说全了,就连日历上写的“Better Days Are Coming”、金属材质的小挂件这种细节也没放过。
可能是角度的问题,后来我把拍摄视角移到桌子的侧面,问它有什么遗漏,它才看出来还有白色台灯和白色抽屉柜。
挂断后我又开启了新一轮视频通话,没想到它还记得上一次视频通话的内容,一上来就问我“上次那个小兔子玩偶和挂历还摆在那里吗?”。
除了能较为准确地识别具体的物品,它对环境的整体感知能力也不错。比如上班的时候,我把镜头往旁边的同事工位一转,它立马就看出来她在做PPT。
这里我对着Switch上的游戏画面问它“你能看出来这是什么游戏吗”,它一下子就说出了正确答案:这是《动物森友会》吧,看,屏幕上好热闹,大家都在活动呢,我猜你一定也喜欢收集物品,打造自己的小岛吧。
当我再次点开新的语音通话,它一句“最近有继续玩《动物森友会》吗?发现什么新乐趣没?”竟然还给我整得有点感动。
从整体风格到画面具体元素(绿色草地上姿态各异的小狗)和配色,说得都比较准确,最后还不忘加上一句感性评价“看着就让人心情好”。
虽然画上小狗的品种没有说全,但咱也不能过分苛责,毕竟画得比较简单抽象,有几只小狗是什么品种我自己辨认起来都费劲。
比如,你可以让它充当自己的穿搭小助手,不仅能收获具体的搭配评价和建议,大概率还能收获一顿夸夸,情绪价值拉满。
让它当家教也不在话下。而且,它不会直接告诉你答案,而是一步一步引导着你解题,让你有一个思考的过程。
比如我让它猜我的电脑壁纸出自哪个动画片里的场景,虽然他一下看出了是《玩具总动员》,但却在描述画面时,硬生生把红桌子说成蓝桌子,蓝椅子说成红椅子。
此外,大家从视频中也可以看到,回答的响应时间依然存在一定延迟。面对大多数问题,它都会先响应一些类似“哇”“哎呀”等语气词,以及“嗯”“当然”“好的”等实际上不需要进一步理解和推理的话,以使用户体感上的响应时间较短。
总的来说,还是瑕不掩瑜。OpenAI画的大饼,智谱抢先兑现了,虽然效果不是很惊艳,但也足够让人眼前一亮。
自从GPT-4o和谷歌的Astra发布以来,拟人化、情感化的实时语音交互几乎成了所有AI对话产品的技术风向标。
特别是在社交场景中,情感化、低延迟、具备情绪感知能力的语音模型,无疑会让人机交互更自然真实沉浸,给用户带来更有温度的情绪反馈和陪伴感。
今年6月,Character.ai(下文简称C.ai)上线o的语音通话功能。据C.ai官方透露,在该功能内测期间,有300多万用户拨打了2000多万个电话。他们可以通过语音通话进行更真实、沉浸的角色扮演,或者练习语言、模拟面试等等。
8月19日,科大讯飞发布星火极速超拟人交互技术,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。预计将于今年8月底在讯飞星火App上线,面向所有用户开放。
最近,社交软件Soul也发布了自研的端到端全双工语音通话大模型,具备低交互延迟、快速自动打断、真实声音表达和情绪感知理解等能力,可以提供更接近生活日常的交互对话和“类真人”的情感陪伴体验。
正如MiniMax的创始人兼CEO闫俊杰所说:“大模型在多模态的每一次进步,都会带来用户体验的提升、获得更高的用户渗透率。比如,当GPT-4o拥有更丝滑的语音交互(延时缩短、增加情感等)后,它就会走向更多人。”...
目前,AI Super App公认有两个主要方向:一是生产力方向,以ChatGPT为代表。二是虚拟社交方向,以C.ai、Replika、星野等为代表。
某种程度上,C.ai已经实现了TPF(技术与产品匹配),但却远没有实现PMF(产品市场匹配),其付费订阅用户占总用户数的不到千分之一。虽然C.ai团队一直致力于升级底层模型能力,降低推理成本,但依然很难打平ROI。
不过,这其实是很多AI应用面临的共同挑战。在新技术爆发早期,商业模式往往落后于技术和产品的发展,从技术创新到市场普及,再到形成一个稳定可持续的商业模式需要时间。