意昂(中国)官方平台 > 酒店房间 > 会议套房
发布时间:2024-08-17 21:04:50    次浏览
这个产品并不是出自OpenAI或HeyGen这样此前已经大展身手的公司,也没有一个具体的名字。
今日上线后,已经冲上Producthunt今日新品热榜第一,点赞数还在不断上升中。
卡特的形象定位是AI视频研究公司Tavus的一名员工,以幽默的方式回应,同时很乐于助人。
官方建议,授权摄像头和麦克风后,和卡特聊天的时候尽量呆在一个安静的房间里。
卡特在交谈中提到,人们最喜欢跟他讨论的几个话题,除了跟他打听Tavus运用的AI技术,就是分享自己的每日心路历程,以及讲笑话。
其次,虽然官方号称它支持30多种语言,但不管是用中文还是英文发问,问来问去,他都无法开口说中文。
我们问他“Can u speak Chinese”时,卡特会回答:“我更愿意用英文对话呢!”
正式版本中,可供对话的AI形象就不只有卡特了,有男有女,身份设定从销售到生活指导等,应有尽有。
这是一个用音频和文本驱动的3D模型和2D GANs的组合,能生成1-2分钟的逼真短视频。
TTS(文本转语音)——头部和肩部的3D重建——提示词脚本驱动的面部动画——高保真渲染。
为了让和用户对话的AI形象更逼真,Tavus团队在构建Phoenix-2的视频渲染pipeline的时候,结合了GAN和3D高斯泼溅。
这样做的原因,是传统的GAN通常受到图像分辨率的限制,而体积模型总在时间一致性的问题上有所欠缺。
训练GAN时,需要大量的数据集和昂贵的计算资源,且因为其二维性质和时间一致性问题,通常推理时间和视频质量都会受限。
Tavus把3D模型作为“中间体”,实现了超过100 FPS的渲染,并且由于动态物体周围的物理感知约束,实现更高程度的可控性和通用性。
另外,Phoenix-2模型比起系列前作的改进之处,就是替换掉了初代Phoenix模型的NeRF。
转而利用3D高斯泼溅来学习引入如何驱动3D空间中的面部动态变形,并利用该信息根据看不见的音频来渲染视图。
团队成员表示,比起NeRF,3D高斯泼溅在数据、内存、计算复杂度、流程、渲染效率等方面都表现更好。
意昂官网注册
基于3D高斯泼溅的Phoenix-2模型的pipeline,能够以比初代模型快70%的速度进行训练,以60+FPS的速度进行渲染。
Tavus表示,对话过程中,有回合结束检测和可中断性,让用户感觉进行的对话更真实。
此外,由于面部信息非常敏感,团队提供安全检查、安全协议、自动内容审核和反幻觉检查来保护信息安全。
公开资料显示,截至今年3月,该公司已经获得了红杉、Scale VC、YC的A轮投资,融资额约1800万美元。
而该公司的联合创始人兼COO在Producthunt留言表示,对话视频AI的制作花费了很长时间,研究、工程和建造大约花费了数千个小时。