意昂体育度假酒店_《Her》有形象了！给AI打视频电话几乎无延迟红杉YC投了

发布时间：2024-08-17 21:04:50 次浏览

　　这个产品并不是出自OpenAI或HeyGen这样此前已经大展身手的公司，也没有一个具体的名字。

　　今日上线后，已经冲上Producthunt今日新品热榜第一，点赞数还在不断上升中。

　　卡特的形象定位是AI视频研究公司Tavus的一名员工，以幽默的方式回应，同时很乐于助人。

　　官方建议，授权摄像头和麦克风后，和卡特聊天的时候尽量呆在一个安静的房间里。

　　卡特在交谈中提到，人们最喜欢跟他讨论的几个话题，除了跟他打听Tavus运用的AI技术，就是分享自己的每日心路历程，以及讲笑话。

　　其次，虽然官方号称它支持30多种语言，但不管是用中文还是英文发问，问来问去，他都无法开口说中文。

　　我们问他“Can u speak Chinese”时，卡特会回答：“我更愿意用英文对话呢！”

　　正式版本中，可供对话的AI形象就不只有卡特了，有男有女，身份设定从销售到生活指导等，应有尽有。

　　这是一个用音频和文本驱动的3D模型和2D GANs的组合，能生成1-2分钟的逼真短视频。

　　TTS（文本转语音）——头部和肩部的3D重建——提示词脚本驱动的面部动画——高保真渲染。

　　为了让和用户对话的AI形象更逼真，Tavus团队在构建Phoenix-2的视频渲染pipeline的时候，结合了GAN和3D高斯泼溅。

　　这样做的原因，是传统的GAN通常受到图像分辨率的限制，而体积模型总在时间一致性的问题上有所欠缺。

　　训练GAN时，需要大量的数据集和昂贵的计算资源，且因为其二维性质和时间一致性问题，通常推理时间和视频质量都会受限。

　　Tavus把3D模型作为“中间体”，实现了超过100 FPS的渲染，并且由于动态物体周围的物理感知约束，实现更高程度的可控性和通用性。

　　另外，Phoenix-2模型比起系列前作的改进之处，就是替换掉了初代Phoenix模型的NeRF。

　　转而利用3D高斯泼溅来学习引入如何驱动3D空间中的面部动态变形，并利用该信息根据看不见的音频来渲染视图。

　　团队成员表示，比起NeRF，3D高斯泼溅在数据、内存、计算复杂度、流程、渲染效率等方面都表现更好。

　　意昂官网注册

　　基于3D高斯泼溅的Phoenix-2模型的pipeline，能够以比初代模型快70%的速度进行训练，以60+FPS的速度进行渲染。

　　Tavus表示，对话过程中，有回合结束检测和可中断性，让用户感觉进行的对话更真实。

　　此外，由于面部信息非常敏感，团队提供安全检查、安全协议、自动内容审核和反幻觉检查来保护信息安全。

　　公开资料显示，截至今年3月，该公司已经获得了红杉、Scale VC、YC的A轮投资，融资额约1800万美元。

　　而该公司的联合创始人兼COO在Producthunt留言表示，对话视频AI的制作花费了很长时间，研究、工程和建造大约花费了数千个小时。