
新Deep Live Cam
Deep Live Cam是一款开源的实时人脸交换和一键视频深伪工具。它能够利用单张图像对视频或其他图像进行人脸替换,适用于视频制作、动画创作等多种场景。
Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化...
虽然 Mini-Gemini 在处理复杂的视觉和文本任务时表现出高效性和精度,但研究人员也指出,它在视觉理解和推理能力方面仍有改进空间,未来的工作将探索更高级的方法。