标签:AI项目和框架

GLM-Edge:智谱端侧大语言与多模态模型的创新应用与优势分析
GLM-Edge是一系列优化的大语言对话模型及多模态理解模型,专为端侧部署而设计。该系列包含多款模型:GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。其中,……
MultiFoley:创新音效生成系统助力创作者实现无限灵感
MultiFoley是一款由AdobeResearch和密歇根大学联合开发的音效生成系统,能够通过多模态的文本、音频和视频输入,生成高质量的Foley声音效果。该系统允许用户根据文本提示、参考音频……
MyTimeMachine:智能面部年龄转换技术实现20至40年年龄跨度的个性化体验
MyTimeMachine(MyTM)是一种创新的个性化面部年龄转换技术,能够根据约50张个人照片,模拟20至40年的年龄变化。该技术通过训练一个适配器网络,结合预训练的全局老化模型,生成高……
AnchorCrafter:中科院与腾讯携手打造智能虚拟主播实现高效带货新模式
AnchorCrafter是一款基于扩散模型的智能视频制作系统,专为自动生成高保真度的主播风格产品推广视频而设计。该系统通过整合人-物交互(HOI)与姿态引导的人体视频生成技术,能够高……
Co-op Translator:开源多语言翻译工具助力开发者轻松实现跨语言沟通
Co-opTranslator是微软推出的一款开源翻译工具,旨在通过AzureAI服务实现自动化的多语言翻译,支持项目文档和图像中的文本。用户只需输入一条命令,Co-opTranslator便能分析项目内……
360Zhinao2-7B:360智脑大模型升级版全面提升智能交互与数据处理能力
360Zhinao2-7B是360公司自主研发的一款AI大模型,是360智脑7B参数的升级版本,涵盖了基础模型及多种上下文长度的聊天模型。此模型作为360Zhinao1-7B的重要后续更新,采用了全新的多……
MVGenMaster:多视角融合的智能扩散模型提升数据分析与生成能力
MVGenMaster是一款由复旦大学、阿里巴巴达摩院和湖潘实验室共同开发的多视图扩散模型,专注于利用增强的3D先验技术来处理多样化的新视角合成(NVS)任务。该模型能够从单一图像出发……
HiFiVFS:高保真视频换脸技术引领视觉革命
HiFiVFS(高保真视频换脸)是腾讯与VIVO公司联合推出的一款先进的视频换脸框架。其基于StableVideoDiffusion(稳定视频扩散,简称SVD)框架,利用多帧输入和时间注意力机制来确保生……
Infinity-MM
Infinity-MM是智源研究院推出的一个规模庞大的多模态指令数据集,拥有4300万条样本,总数据量达到10TB。经过严格的质量筛选与去重,Infinity-MM保证了数据的高质量与多样性,这为提……
1131415