AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:AI项目和框架
NEW谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
产品名称:Gemini2.0产品简介:Gemini2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini2.0Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比1.5Pro快两……
NEWMMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是一项创新的音频合成技术,专注于将视频内容转化为音频,通过多模态联合训练,使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块,确保生成的音频与……
NEW开源的实时多模态 AI 代理框架
产品名称:TENAgent产品简介:TENAgent是集成OpenAIRealtimeAPI和RTC技术的开源实时多模态AI代理框架。TENAgent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低……
NEWFLOAT:音频驱动的流匹配技术实现动态说话人头像生成
FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术,通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……
NEW谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物
产品名称:ProjectMariner产品简介:ProjectMariner是谷歌DeepMind推出的浏览器助手。ProjectMariner基于Gemini2.0技术,用Chrome扩展程序实现浏览器自动化,理解和执行网页任务。P……
NEWUltravox:智能多模态助手实现文本与语音的无缝理解
Ultravox是一款创新的多模态大型语言模型(LLM),能够直接理解文本和人类语音,而无需依赖独立的自动语音识别(ASR)阶段。通过多模态投影器技术,Ultravox将音频数据转化为高维空……
NEWLlama-3.1-Minitron
Llama-3.1-Minitron是一种由英伟达与Meta携手开发的先进AI模型,旨在通过剪枝和知识蒸馏技术将Llama3.18B模型精简为更小巧的4B参数模型。这一优化过程显著降低了模型的体积和复杂性……
NEWDeepSeek V2.5 的最终版微调模型,支持联网搜索
产品名称:DeepSeek-V2.5-1210产品简介:DeepSeek-V2.5-1210是DeepSeek推出的DeepSeekV2系列收官AI模型,DeepSeekV2.5的最终版微调模型。模型基于Post-Training迭代,在数学、编程……
NEW构建视频智能体AI框架,用自然语言执行搜索、总结等复杂视频任务
产品名称:Director产品简介:Director是构建视频智能体的框架,用户能用自然语言命令执行复杂的视频任务,如视频搜索、编辑、合成和生成,并能即时流式传输结果。基于VideoDB的“视……
NEW上海大学联合腾讯等高校推出的3D服装生成技术
产品名称:ClotheDreamer产品简介:ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术,能根据文本描述生成高保真、可穿戴的3D服装资产。……