AI项目和框架 | 第 5 页

产品名称：Gemini2.0产品简介：Gemini2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini2.0Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比1.5Pro快两……

2天前

MMAudio是一项创新的音频合成技术，专注于将视频内容转化为音频，通过多模态联合训练，使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块，确保生成的音频与……

2天前

产品名称：TENAgent产品简介：TENAgent是集成OpenAIRealtimeAPI和RTC技术的开源实时多模态AI代理框架。TENAgent能实现语音、文本、图像的多模态交互，支持高性能的实时通信，具备低……

2天前

FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术，通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……

2天前

产品名称：ProjectMariner产品简介：ProjectMariner是谷歌DeepMind推出的浏览器助手。ProjectMariner基于Gemini2.0技术，用Chrome扩展程序实现浏览器自动化，理解和执行网页任务。P……

2天前

Ultravox是一款创新的多模态大型语言模型（LLM），能够直接理解文本和人类语音，而无需依赖独立的自动语音识别（ASR）阶段。通过多模态投影器技术，Ultravox将音频数据转化为高维空……

2天前

Llama-3.1-Minitron是一种由英伟达与Meta携手开发的先进AI模型，旨在通过剪枝和知识蒸馏技术将Llama3.18B模型精简为更小巧的4B参数模型。这一优化过程显著降低了模型的体积和复杂性……

2天前

产品名称：DeepSeek-V2.5-1210产品简介：DeepSeek-V2.5-1210是DeepSeek推出的DeepSeekV2系列收官AI模型，DeepSeekV2.5的最终版微调模型。模型基于Post-Training迭代，在数学、编程……

4天前

产品名称：Director产品简介：Director是构建视频智能体的框架，用户能用自然语言命令执行复杂的视频任务，如视频搜索、编辑、合成和生成，并能即时流式传输结果。基于VideoDB的“视……

4天前

产品名称：ClotheDreamer产品简介：ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术，能根据文本描述生成高保真、可穿戴的3D服装资产。……

4天前

1…3 456 7…15

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐