AI工具

AI工具

谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
产品名称:Gemini2.0产品简介:Gemini2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini2.0Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比1.5Pro快两……
AI英语学习应用,与AI实时互动模拟真实口语对话场景
产品名称:SpeakAPP产品简介:SpeakAPP是基于AI技术的英语学习应用,主打口语练习功能。SpeakAPP模拟真实对话场景,让用户与AI进行互动,实时获得发音、语法和词汇的反馈。Speak结……
LiblibAI 推出的一站式 AI 图像生成平台
产品名称:星流AI产品简介:星流AI是LiblibAI平台推出的一站式AI生图平台,基于自研的Star-3通用图像生成模型,结合全球最大的LoRA增强模型库和先进的AI图像控制技术。为设计师、摄……
MMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是一项创新的音频合成技术,专注于将视频内容转化为音频,通过多模态联合训练,使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块,确保生成的音频与……
AI绘画工具,支持多种场景多种绘画风格和技巧
产品名称:AISEOArt产品简介:AISEOArt是AI驱动的艺术生成平台,基于先进的AI技术,支持用户用文本提示创作出独特的视觉艺术作品。平台提供广告产品制作、图像变化、AI头像和滤镜选……
开源的实时多模态 AI 代理框架
产品名称:TENAgent产品简介:TENAgent是集成OpenAIRealtimeAPI和RTC技术的开源实时多模态AI代理框架。TENAgent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低……
FLOAT:音频驱动的流匹配技术实现动态说话人头像生成
FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术,通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……
Midjourney 推出的多人协作 AI 虚拟世界构建工具
产品名称:Patchwork产品简介:Patchwork是Midjourney推出的创新性多人协作世界构建工具,支持用户在一个无限的画布上共同创作和构建虚拟世界。结合了AI图像生成技术和实时协作功能……
谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物
产品名称:ProjectMariner产品简介:ProjectMariner是谷歌DeepMind推出的浏览器助手。ProjectMariner基于Gemini2.0技术,用Chrome扩展程序实现浏览器自动化,理解和执行网页任务。P……
Ultravox:智能多模态助手实现文本与语音的无缝理解
Ultravox是一款创新的多模态大型语言模型(LLM),能够直接理解文本和人类语音,而无需依赖独立的自动语音识别(ASR)阶段。通过多模态投影器技术,Ultravox将音频数据转化为高维空……
1113114115116117144