一款开源的PDF文档翻译工具,专为翻译科技论文等PDF文件而设计。PDFMathTranslate能够完整保留原文的排版,包括公式和图表,并支持双语对照,保持原有目录结构。PDFMathTranslate官网入口网址
BRIA AI开发的开源图像背景移除模型,RMBG-2.0基于创新的BiRefNet架构,能够在复杂环境和高细节图像中提供高精度的背景去除。RMBG-2.0官网入口网址
一个由计算所、美团、腾讯等机构合作研发,专为电商场景设计,能够自动生成具有主播风格的AI虚拟主播带货视频神器。AnchorCrafter官网入口网址
一款由腾讯研究人员开发的音频驱动的肖像动画合成框架,AniPortrait能够根据音频和静态人脸图片生成逼真的动态视频。AniPortrait官网入口网址
一种先进的虚拟试穿技术,它通过结合视觉编码器和UNet模型来生成高质量的虚拟试穿图像,并且可以通过定制来进一步提高图像的一致性和真实性。IDM-VTON官网入口网址
专门用于对话场景的免费在线文本转语音TTS模型,支持英文和中文两种语言。这个语音专文本TTS模型 应该是目前对中文支持最好的了。ChatTTS官网入口网址
大幅提升扩散模型的图像生成质速度提升6倍,由字节跳动的研究团队开发,只需添加一行代码即可,HiDiffusion官网入口网址
一个提供高质量搜索体验的开源AI驱动搜索引擎,Perplexica通过理解用户问题并利用机器学习算法来提供精准的搜索结果。Perplexica官网入口网址
小红书链接提取/作品采集工具:提取账号发布、收藏、点赞作品链接;提取搜索结果作品链接、用户链接;采集小红书作品信息;提取小红书作品下载地址;下载小红书无水印作品文件!,XHS-Downloader官网入口网址
一款由南开大学HVision团队开发的人工智能工具,主要功能包括生成连贯的图像和视频故事,以及漫画生成创作。StoryDiffusion官网入口网址
一个基于Web强大的开源PDF操作工具。它使您能够对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等。Stirling-PDF官网入口网址
一项突破性的卡通着色进步,植根于扩散模型,通过解决四个子问题:风格化、一致性增强、结构指导和着色,将逼真的视频转变为动漫风格。Diffutoon官网入口网址
一款开源、免费、离线的 Android 实时翻译应用程序。连接到拥有该应用程序的人,连接蓝牙耳机,将手机放入口袋中,然后您就可以像对方说您的语言一样进行对话。RTranslator官网入口网址
一个面部图像精准恢复和个性编辑技术工具,不仅能复原受损图像细节,同时能精准捕捉和重现个人独特的面部特征。同时它还支持换脸。Personalized Restoration官网入口网址
一个基于 LLM 大语言模型的知识库的集成客服系统,提供开箱即用的智能客服解决方案。懒人客服官网入口网址
一款敏捷的信息挖掘开源免费工具,Wiseflow可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。Wiseflow官网入口网址
硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互。DUIX官网入口网址
在多轮交互式图像生成中制作一致的主题,AutoStudio官网入口网址
PhotoMaker:利用多张照片作为身份ID,获取人物特征,然后根据描述生成一个新的、个性化的人物图像。PhotoMaker官网入口网址
一个增强版免费开源的ChatGPT程序,LibreChat 是一个免费开源的聊天机器人平台,集成了多种 AI 模型。LibreChat官网入口网址
AI角色动画工具,通过先进的视频处理和3D渲染技术,MotionShop能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。Motionshop官网入口网址
一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS官网入口网址
字节跳动开发的由LLM驱动文本生成图像多合一系统,专门设计用于为不同的输入提示生成高质量的图像。DiffusionGPT官网入口网址
谷歌研究院开发的基于空间时间的文本到视频扩散模型。采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,确保了生成视频的连贯性和逼真度。Lumiere官网入口网址
基于大规模扩散的高保真通用图像恢复模型,SupIR能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。SupIR官网入口网址
一个视频搜索和流媒体代理工具,能让您在 ChatGPT 中与您的视频库聊天并观看视频流。StreamRAG官网入口网址
一种基于扩散的图像修复模型,主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,适用于在线购物等虚拟试穿场景中的图像修复任务。Diffuse to Choose官网入口网址
一个基于WhisperLive把声音转文字和WhisperSpeech理解这些文字的能力构建。能够与AI聊天机器人进行超低延迟对话。WhisperFusion官网入口网址
一个专门为DuckDB数据库设计的文本到SQL的模型,你可以使用自然语言说描述你的需求,它会自动转换成SQL代码。DuckDB-NSQL官网入口网址
一款革命性的语音面部动画生成工具,借助 Media2Face,现在可以从任何音频、图像或文本输入无缝生成逼真且富有表现力的面部动画。Media2Face官网入口网址