AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:模型压缩
吴恩达力挺DeepSeek:开源降本30倍,AI格局生变
原标题:吴恩达力挺DeepSeek:开源降本30倍,AI格局生变文章来源:AI范儿内容字数:4063字DeepSeek引发的AI领域震荡:吴恩达解读及行业影响近日,中国AI企业DeepSeek发布的DeepSeek……
4000字!深度解析 DeepSeek 的蒸馏技术
深入剖析DeepSeek蒸馏技术的核心原理、创新策略以及未来发展方向原标题:4000字!深度解析DeepSeek的蒸馏技术文章来源:智猩猩GenAI内容字数:9392字DeepSeek模型蒸馏技术详解本文……
仅8个月就把GPT-4o带到了端侧,面壁智能拿到了什么秘籍?|甲子光年
端侧GPT-4o水平模型,成色如何?原标题:仅8个月就把GPT-4o带到了端侧,面壁智能拿到了什么秘籍?|甲子光年文章来源:甲子光年内容字数:9068字面壁智能MiniCPM-o2.6:端侧GPT-4o……
「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验
原标题:「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验文章来源:新智元内容字数:14584字知识蒸馏在持续学习中的应用综述本文总结了哈尔……
陈丹琦团队降本又来了:数据砍掉三分之一,性能却完全不减
首次用元数据加速预训练原标题:陈丹琦团队降本又来了:数据砍掉三分之一,性能却完全不减文章来源:量子位内容字数:3463字陈丹琦团队新研究:元数据加速大模型预训练,数据量减少……
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
翼支付全新「增强半自回归投机解码框架」。原标题:AAAI2025|大模型推理加速新范式:加速比高达3.51倍、成本降至1/3文章来源:机器之心内容字数:6782字中国电信翼支付AAAI2025论文……
少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效
引入URL信息的预训练方法。原标题:少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效文章来源:机器之心内容字数:5819字普林斯顿大学陈丹琦团队新作:MeCo方法加速预……
开源推理模型阿里Marco-o1技术细节全面解读
OpenAIO1模型引发业界对大规模推理模型(largereasoningmodels,LRM)研究的热潮。前文评测结果显示开源的Marco-o1效果不错,甚至超越部分闭源产品。今天这篇小作文将全面介绍Marco-o……
谈谈DeepSeek-v3提到的基础设施演进
DeepSeek-v3将算法与基础设施融合,推动硬件架构创新。原标题:谈谈DeepSeek-v3提到的基础设施演进文章来源:智猩猩GenAI内容字数:5247字第四届全球自动驾驶峰会及DeepSeek-v3技术……
低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
本文介绍了一套针对于低比特量化的scalinglaws。原标题:低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scalinglaws文章来源:机器之心内容字数:5625字腾讯AILab挑战低比特量……
12