LLM在所有子领域的预测也都超越了人类专家
LLM在神经科学预测中的应用研究
最近,来自多所知名大学的研究团队发布了一项关于大型语言模型(LLM)在神经科学领域预测能力的研究,结果表明LLM的预测准确率显著高于人类专家。这项研究在《自然人类行为》期刊上发表,引起了广泛关注。
研究成果概述
1. **准确率比较**:经过BrainBench基准测试,LLM的平均预测准确率为81.4%,而人类专家的平均准确率仅为63.4%。
2. **子领域表现**:在神经科学的五个主要子领域(行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复)中,LLM的表现均优于人类专家,尤其是在行为认知和系统/回路方面。
3. **模型对比**:较小的模型(如Llama2-7B和Mistral-7B)与较大的模型表现相当,而经过优化的模型表现不如基础模型。
研究方法与数据收集
4. **数据来源**:研究团队从PubMed获取了2002年至2022年间的332807篇神经科学相关摘要,并提取了123085篇全文,总计13亿个tokens供模型训练使用。
5. **测试用例构建**:BrainBench的测试用例通过修改论文摘要生成,参与者需从两个版本中选择一个包含实际研究结果的摘要。
信心评估与模型记忆
6. **信心校准**:LLMs和人类专家的预测信心均得到良好校准,高信心的预测更有可能正确。
7. **记忆评估**:研究表明LLM并未单纯记忆训练数据,而是学习到了广泛的科学模式,这通过zlib压缩率和困惑度比率的分析得以验证。
前景与挑战
8. **未来应用**:这一研究为神经科学的初步探索提供了新的方向,LLM有望用于筛选科研想法,提升研究效率。
9. **学术争议**:尽管LLM在预测方面表现出色,但部分研究者对其实际应用表示质疑,认为实验仍是科研的核心,且现有测试方法可能未涵盖复杂的研究情境。
整体而言,这项研究展示了LLM在神经科学领域的潜力,未来可能扩展至更多学术研究领域,为科研提供新的工具和视角。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破