7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

2025年新突破：ScholarCopilot框架助力学术写作告别引用幻觉

学术写作往往需要投入大量精力进行文献引用查询。以ChatGPT、GPT - 4为代表的通用大语言模型（LLM）虽能生成流畅文本，但常出现“引用幻觉”，即凭空捏造文献引用，这严重影响了学术论文的可信度与专业性。

如今，加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队推出了名为ScholarCopilot的智能学术写作大模型框架，专门针对学术场景，致力于精准生成带有准确引用的学术文本。

ScholarCopilot与传统方法的差异

传统的检索增强生成（Retrieval - Augmented Generation, RAG）方法采用“先检索、再生成”的静态流程，存在明显问题。一是检索与生成过程相互独立，易导致意图不匹配；二是无法根据上下文需求动态调整引用策略，影响引用准确性。

针对这些局限，ScholarCopilot提出“边生成、边检索”的动态机制。在生成文本时，模型会动态判断何时需要引用文献，并生成特殊检索信号（[RET]），随后实时检索学术数据库中的相关文献，将检索内容融入后续生成过程。通过联合优化生成任务和检索任务，提升引用的准确度与相关性。简单来说，其写作方式更接近人类真实写作习惯，正常撰写论文内容，需要引用时主动检索相关文献的BibTeX信息插入引用，继续撰写下文，且后续内容会参考已插入的引用文献，确保文本与引用紧密相关。

ScholarCopilot的性能表现

研究团队基于阿里云近期发布的Qwen - 2.5 - 7B模型，使用50万篇arXiv论文进行训练，并从多个维度进行性能评估。

引用检索准确性（Top - 1 accuracy）达到40.1%，显著超过现有检索模型，如E5 - Mistral - 7B - Instruct（15.0%）和BM25（9.8%）。

论文生成质量方面（涵盖相关性、连贯性、学术严谨性、完整性和创新性），综合得分为16.2（满分25），高于参数量更大的Qwen - 2.5 - 72B - Instruct模型（15.8）和Qwen - 2.5 - 7B - Instruct模型（13.9）。

在由10位平均有4.2年学术写作经验的学生（5名博士、4名硕士、1名本科生）参与的真人评测中，ScholarCopilot在引用质量上的用户偏好率达100%，整体实用性偏好率超70%。

ScholarCopilot的不足与未来方向

尽管ScholarCopilot取得显著进步，但仍有局限性。用户调研中，受访者提出改进建议：一是模型在生成内容的丰富性与信息全面性方面需进一步提升；二是目前在生成创新性想法和研究问题方面表现一般，有较大改进空间。

此外，受访者还建议未来版本可与主流学术写作平台（如Overleaf）更紧密整合，支持分章节独立生成和任意光标位置的文本预测功能。研究团队表示，这些反馈为后续开发指明了方向。

后续展望

ScholarCopilot研究团队希望通过持续优化模型性能、扩展检索数据库和改进用户交互体验，让研究人员在学术写作中更专注于研究本身，而非繁琐的文献检索与引用管理。

目前，相关论文、代码与模型已公开发布，感兴趣的读者可通过以下链接进一步了解：

论文链接：https://arxiv.org/pdf/2504.00824

项目网站：https://tiger - ai - lab.github.io/ScholarCopilot/

演示视频：https://www.youtube.com/watch?v=QlY7S52sWDA

Menu

Share

7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

2025年新突破：ScholarCopilot框架助力学术写作告别引用幻觉

ScholarCopilot与传统方法的差异

ScholarCopilot的性能表现

ScholarCopilot的不足与未来方向

后续展望

Comment

班组长工作标准流程

单点音视频通信实现demo

音视频通话

关于单商户添加供货商模块调整

通俗易懂讲AI:5分钟搞懂小模型/大模型/多模态特点!使用效果翻倍!

人员考勤成本

WebRTC拆解

自动化读取文章

OpenAI前CTO爆炸开局:种子轮开盘20亿美元，0产品0用户估值直奔100亿，GPT论文一作也加入了

Java玩转MCP：手把手教你打造Git AI仓库助手