2025年新突破:ScholarCopilot框架助力学术写作告别引用幻觉
学术写作往往需要投入大量精力进行文献引用查询。以ChatGPT、GPT - 4为代表的通用大语言模型(LLM)虽能生成流畅文本,但常出现“引用幻觉”,即凭空捏造文献引用,这严重影响了学术论文的可信度与专业性。
如今,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队推出了名为ScholarCopilot的智能学术写作大模型框架,专门针对学术场景,致力于精准生成带有准确引用的学术文本。
ScholarCopilot与传统方法的差异
传统的检索增强生成(Retrieval - Augmented Generation, RAG)方法采用“先检索、再生成”的静态流程,存在明显问题。一是检索与生成过程相互独立,易导致意图不匹配;二是无法根据上下文需求动态调整引用策略,影响引用准确性。
针对这些局限,ScholarCopilot提出“边生成、边检索”的动态机制。在生成文本时,模型会动态判断何时需要引用文献,并生成特殊检索信号([RET]),随后实时检索学术数据库中的相关文献,将检索内容融入后续生成过程。通过联合优化生成任务和检索任务,提升引用的准确度与相关性。简单来说,其写作方式更接近人类真实写作习惯,正常撰写论文内容,需要引用时主动检索相关文献的BibTeX信息插入引用,继续撰写下文,且后续内容会参考已插入的引用文献,确保文本与引用紧密相关。
ScholarCopilot的性能表现
研究团队基于阿里云近期发布的Qwen - 2.5 - 7B模型,使用50万篇arXiv论文进行训练,并从多个维度进行性能评估。
引用检索准确性(Top - 1 accuracy)达到40.1%,显著超过现有检索模型,如E5 - Mistral - 7B - Instruct(15.0%)和BM25(9.8%)。
论文生成质量方面(涵盖相关性、连贯性、学术严谨性、完整性和创新性),综合得分为16.2(满分25),高于参数量更大的Qwen - 2.5 - 72B - Instruct模型(15.8)和Qwen - 2.5 - 7B - Instruct模型(13.9)。
在由10位平均有4.2年学术写作经验的学生(5名博士、4名硕士、1名本科生)参与的真人评测中,ScholarCopilot在引用质量上的用户偏好率达100%,整体实用性偏好率超70%。
ScholarCopilot的不足与未来方向
尽管ScholarCopilot取得显著进步,但仍有局限性。用户调研中,受访者提出改进建议:一是模型在生成内容的丰富性与信息全面性方面需进一步提升;二是目前在生成创新性想法和研究问题方面表现一般,有较大改进空间。
此外,受访者还建议未来版本可与主流学术写作平台(如Overleaf)更紧密整合,支持分章节独立生成和任意光标位置的文本预测功能。研究团队表示,这些反馈为后续开发指明了方向。
后续展望
ScholarCopilot研究团队希望通过持续优化模型性能、扩展检索数据库和改进用户交互体验,让研究人员在学术写作中更专注于研究本身,而非繁琐的文献检索与引用管理。
目前,相关论文、代码与模型已公开发布,感兴趣的读者可通过以下链接进一步了解:
论文链接:https://arxiv.org/pdf/2504.00824