^ 正の文、
Published on 2025-04-11 / 1 Visits
0
0

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

2025年新突破:ScholarCopilot框架助力学术写作告别引用幻觉

学术写作往往需要投入大量精力进行文献引用查询。以ChatGPT、GPT - 4为代表的通用大语言模型(LLM)虽能生成流畅文本,但常出现“引用幻觉”,即凭空捏造文献引用,这严重影响了学术论文的可信度与专业性。

如今,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队推出了名为ScholarCopilot的智能学术写作大模型框架,专门针对学术场景,致力于精准生成带有准确引用的学术文本。

ScholarCopilot与传统方法的差异

传统的检索增强生成(Retrieval - Augmented Generation, RAG)方法采用“先检索、再生成”的静态流程,存在明显问题。一是检索与生成过程相互独立,易导致意图不匹配;二是无法根据上下文需求动态调整引用策略,影响引用准确性。

针对这些局限,ScholarCopilot提出“边生成、边检索”的动态机制。在生成文本时,模型会动态判断何时需要引用文献,并生成特殊检索信号([RET]),随后实时检索学术数据库中的相关文献,将检索内容融入后续生成过程。通过联合优化生成任务和检索任务,提升引用的准确度与相关性。简单来说,其写作方式更接近人类真实写作习惯,正常撰写论文内容,需要引用时主动检索相关文献的BibTeX信息插入引用,继续撰写下文,且后续内容会参考已插入的引用文献,确保文本与引用紧密相关。

ScholarCopilot的性能表现

研究团队基于阿里云近期发布的Qwen - 2.5 - 7B模型,使用50万篇arXiv论文进行训练,并从多个维度进行性能评估。

引用检索准确性(Top - 1 accuracy)达到40.1%,显著超过现有检索模型,如E5 - Mistral - 7B - Instruct(15.0%)和BM25(9.8%)。

论文生成质量方面(涵盖相关性、连贯性、学术严谨性、完整性和创新性),综合得分为16.2(满分25),高于参数量更大的Qwen - 2.5 - 72B - Instruct模型(15.8)和Qwen - 2.5 - 7B - Instruct模型(13.9)。

在由10位平均有4.2年学术写作经验的学生(5名博士、4名硕士、1名本科生)参与的真人评测中,ScholarCopilot在引用质量上的用户偏好率达100%,整体实用性偏好率超70%。

ScholarCopilot的不足与未来方向

尽管ScholarCopilot取得显著进步,但仍有局限性。用户调研中,受访者提出改进建议:一是模型在生成内容的丰富性与信息全面性方面需进一步提升;二是目前在生成创新性想法和研究问题方面表现一般,有较大改进空间。

此外,受访者还建议未来版本可与主流学术写作平台(如Overleaf)更紧密整合,支持分章节独立生成和任意光标位置的文本预测功能。研究团队表示,这些反馈为后续开发指明了方向。

后续展望

ScholarCopilot研究团队希望通过持续优化模型性能、扩展检索数据库和改进用户交互体验,让研究人员在学术写作中更专注于研究本身,而非繁琐的文献检索与引用管理。

目前,相关论文、代码与模型已公开发布,感兴趣的读者可通过以下链接进一步了解:

论文链接:https://arxiv.org/pdf/2504.00824

项目网站:https://tiger - ai - lab.github.io/ScholarCopilot/

演示视频:https://www.youtube.com/watch?v=QlY7S52sWDA


Comment