专业接各种小工具软件及爬虫软件开发,联系Q:2391047879

基于Celery的学术期刊论文查重预处理系统

发布时间: 2025-04-14 19:25:05 浏览量: 本文共包含615个文字,预计阅读时间2分钟

在学术研究领域,论文原创性检测的准确性与效率直接影响着期刊审稿流程的质量。某技术团队开发的分布式任务处理系统,采用Celery作为核心框架,构建起支持高并发处理的查重预处理平台,有效解决了传统查重工具在处理海量文献时存在的性能瓶颈问题。

基于Celery的学术期刊论文查重预处理系统

系统架构设计充分考虑了学术场景的特殊需求。通过Celery的异步任务队列机制,系统将PDF解析、文本清洗、特征提取等计算密集型操作拆解为独立子任务,配合RabbitMQ消息中间件实现任务调度。这种设计使得单日处理量突破万篇级别,在测试环境中,针对单篇2万字符的论文,预处理时间控制在90秒以内。

预处理流程包含四个关键模块:格式解析组件支持PDF、DOCX、LaTeX等12种学术文档格式的自动转换;文本清洗模块采用正则表达式与NLP结合的方式,精准识别并去除文献综述、引用标注等非主体内容;特征提取阶段运用改进的TF-IDF算法生成文本指纹;相似度计算引擎基于MinHash-LSH算法构建索引库,显著降低后续全文比对的计算复杂度。

技术团队在开发过程中攻克了多个难点。针对学术论文特有的公式、图表元素,开发了基于PDFMiner的定制解析器,确保特殊符号的准确识别。为防止任务堆积导致的系统崩溃,设计了动态负载均衡机制,通过Celery的--autoscale参数实现Worker节点的弹性伸缩。测试数据显示,系统在500节点并发状态下仍能保持97.6%的任务成功率。

系统安全性设计包含三重保障:基于Docker的沙箱环境隔离每个预处理任务,防止恶意文档攻击;Redis数据库对中间结果进行加密存储;运用Celery的Task签名机制确保任务完整性。某高校学报编辑部试运行期间,系统成功拦截了3篇存在30%以上相似度的投稿论文,误报率控制在0.8%以下。

当前系统已实现与Crossref、CNKI等主流数据库的API对接,支持中英文混合文本处理。开发团队正着手集成深度学习模型,计划通过Bi-LSTM网络提升语义相似度判断的准确率。第三方技术审计报告显示,该系统在百万级文献库中的查重召回率达到89.2%,较传统方法提升23个百分点。