必须修改
G2-001
全文嵌入 130 处 U+2060(WORD JOINER)隐藏字符,送审 PDF 必须清除
📍 位置参考文献全节(印刷 108–115,物理 p122–129)+ 作者简介·发表论文 [1][2][3](印刷 118,物理 p132)
问题
送审 PDF 文本层中嵌入了 **130 个肉眼不可见的 U+2060(WORD JOINER / 词连接符)**。它们位于每条文献(及作者简介论文 [1][2][3])末元素与其后英文句点之间(如「…61-72.」「…106600.」「…[S].」),PDF 渲染上完全看不出,但确实存在于字符流。逐页计数(印刷页):p108=17、p109=18、p110=19、p111=16、p112=14、p113=14、p114=13、p115=13、p116=3、p118=3 → **合计 130**。
为什么是问题
现象——可见为「…106600.」,实际字符序列为「…106600.」(中间夹 U+2060);成因——集中在参考文献区:127 条文献几乎每条末尾句点前各 1 个(Zotero/CSL「中国农业大学(自然科学)」样式渲染产物),另 3 个在作者简介论文 [1][2][3](para 978/979/980)。docx 正文
<w:t> 静态文本中 U+2060 **只有 3 个**(作者简介那 3 条),docx 的参考文献是一个**活动 Zotero 域**(ADDIN ZOTERO_BIBL … CSL_BIBLIOGRAPHY),WORD JOINER 不在静态文本里;但用 Acrobat PDFMaker **导出 PDF 时该域被压平为静态文本**,CSL 样式在每条末尾插入了 WORD JOINER → PDF 里变成 127+3=130 个。后果——① 属 G2「零宽/不可见字符」红线,盲审若用 AI 系统或字符级查重会检出隐藏字符并质疑「是否人为干扰检测系统」,即便本意无害也带来诚信嫌疑;② 知网/Turnitin 等查重切词时隐藏字符可能割裂字符串、造成异常匹配;③ 跨平台显示/检索时可能乱码。**口径澄清**:任务规定 PDF 优先,送审件(权威版)实际承载 **130 处**,必须按 130 处清理,不能只删作者简介可见的 3 处(docx 静态文本仅 3 处的口径只对 docx 正文成立,漏掉了 PDF 中参考文献区被压平产生的 127 处)。客观可检测(codepoint 存在性二值判定)。修改建议
- 对**送审 PDF** 做一次全文零宽/不可见字符清理(搜索并删除 U+2060 及 U+200B/200C/200D/FEFF),可在导出后用工具批量删除,或在 Zotero 端换用不插入 WORD JOINER 的 CSL 样式后重新导出;删除作者简介论文 [1][2][3] 页码后的 U+2060(重打这三处页码与句点);导出后再用工具复扫,确认 U+2060 计数为 0 再送审。
证据 / 原文锚点
- PyMuPDF 文本层全 133 页扫描 U+2060 共 **130**;参考文献例「农业机械学报, 51(9):61-72.」「Research, 252:106600.」「NY/T 1628-2008, 玉米免耕播种机作业质量[S].」;作者简介例 docx para 978「…252: 106600. (SCI, Q1…」、para 979「…243: 111376.」、para 980「…18(5): 26-38.」;docx 静态
<w:t>内 U+2060=3(仅作者简介),参考文献为活动 Zotero 域;其他零宽/方向控制字符(U+200B/200C/200D/FEFF/202A–E)=0。