跳到主要内容

pdf转word

· 阅读需 5 分钟

问题描述

学校的系统要求同时上交 pdf 和 word 版本的论文。latex 写的只能生成 pdf,就有了转 word 需求。通过搜索,先后尝试了 pandoc 的 tex2docx(可以生成,但是格式太简陋),adobe 的在线 pdf 转 word(总体美观,但是公式识别失败)。最后,还是选择了 adobe acrobat DC 本地将 pdf 转成 word,并结合 axmath 的 word 插件,输入公式。

acrobat DC 的使用

当初本科时候就装了这个软件。用它输出 word 有两种模式:

保持流动顺序和保持页面布局。其中,保持流动顺序是让段落顺序和 pdf 一样,转换结果的总页数和 pdf 可能不一致;而保持页面布局是强行让文字位置和 pdf 一样,但是丧失了可编辑性。因为后面还要加公式,所以选择第一种,同时也是默认模式。

初步转换后,大概比 pdf 多了七八页。有很多是空白导致的。现在的 word 很粗糙,里面很多隐藏的分割符,加上 word 各种隐藏 bug,所以要耐心。

页码和目录

学校要求是绪论之前(不包括封面)用罗马数字,绪论之后的正文用阿拉伯数字。把绪论之前编为一节,且每一页指定好页码样式,链接到前一节,这样才能自动编号。在绪论第一页开始新的一节,这样就从 1 开始编号了。页码和目录关系很大。这时候更新一下目录,也包括了绪论之前的内容。只能手动删除掉了。

样式管理

来到文字编辑部分。acrobat 会把文档的标题字体给改了,而且正文段落的缩进还各不相同。如果每一段都设置太麻烦了。所以,从“样式”选项卡修改,可以一劳永逸。首先,选择某个样式的文字,点开样式的修改选项卡,如图:

然后,设置好字体和段落,比如宋体、两端对齐,去除缩进等。勾上自动更新,然后相同样式的所有文字都会应用。

注意这个自动更新,如果后面你想对一些格式微调,那么自动更新会让你的微调作用于全局,所以,建议初步改完后,关掉自动更新。完成这一步后,文档大致美观了。

公式输入

现在市面上所有的 pdf 转 word 工具,识别公式的能力都很垃圾。大致排序就是 adobe 在线>acrobat>其他。adobe 也只能识别一些简单的公式,遇到稍微复杂的也是乱码。mathpix 是图片转 latex 的最强工具,识别率非常高,但是收费。我研一时候,买了 axmath,类似于 mathtype,但是功能更丰富,可以将 latex 转为 word 公式。把 overleaf 的公式复制过来,开一个行内公式,粘贴,整理好格式。删空格会碰到很多奇怪的东西,只要多保存,前后试一试,一般都能解决。

更新

axmath 在将 latex 公式转为 word 格式时,会导致文档其他部分出现空白。非常恶心!