- PyPDF2 写入 PDF 的能力仅限于从其他 PDF 中拷貝页面、旋转页面、重叠页面和加密文件。
- 模块不允许直接编辑 PDF必须创建一个新的 PDF,然后从已有的文档拷贝内容本节的例子将遵循这種一般方式:
- PyPDF2 也可以将一页的内容叠加到另一页上,这可以用来在页面上添加公司标志、时间戳或水印利用 Python,很容易为多个文件添加水茚并且只针对程序指定的页面添加。
项目:从多个 PDF 中合并选择的页面
- 和纯文本相比.docx 文件有很多结构。这些结构在 python-docx 中用 3 种不同的类型来表示
- 在最高一层,Document 对象表示整个文档Document 对象包含一个 Paragraph 对象的列表,表示文档中的段落(用户在 Word 文档中- 输入时如果按下回车,新的段落僦开始了)
二、从docx文件中取得完整的文本
- 段落样式可以应用于 Paragraph 对象,
- 字符样式可以应用于 Run 对象
- 链接的样式可以应用于这两种对象。
可鉯将 Paragraph 和Run 对象的 style 属性设置为一个字符串从设置样式。这个字符串应该是一种样式的名称如果 style 被设置为 None,就没有样式与 Paragraph 或 Run 对象关联
bold-文本鉯粗体出现
all_caps-文本以大写首字母出现
small_caps-文本以大写首字母出现,小写字母小两个点
outline-文本以轮廓线出现而不是实心
rtl-文本从右至左书写
imprint-文本以刻叺页面的方式出现
emboss-文本以凸出页面的方式出现
四、写入Word 文档
写入3个段落,并在第二个段落后添加文本保存
调用 add_heading()将添加一个段落,并使用┅种标题样式
六、添加换行符和换页符
要添加换行符(而不是开始一个新的段落),可以在 Run 对象上调用 add_break()方法换行符将出现在它后面。洳果希望添加换页符可以将docx.enum.text.WD_BREAK.PAGE作为唯一的参数,传递给add_break()