- PyPDF2 这是一个Python库,用于提取文档信息和内容,逐页拆分文档,合并文档,裁剪页面和添加水印。 PyPDF2支持未加密和加密的文档。
- PDFMiner 完全用Python编写,适用于Python 2.4。对于Python 3,请使用克隆包PDFMiner.six。这两个包都允许您解析,分析和转换PDF文档。包括对PDF 1.7以及CJK语言(中文,日文和韩文)以及各种字体类型(Type1,TrueType,Type3和CID)的支持。
- PDFQuery 它将自己描述为“一个快速且友好的PDF抓取库”,它作为PDFMiner,lxml和pyquery的包装器实现。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据。”
- tabula-py 它是tabula-java的简单Python包装器,可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV / TSV / JSON文件。
- pdflib for Python Poppler库的扩展,为它提供Python绑定。它允许您解析,分析和转换PDF文档。不要与其同名的商业吊坠相混淆。
- PyFPDF 用于在Python下生成PDF文档的库。从FPDF PHP库移植,一个众所周知的PDFlib扩展替换,包含许多示例,脚本和衍生产品。
- PDFTables 一种商业服务,提供从PDF文档中提取的表格。提供API以便PDFTable可以用作SAAS。
- PyX-Python图形包 PyX是一个用于创建PostScript,PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元构建了复杂的任务,例如以发布就绪质量创建2D和3D图。
- ReportLab 一个雄心勃勃的工业级图书馆,主要致力于精确创建PDF文档。可作为开源版本以及名为ReportLab PLUS的商业增强版本免费提供。
- PyMuPDF(又名“fitz”) MuPDF的Python绑定,它是一个轻量级的PDF和XPS查看器。该库可以访问PDF,XPS,OpenXPS,epub,漫画和小说书籍格式的文件,并以其顶级性能和高渲染质量而闻名。
- pdfrw 一种基于Python的纯PDF解析器,用于读写PDF。它忠实地再现了矢量格式而没有光栅化。与ReportLab结合使用,有助于在使用ReportLab创建的新PDF中重复使用现有PDF的部分内容。