python 提取 word docx 文档中的文本 图片

创建日期: 2024-06-24 11:23 | 作者: 风波 | 浏览次数: 16 | 分类: Python

方法一:使用 docx2txt

来源:https://stackoverflow.com/questions/56428445/extract-images-from-word-document-using-python

安装依赖库

pip install docx2txt -i https://mirrors.aliyun.com/pypi/simple/  --trusted-host mirrors.aliyun.com

提取文本和图片

docx2txt 包就是一个简单的 python 文件,里面使用 zipfile 打开 .docx 文件,遍历里面的文件。图片文件其实就是直接放在里面的文件。所以可以修改一下 docx2txt.pyprocess() 函数,直接返回图片的二进制文件内容。

import docx2txt

text = docx2txt.process("/path/your_word_doc.docx", '/home/example/img/')

方法二:使用 python-docx

来源:https://github.com/python-openxml/python-docx

安装

pip install python-docx -i https://mirrors.aliyun.com/pypi/simple/  --trusted-host mirrors.aliyun.com

提取文本

from docx import Document

document = Document("dark-and-stormy.docx")
document.paragraphs[0].text
16 浏览
8 爬虫
0 评论