方法一:使用 docx2txt
来源:https://stackoverflow.com/questions/56428445/extract-images-from-word-document-using-python
安装依赖库
pip install docx2txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
提取文本和图片
docx2txt
包就是一个简单的 python 文件,里面使用 zipfile
打开 .docx
文件,遍历里面的文件。图片文件其实就是直接放在里面的文件。所以可以修改一下 docx2txt.py
的 process()
函数,直接返回图片的二进制文件内容。
import docx2txt
text = docx2txt.process("/path/your_word_doc.docx", '/home/example/img/')
方法二:使用 python-docx
来源:https://github.com/python-openxml/python-docx
安装
pip install python-docx -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
提取文本
from docx import Document
document = Document("dark-and-stormy.docx")
document.paragraphs[0].text