From 0bc877685159260ff853bb82320708b07cb6c441 Mon Sep 17 00:00:00 2001 From: dothinking Date: Tue, 16 Jan 2024 10:19:36 +0000 Subject: [PATCH] deploy: 59ec192ce980f6fdd7a07891ebae348034cc2aee --- .../index.html" | 4 ++-- images/2020-07-13.png | Bin 0 -> 114071 bytes index.html | 2 +- search/search_index.json | 2 +- sitemap.xml.gz | Bin 3861 -> 3861 bytes 5 files changed, 4 insertions(+), 4 deletions(-) create mode 100644 images/2020-07-13.png diff --git "a/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" "b/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" index 4e4c693..904ccdf 100644 --- "a/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" +++ "b/2020-07-13-pdf2docx\345\274\200\345\217\221\346\246\202\350\246\201/index.html" @@ -140,12 +140,12 @@

pdf2docx开发概要发布于:2020-07-13 | 分类:process automation


PDF转Word 是一个古老的话题,其难点在于建立PDF基于元素位置的格式与Word基于内容的格式之间的映射关系。Solid Documents是这方面的佼佼者,其技术的应用案例:在线PDF转换网站Smallpdf

-

在某个项目的调研过程中,作者尝试了这个话题,编写了一个用于转换PDF到Word的Python库pdf2docx——借助PyMuPDF从PDF文件提取内容,基于位置规则解析内容,最后用python-docx创建Word文件。

+

在某个项目的调研过程中,我尝试了这个话题,编写了一个用于转换PDF到Word的Python库pdf2docx——借助PyMuPDF从PDF文件提取内容,基于位置规则解析内容,最后用python-docx创建Word文件。

https://github.com/dothinking/pdf2docx

本文记录主要开发思路,具体细节随着版本升级可能略有差异。

-

sample

+

sample

思路