HWPX 文本提取器
从 HWPX 文件中提取文本和图片,并转换为各种格式的工具。
💡 什么是HWPX文件?
韩文2014及更高版本中使用的基于XML的文件格式。
한글 파일을 HWPX로 저장하려면: 파일 → 다른 이름으로 저장 → HWPX 형식
主要功能
- HWPX 文件文本完美提取
- 图片提取和下载
- 多种格式转换(TXT、Markdown、HTML)
- 显示文档元数据
- 剪贴板复制功能
- 100% 客户端处理
什么是 HWPX?
HWPX 是韩文 2014 以上版本支持的基于 XML 的韩文文件格式。
HWP vs HWPX
| 格式 | 版本 | 结构 | 可提取性 |
|---|---|---|---|
| HWP | 韩文 97-2010 | 二进制 | ⚠️ 受限 |
| HWPX | 韩文 2014+ | ZIP + XML | ✅ 可提取 |
使用方法
1. 将 HWP 转换为 HWPX
在韩文程序中:
文件 → 另存为 → 格式:选择 HWPX
2. 上传文件
- 点击选择文件按钮
- 选择 HWPX 文件
3. 查看结果
- 文档信息(作者、页数、字数)
- 提取的文本
- 文档中的图片
4. 下载为所需格式
- TXT:纯文本
- Markdown:Markdown 格式
- HTML:网页文档格式
- 复制:复制到剪贴板
使用场景
1. 无韩文程序查看文档内容
上传 HWPX 文件 → 提取文本 → 查看内容
在未安装韩文程序的环境中非常有用
2. 转换为其他格式
HWPX → TXT/Markdown/HTML
为在其他编辑器或平台使用而转换
3. 使用文本数据
HWPX → 提取文本 → 分析/搜索/翻译
用程序处理文档内容时
4. 提取图片
HWPX → 提取图片文件
单独保存文档中的图片
支持功能
✅ 支持
- ✅ 完美提取文本
- ✅ 提取图片(PNG、JPG、GIF)
- ✅ 文档元数据
- ✅ 多段文档
- ✅ 特殊字符、韩文、英文、数字
⚠️ 限制
- ⚠️ 不包含格式信息(粗体、颜色等)
- ⚠️ 不支持表格/图片布局
- ⚠️ 公式、图表文本化
- ⚠️ 不支持 HWP 文件(旧版本)
技术信息
处理方式
1. 上传 HWPX 文件
↓
2. 解压 ZIP
↓
3. 解析 XML 文件
↓
4. 提取文本/图片
↓
5. 转换为各种格式
使用技术
- JSZip:HWPX (ZIP) 解压
- fast-xml-parser:XML 解析
- FileSaver:文件下载
- 客户端:所有处理都在浏览器中进行
隐私保护
- ✅ 100% 客户端处理
- ✅ 文件不会传输到服务器
- ✅ 个人信息安全
- ✅ 可离线使用
常见问题
Q:也支持 HWP 文件吗?
A:目前仅支持 HWPX 文件。HWP 文件需要在韩文程序中另存为 HWPX 后使用。