跳转到主内容

HWPX 文本提取器

从 HWPX 文件中提取文本和图片,并转换为各种格式的工具。

💡 什么是HWPX文件?

韩文2014及更高版本中使用的基于XML的文件格式。

한글 파일을 HWPX로 저장하려면: 파일 → 다른 이름으로 저장 → HWPX 형식

主要功能

  • HWPX 文件文本完美提取
  • 图片提取和下载
  • 多种格式转换(TXT、Markdown、HTML)
  • 显示文档元数据
  • 剪贴板复制功能
  • 100% 客户端处理

什么是 HWPX?

HWPX 是韩文 2014 以上版本支持的基于 XML 的韩文文件格式。

HWP vs HWPX

格式版本结构可提取性
HWP韩文 97-2010二进制⚠️ 受限
HWPX韩文 2014+ZIP + XML✅ 可提取

使用方法

1. 将 HWP 转换为 HWPX

在韩文程序中:

文件 → 另存为 → 格式:选择 HWPX

2. 上传文件

  • 点击选择文件按钮
  • 选择 HWPX 文件

3. 查看结果

  • 文档信息(作者、页数、字数)
  • 提取的文本
  • 文档中的图片

4. 下载为所需格式

  • TXT:纯文本
  • Markdown:Markdown 格式
  • HTML:网页文档格式
  • 复制:复制到剪贴板

使用场景

1. 无韩文程序查看文档内容

上传 HWPX 文件 → 提取文本 → 查看内容
在未安装韩文程序的环境中非常有用

2. 转换为其他格式

HWPX → TXT/Markdown/HTML
为在其他编辑器或平台使用而转换

3. 使用文本数据

HWPX → 提取文本 → 分析/搜索/翻译
用程序处理文档内容时

4. 提取图片

HWPX → 提取图片文件
单独保存文档中的图片

支持功能

✅ 支持

  • ✅ 完美提取文本
  • ✅ 提取图片(PNG、JPG、GIF)
  • ✅ 文档元数据
  • ✅ 多段文档
  • ✅ 特殊字符、韩文、英文、数字

⚠️ 限制

  • ⚠️ 不包含格式信息(粗体、颜色等)
  • ⚠️ 不支持表格/图片布局
  • ⚠️ 公式、图表文本化
  • ⚠️ 不支持 HWP 文件(旧版本)

技术信息

处理方式

1. 上传 HWPX 文件

2. 解压 ZIP

3. 解析 XML 文件

4. 提取文本/图片

5. 转换为各种格式

使用技术

  • JSZip:HWPX (ZIP) 解压
  • fast-xml-parser:XML 解析
  • FileSaver:文件下载
  • 客户端:所有处理都在浏览器中进行

隐私保护

  • ✅ 100% 客户端处理
  • ✅ 文件不会传输到服务器
  • ✅ 个人信息安全
  • ✅ 可离线使用

常见问题

Q:也支持 HWP 文件吗?

A:目前仅支持 HWPX 文件。HWP 文件需要在韩文程序中另存为 HWPX 后使用。

Q:格式(粗体、颜色等)也会保留吗?

A:不会,仅提取纯文本。如需格式,请使用 HWP 查看器

Q:文件会上传到服务器吗?

A:不会!所有处理都在浏览器中进行,文件不会传输到外部。

Q:提取的文本很奇怪

A:可能是 HWPX 文件损坏或布局非常复杂。请尝试用尽可能简单的文档测试。

Q:表格或图片怎么办?

A:可以提取表格的文本,但不保留布局。图片可单独提取。

Q:可以转换为 PDF 吗?

A:当前版本仅支持 TXT/MD/HTML。下载为 HTML 后可在浏览器中打印为 PDF。

相关工具

浏览器支持

  • ✅ Chrome 90+
  • ✅ Firefox 90+
  • ✅ Safari 14+
  • ✅ Edge 90+
  • ✅ 移动浏览器

使用技巧

💡 技巧 1:批量处理文档

处理多个文档时,在韩文程序中批量转换为 HWPX 后逐个上传。

💡 技巧 2:文本分析

可复制提取的文本与其他文本分析工具配合使用。

💡 技巧 3:备份用

将重要文档同时以 HWPX 和 TXT 两种格式备份更安全。

💡 技巧 4:移动设备查看

需要在移动设备查看韩文文档时,转换为 HTML 会很方便。

💬 这个工具对您有帮助吗?

欢迎随时向我们发送您的反馈或建议!