HWPXテキスト抽出ツール
HWPXファイルからテキストと画像を抽出して、様々な形式に変換するツールです。
💡 HWPXファイルとは?
ハングル2014以降で使用されるXMLベースのファイル形式です。
한글 파일을 HWPX로 저장하려면: 파일 → 다른 이름으로 저장 → HWPX 형식
主な機能
- HWPXファイルテキスト完全抽出
- 画像抽出とダウンロード
- 様々な形式変換(TXT、Markdown、HTML)
- 文書メタデータ表示
- クリップボードコピー機能
- 100%クライアントサイド処理
HWPXとは?
HWPXはハングル2014以降でサポートされるXMLベースのハングルファイル形式です。
HWP vs HWPX
| 形式 | バージョン | 構造 | 抽出可否 |
|---|---|---|---|
| HWP | ハングル97-2010 | バイナリ | ⚠️ 制限的 |
| HWPX | ハングル2014+ | ZIP + XML | ✅ 可能 |
使い方
1. HWPをHWPXに変換
ハングルプログラムで:
ファイル → 名前を付けて保存 → 形式: HWPX選択
2. ファイルアップロード
- ファイル選択ボタンをクリック
- HWPXファイルを選択
3. 結果確認
- 文書情報(著者、ページ数、文字数)
- 抽出されたテキスト
- 文書内の画像
4. 希望の形式でダウンロード
- TXT: 純粋テキスト
- Markdown: マークダウン形式
- HTML: Web文書形式
- コピー: クリップボードにコピー
使用シナリオ
1. ハングルなしで文書内容確認
HWPXファイルアップロード → テキスト抽出 → 内容確認
ハングルプログラムがインストールされていない環境で便利
2. 別の形式に変換
HWPX → TXT/Markdown/HTML
他のエディターやプラットフォームで使用するために変換
3. テキストデータ活用
HWPX → テキスト抽出 → 分析/検索/翻訳
文書内容をプログラムで処理する時
4. 画像抽出
HWPX → 画像ファイル抽出
文書に含まれる画像のみ別途保存
対応機能
サポート対象
- テキスト完全抽出
- 画像抽出(PNG、JPG、GIF)
- 文書メタデータ
- 複数セクション文書
- 特殊文字、日本語、英語、数字
制限事項
- ⚠️ 書式情報(太字、色など)未含
- ⚠️ 表・図のレイアウト未対応
- ⚠️ 数式、チャートのテキスト化
- ⚠️ HWPファイル(旧バージョン)未対応
技術情報
処理方式
1. HWPXファイルアップロード
↓
2. ZIP解凍
↓
3. XMLファイルパース
↓
4. テキスト/画像抽出
↓
5. 様々な形式に変換
使用技術
- JSZip: HWPX(ZIP)解凍
- fast-xml-parser: XMLパース
- FileSaver: ファイルダウンロード
- クライアントサイド: すべての処理がブラウザ内で進行
プライバシー
- 100%クライアントサイド処理
- ファイルがサーバーに送信されることはありません
- 個人情報の安全性
- オフラインでも動作可能
よくある質問
Q: HWPファイルもサポートしていますか?
A: 現在はHWPXファイルのみサポートしてい ます。HWPファイルはハングルプログラムでHWPXとして保存した後に使用してください。
Q: 書式(太字、色など)も維持されますか?
A: いいえ、純粋なテキストのみ抽出されます。書式が必要な場合はHWPビューアーを使用してください。
Q: ファイルがサーバーにアップロードされますか?
A: いいえ!すべての処理がブラウザ内で行われ、ファイルが外部に送信されることはありません。
Q: 抽出されたテキストがおかしいです
A: HWPXファイルが破損しているか、非常に複雑なレイアウトの可能性があります。できるだけシンプルな文書でテストしてみてください。
Q: 表や図はどうなりますか?
A: 表のテキストは抽出されますが、レイアウトは維持されません。図は別途抽出可能です。
Q: PDFに変換できますか?
A: 現在のバージョンではTXT/MD/HTMLのみサポートしています。HTMLでダウンロード後、ブラウザでPDFとして印刷できます。
関連ツール
- HWPビューアー - HWP/HWPXファイルプレビュー(書式含む)
ブラウザサポート
- Chrome 90+
- Firefox 90+
- Safari 14+
- Edge 90+
- モバイルブラウザ