HWPX-Text-Extraktor
Ein Tool zum Extrahieren von Text und Bildern aus HWPX-Dateien und Konvertieren in verschiedene Formate.
💡 Was ist eine HWPX-Datei?
Ein XML-basiertes Dateiformat, das in Hangul 2014 und späteren Versionen verwendet wird.
한글 파일을 HWPX로 저장하려면: 파일 → 다른 이름으로 저장 → HWPX 형식
Hauptfunktionen
- Vollständige Textextraktion aus HWPX-Dateien
- Bildextraktion und Download
- Konvertierung in verschiedene Formate (TXT, Markdown, HTML)
- Anzeige von Dokument-Metadaten
- Zwischenablage-Kopierfunktion
- 100% clientseitige Verarbeitung
Was ist HWPX?
HWPX ist ein XML-basiertes Hangeul-Dateiformat, das von Hangeul 2014 und höher unterstützt wird.
HWP vs HWPX
| Format | Version | Struktur | Extraktion möglich |
|---|---|---|---|
| HWP | Hangeul 97-2010 | Binär | ⚠️ Eingeschränkt |
| HWPX | Hangeul 2014+ | ZIP + XML | ✅ Möglich |
Verwendung
1. HWP in HWPX konvertieren
Im Hangeul-Programm:
Datei → Speichern unter → Format: HWPX auswählen
2. Datei hochladen
- 📎 Datei auswählen Button klicken
- HWPX-Datei auswählen
3. Ergebnis überprüfen
- 📊 Dokumentinformationen (Autor, Seitenzahl, Zeichenzahl)
- 📝 Extrahierter Text
- 🖼️ Bilder im Dokument
4. Im gewünschten Format herunterladen
- TXT: Reiner Text
- Markdown: Markdown-Format
- HTML: Webdokument-Format
- Kopieren: In Zwischenablage kopieren
Anwendungsszenarien
1. Dokumentinhalt ohne Hangeul überprüfen
HWPX-Datei hochladen → Text extrahieren → Inhalt überprüfen
Nützlich in Umgebungen ohne installiertes Hangeul-Programm
2. In anderes Format konvertieren
HWPX → TXT/Markdown/HTML
Für die Verwendung in anderen Editoren oder Plattformen konvertieren
3. Textdaten verwenden
HWPX → Text extrahieren → Analysieren/Suchen/Übersetzen
Beim programmatischen Verarbeiten von Dokumentinhalten
4. Bilder extrahieren
HWPX → Bilddateien extrahieren
Im Dokument enthaltene Bilder separat speichern
Unterstützte Funktionen
✅ Unterstützt
- ✅ Vollständige Textextraktion
- ✅ Bildextraktion (PNG, JPG, GIF)
- ✅ Dokument-Metadaten
- ✅ Multi-Sektion-Dokumente
- ✅ Sonderzeichen, Hangeul, Englisch, Zahlen
⚠️ Einschränkungen
- ⚠️ Formatierungsinformationen (Fettdruck, Farben usw.) nicht enthalten
- ⚠️ Tabellen-/Bildlayout nicht unterstützt
- ⚠️ Formeln, Diagramme in Text umgewandelt
- ⚠️ HWP-Dateien (alte Version) nicht unterstützt
Technische Informationen
Verarbeitungsweise
1. HWPX-Datei hochladen
↓
2. ZIP-Dekomprimierung
↓
3. XML-Dateiparsing
↓
4. Text/Bild-Extraktion
↓
5. Konvertierung in verschiedene Formate
Verwendete Technologien
- JSZip: HWPX(ZIP)-Dekomprimierung
- fast-xml-parser: XML-Parsing
- FileSaver: Datei-Download
- Clientseitig: Alle Verarbeitungen erfolgen im Browser
Datenschutz
- ✅ 100% clientseitige Verarbeitung
- ✅ Dateien werden nicht an Server gesendet
- ✅ Persönliche Daten sicher
- ✅ Funktioniert auch offline
Häufig gestellte Fragen
F: Werden auch HWP-Dateien unterstützt?
A: Derzeit werden nur HWPX-Dateien unterstützt. Speichern Sie HWP-Dateien im Hangeul-Programm als HWPX und verwenden Sie sie dann.
F: Wird die Formatierung (Fettdruck, Farben usw.) beibehalten?
A: Nein, es wird nur reiner Text extrahiert. Wenn Sie Formatierung benötigen, verwenden Sie den HWP-Viewer.
F: Wird die Datei auf den Server hochgeladen?
A: Nein! Die gesamte Verarbeitung erfolgt im Browser, die Datei wird nicht extern übertragen.
F: Der extrahierte Text sieht seltsam aus
A: Die HWPX-Datei könnte beschädigt oder sehr komplex im Layout sein. Versuchen Sie es mit einem möglichst einfachen Dokument zu testen.
F: Was passiert mit Tabellen oder Bildern?
A: Tabellentext wird extrahiert, aber das Layout bleibt nicht erhalten. Bilder können separat extrahiert werden.
F: Kann ich in PDF konvertieren?
A: Die aktuelle Version unterstützt nur TXT/MD/HTML. Sie können als HTML herunterladen und dann im Browser als PDF drucken.
Verwandte Tools
- HWP-Viewer - HWP/HWPX-Dateivorschau (mit Formatierung)
Browser-Unterstützung
- ✅ Chrome 90+
- ✅ Firefox 90+
- ✅ Safari 14+
- ✅ Edge 90+
- ✅ Mobile Browser
Anwendungstipps
💡 Tipp 1: Massendokumentverarbeitung
Bei der Verarbeitung mehrerer Dokumente konvertieren Sie sie im Hangeul-Programm stapelweise in HWPX und laden Sie sie dann einzeln hoch.
💡 Tipp 2: Textanalyse
Sie können den extrahierten Text kopieren und mit anderen Textanalyse-Tools verknüpfen.
💡 Tipp 3: Für Backups
Bei wichtigen Dokumenten ist es sicher, in beiden Formaten HWPX und TXT zu sichern.
💡 Tipp 4: Mobile Überprüfung
Wenn Sie Hangeul-Dokumente auf Mobilgeräten überprüfen müssen, ist eine Konvertierung in HTML praktisch.
💬 War dieses Tool hilfreich?
Senden Sie uns jederzeit gerne Ihr Feedback oder Ihre Vorschläge!
Datenschutz
Alle Extraktionen werden lokal in Ihrem Browser durchgeführt. Ihre hochgeladenen Dateien werden nicht auf unseren Servern gespeichert oder verarbeitet.