Zum Hauptinhalt springen

HWPX-Text-Extraktor

Ein Tool zum Extrahieren von Text und Bildern aus HWPX-Dateien und Konvertieren in verschiedene Formate.

💡 Was ist eine HWPX-Datei?

Ein XML-basiertes Dateiformat, das in Hangul 2014 und späteren Versionen verwendet wird.

한글 파일을 HWPX로 저장하려면: 파일 → 다른 이름으로 저장 → HWPX 형식

Hauptfunktionen

  • Vollständige Textextraktion aus HWPX-Dateien
  • Bildextraktion und Download
  • Konvertierung in verschiedene Formate (TXT, Markdown, HTML)
  • Anzeige von Dokument-Metadaten
  • Zwischenablage-Kopierfunktion
  • 100% clientseitige Verarbeitung

Was ist HWPX?

HWPX ist ein XML-basiertes Hangeul-Dateiformat, das von Hangeul 2014 und höher unterstützt wird.

HWP vs HWPX

FormatVersionStrukturExtraktion möglich
HWPHangeul 97-2010Binär⚠️ Eingeschränkt
HWPXHangeul 2014+ZIP + XML✅ Möglich

Verwendung

1. HWP in HWPX konvertieren

Im Hangeul-Programm:

Datei → Speichern unter → Format: HWPX auswählen

2. Datei hochladen

  • 📎 Datei auswählen Button klicken
  • HWPX-Datei auswählen

3. Ergebnis überprüfen

  • 📊 Dokumentinformationen (Autor, Seitenzahl, Zeichenzahl)
  • 📝 Extrahierter Text
  • 🖼️ Bilder im Dokument

4. Im gewünschten Format herunterladen

  • TXT: Reiner Text
  • Markdown: Markdown-Format
  • HTML: Webdokument-Format
  • Kopieren: In Zwischenablage kopieren

Anwendungsszenarien

1. Dokumentinhalt ohne Hangeul überprüfen

HWPX-Datei hochladen → Text extrahieren → Inhalt überprüfen
Nützlich in Umgebungen ohne installiertes Hangeul-Programm

2. In anderes Format konvertieren

HWPX → TXT/Markdown/HTML
Für die Verwendung in anderen Editoren oder Plattformen konvertieren

3. Textdaten verwenden

HWPX → Text extrahieren → Analysieren/Suchen/Übersetzen
Beim programmatischen Verarbeiten von Dokumentinhalten

4. Bilder extrahieren

HWPX → Bilddateien extrahieren
Im Dokument enthaltene Bilder separat speichern

Unterstützte Funktionen

✅ Unterstützt

  • ✅ Vollständige Textextraktion
  • ✅ Bildextraktion (PNG, JPG, GIF)
  • ✅ Dokument-Metadaten
  • ✅ Multi-Sektion-Dokumente
  • ✅ Sonderzeichen, Hangeul, Englisch, Zahlen

⚠️ Einschränkungen

  • ⚠️ Formatierungsinformationen (Fettdruck, Farben usw.) nicht enthalten
  • ⚠️ Tabellen-/Bildlayout nicht unterstützt
  • ⚠️ Formeln, Diagramme in Text umgewandelt
  • ⚠️ HWP-Dateien (alte Version) nicht unterstützt

Technische Informationen

Verarbeitungsweise

1. HWPX-Datei hochladen

2. ZIP-Dekomprimierung

3. XML-Dateiparsing

4. Text/Bild-Extraktion

5. Konvertierung in verschiedene Formate

Verwendete Technologien

  • JSZip: HWPX(ZIP)-Dekomprimierung
  • fast-xml-parser: XML-Parsing
  • FileSaver: Datei-Download
  • Clientseitig: Alle Verarbeitungen erfolgen im Browser

Datenschutz

  • ✅ 100% clientseitige Verarbeitung
  • ✅ Dateien werden nicht an Server gesendet
  • ✅ Persönliche Daten sicher
  • ✅ Funktioniert auch offline

Häufig gestellte Fragen

F: Werden auch HWP-Dateien unterstützt?

A: Derzeit werden nur HWPX-Dateien unterstützt. Speichern Sie HWP-Dateien im Hangeul-Programm als HWPX und verwenden Sie sie dann.

F: Wird die Formatierung (Fettdruck, Farben usw.) beibehalten?

A: Nein, es wird nur reiner Text extrahiert. Wenn Sie Formatierung benötigen, verwenden Sie den HWP-Viewer.

F: Wird die Datei auf den Server hochgeladen?

A: Nein! Die gesamte Verarbeitung erfolgt im Browser, die Datei wird nicht extern übertragen.

F: Der extrahierte Text sieht seltsam aus

A: Die HWPX-Datei könnte beschädigt oder sehr komplex im Layout sein. Versuchen Sie es mit einem möglichst einfachen Dokument zu testen.

F: Was passiert mit Tabellen oder Bildern?

A: Tabellentext wird extrahiert, aber das Layout bleibt nicht erhalten. Bilder können separat extrahiert werden.

F: Kann ich in PDF konvertieren?

A: Die aktuelle Version unterstützt nur TXT/MD/HTML. Sie können als HTML herunterladen und dann im Browser als PDF drucken.

Verwandte Tools

  • HWP-Viewer - HWP/HWPX-Dateivorschau (mit Formatierung)

Browser-Unterstützung

  • ✅ Chrome 90+
  • ✅ Firefox 90+
  • ✅ Safari 14+
  • ✅ Edge 90+
  • ✅ Mobile Browser

Anwendungstipps

💡 Tipp 1: Massendokumentverarbeitung

Bei der Verarbeitung mehrerer Dokumente konvertieren Sie sie im Hangeul-Programm stapelweise in HWPX und laden Sie sie dann einzeln hoch.

💡 Tipp 2: Textanalyse

Sie können den extrahierten Text kopieren und mit anderen Textanalyse-Tools verknüpfen.

💡 Tipp 3: Für Backups

Bei wichtigen Dokumenten ist es sicher, in beiden Formaten HWPX und TXT zu sichern.

💡 Tipp 4: Mobile Überprüfung

Wenn Sie Hangeul-Dokumente auf Mobilgeräten überprüfen müssen, ist eine Konvertierung in HTML praktisch.

💬 War dieses Tool hilfreich?

Senden Sie uns jederzeit gerne Ihr Feedback oder Ihre Vorschläge!

Datenschutz

Alle Extraktionen werden lokal in Ihrem Browser durchgeführt. Ihre hochgeladenen Dateien werden nicht auf unseren Servern gespeichert oder verarbeitet.