Re: Änderung des Encoding
Thomas Hafner
thomas at hafner.NL.EU.ORG
Mon Jan 15 23:17:32 GMT 2007
"Hannes H." <dubaut at gmail.com> wrote/schrieb <b9d722600701151430v4116d2ceke03cc740333020dc at mail.gmail.com>:
> Es handelt es sich um eine HTML-Datei mit deutschen Umlauten und
> Sonderzeichen, erstellt mit der deutschen Version von Drewamwaver
> unter Mac OS X.
In meiner E-Mail an Dich habe ich das vorgeschlagen:
recode h4..u8 <input.html >output.txt
Aber vielleicht willst Du nicht nur die nicht-ASCII-Zeichen in UTF-8
umwandeln, sondern gleichzeitig den ganzen HTML-Markup loswerden?
Dann wäre das besser:
export LANG=de_DE.UTF-8
w3m -dump -T text/html <input.html >output.txt
w3m ist aus dem gleichnamigen Paket.
Gruß
Thomas