Re: Änderung des Encoding

Thomas Hafner thomas at hafner.NL.EU.ORG
Mon Jan 15 23:17:32 GMT 2007


"Hannes H." <dubaut at gmail.com> wrote/schrieb <b9d722600701151430v4116d2ceke03cc740333020dc at mail.gmail.com>:

> Es handelt es sich um eine HTML-Datei mit deutschen Umlauten und
> Sonderzeichen, erstellt mit der deutschen Version von Drewamwaver
> unter Mac OS X.

In meiner E-Mail an Dich habe ich das vorgeschlagen:
  recode h4..u8 <input.html >output.txt

Aber vielleicht willst Du nicht nur die nicht-ASCII-Zeichen in UTF-8
umwandeln, sondern gleichzeitig den ganzen HTML-Markup loswerden?
Dann wäre das besser:
  export LANG=de_DE.UTF-8
  w3m -dump -T text/html <input.html >output.txt

w3m ist aus dem gleichnamigen Paket.

Gruß
  Thomas