html2pdbtxt(1) | html2pdbtxt(1) |
html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots
html2pdbtxt [ -bZeichen ] [
-tTitel ] [ -uURL ] Datei.htm [
Datei.txt ]
html2pdbtxt -v
html2pdbtxt wandelt HTML- in Textdateien um, die für eine weitere Umwandlung in eine Doc(4)-Datei mittels txt2pdbdoc(1) geeignet sind. Wenn kein Dateiname für die Textdatei angegeben wird, erfolgt die Ausgabe des Textes auf die Standardausgabe.
Folgende HTML-Tags (und die entsprechenden End-Tags) werden erkannt: ADDRESS, A NAME, BLOCKQUOTE, BR, CENTER, DIV, DL, DT, H1, H2, H3, H4, H5, H6, OL, OPTION, PRE, P, SELECT, SCRIPT, STYLE, TABLE, TITLE, UL. Es wird versucht, die Attribute so gut wie möglich in die Vorgaben des Doc(4)-Formats umzusetzen, das im wesentlichen Klartext ist. Der Text des ALT-Attributs (meist in IMG-Tags) wird zwischen Klammern in den Text eingebettet. [so z. B.]. Alle anderen HTML-Tags werden entfernt.
Umschreibungen für HTML-Zeichen und numerische Zeichen (dezimal und hexadezimal) werden in ihren Wert im Zeichensatz ISO 8859-1 (Latin 1) umgewandelt, damit sie korrekt im Pilot erscheinen. Zum Beispiel: aus ``résumé'' wird ``resume'' mit einem betonten 'e'.
Wenn nicht schon mit der Option -t angegeben, wird die HTML-Datei nach den Tags <TITLE> und </TITLE> durchsucht und, wenn gefunden, wird der Titel in die erste Zeile des erzeugten Textes gesetzt.
Lesezeichen werden in den erzeugten Text immer dort eingesetzt, wo ein <A NAME="..."> Tag in der HTML-Datei gefunden wurde.
Umwandlung einer HTML-Datei in Doc:
html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt txt2pdbdoc "`head -1 alice.txt`" alice.txt alice.pdb
pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)
International Standards Organization. ``ISO 8859-1: Information Processing -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1.'' 1987.
World Wide Web Consortium. ``Character entity references in HTML 4.0.'' HTML 4.0 Specification, http://www.w3.org/
Paul J. Lucas <pauljlucas@mac.com>
Deutsche Übersetzung: Erik Schanze <eriks@debian.org>
06. August 2005 | html2pdbtxt |