Linux : convertir un document HTML en texte pour le Cybook Gen3

Le Cybook Gen3 est un lecteur de livres électroniques assez agréable à utiliser, mais qui, parfois, s’étouffe sur certains documents HTML (ou les affiche d’une manière peu satisfaisante).

Le mieux est alors de les convertir en texte pur.

Les fichiers textes du Cybook Gen3 doivent respecter le format suivant :

  • Le texte doit être codé en ASCII, latin 1 ou latin 9.
  • Les paragraphes ne doivent comporter aucun saut de ligne.

Conversion du HTML en texte (en évitant au maximum de couper les paragraphes) :

elinks --dump -dump-width 65535 -no-references -no-numbering document.html > document.txt

Éventuellement, conversion en latin 9 (pour une page Unicode codée en UTF-8) :

recode u8..l9 document.txt