[Mini-FAQ] Le HTML dans les news

julienl+faq@teaser.fr (Julien Lenglet)


Archive-Name: fr/minis-faqs/html-dans-les-news

Bonjour,

Cette FAQ a été rédigée par Émilie Danna et est désormais mise à 
jour par votre serviteur, Julien Lenglet (julienl+faq@teaser.fr).
Pour tout commentaire ou pour signaler une erreur, une coquille,
etc, n'hésitez pas à contacter le mainteneur.

Sommaire

1. Situation actuelle : pas de HTML sur Usenet
2. Les inconvénients du HTML
        2.1. Trois fois plus à transporter et à stocker
        2.2. L'augmentation de la capacité des disques durs, de la
             rapidité des liaisons et du trafic
3. Les avantages supposés du HTML
        3.1. Lisibilité
        3.2. Les caractères non-latins, les formules mathématiques et
             les images
4. Les autres formats
5. Remerciements



1. Situation actuelle : pas de HTML sur Usenet

Le HTML est prohibé dans toutes les chartes des groupes de la
hiérarchie fr. Il est également fortement déconseillé dans tous les
groupes du Big 8 (comp, humanities, misc, news, rec, sci, soc, talk)
ainsi que dans les groupes non-binaires de alt.* et toutes les autres
hiérarchies régionales à ma connaissance. Autrement dit, l'usage du
HTML est autorisé, à ma connaissance, uniquement dans les
pseudo-groupes du pseudo-réseau Niouzenet et dans la hiérarchie
microsoft.*.

Plus efficacement, sur la plupart des serveurs de nouvelles
administrés, tous les articles en HTML ou avec une partie texte et une
partie HTML (multipart/alternative ou multipart/mixed) sont
automatiquement filtrés, c'est-à-dire qu'ils n'apparaissent pas sur le
serveur où le filtre adéquat est en place, mais continuent de se
propager sur les serveurs qui ne filtrent pas. Concrètement, cela
signifie que vos articles ne passent pas sur de nombreux serveurs.

Ce filtrage est possible grâce à cleanfeed, utilisé majoritairement
avec le serveur INN, avec les variables block_html, block_mime_html et
html_allowed.

<URL:http://www.exit109.com/~jeremy/news/cleanfeed.html>

Ce filtrage est également intégré au serveur DNews:
Dans newsfeeds.conf, mettre dans la section qui concerne le "me" du
feed:

reject article "\ncontent-type: text/html"
reject article "\nContent-Type: multipart/alternative"

Empiriquement, on constate que

reject body "\ncontent-type: text/html"
reject article_header "\ncontent-type: text/html"

est plus efficace.


De plus, tous les lecteurs de nouvelles ne lisent pas le HTML.

Lecteurs qui peuvent afficher directement du HTML: Netscape, Outlook
Express, trn4 (en texte)

Lecteurs qui ne peuvent pas afficher directement du HTML: Gnus, Free
Agent, Agent, slrn, ...

2. Les inconvénients du HTML

2.1. Trois fois plus à transporter et à stocker

Les articles en HTML prennent en moyenne environ 3 fois plus de place
que les mêmes articles en texte brut seulement. 

En effet, comme une grande partie des lecteurs de nouvelles ne peuvent
pas afficher le HTML, il faut doubler la contribution en HTML de son
équivalent en texte brut. On obtient ainsi des articles de la
composition suivante:

Dans les en-têtes de l'article:

        MIME-Version: 1.0
        Content-Type: multipart/alternative;
boundary="----=_tralalalalala"

Et dans le corps de l'article:

        Message en plusieurs parties et au format MIME.

        ----=_tralalalalala
        Content-Type: text/plain; charset="iso-8859-1"
        Content-Transfer-Encoding: quoted-printable

        <ici le texte brut>

        ----=_tralalalalala
        Content-Type: text/html; charset="iso-8859-1"
        Content-Transfer-Encoding: quoted-printable

        <ici le même texte en HTML, docn avec des balises en plus>

        ----=_tralalalalala--

Comme le texte en HTML prend, à cause des balises approximativement
deux fois plus de place que la même contribution en texte brut, on
obtient en définitive un article 3 fois plus gros.

Ce rapport de 3 à 1 est naturellement une moyenne. Pour un article
court à la mise en page surchargée, il est plus élevé; pour un article
long de type FAQ où seuls les titres des paragraphes sont mis en
valeur, il est moindre.

De plus, l'encodage utilisé par défaut par de tels articles, le
quoted-printable (QP), est lui aussi déconseillé et mal décodé par de
quelques logiciels de lecture de news.


2.2. L'augmentation de la capacité des disques durs, de la rapidité
     des liaisons et du trafic

Certes la capacité des disques durs a fortement augmenté, la bande
passante aussi et les modems sont plus rapides, mais:

- Le trafic a aussi augmenté, et ce continûment et beaucoup plus vite
  que la rapidité des modems ou la capacité des disques durs. Personne
  n'est disposé à augmenter sa facture téléphonique ou à saturer sa LS
  ou à acheter continuellement des disques durs de qualité pour le
  serveur de news dont il est responsable et pour lequel son budget
  est en général réduit. Cette augmentation du trafic a fait
  disparaître les "vrais" feeds complets qui demandent trop de
  ressources (en décembre 1998: environ 23 Go par jour pour un feed
  complet, 14 Mo par jour pour fr). Pour avoir une idée plus précise,
  je cherche des chiffres (réels, pas de prévision) sur au moins
  quelques mois pour la taille d'un feed (nombre de Mo par jour), mais
  uniquement pour des hiérarchies "texte", par exemple le Big 8 ou fr,
  ou même alt sans les binaires.

- À la limite, l'augmentation de ressources nécessaire à la
  propagation du HTML serait acceptable si le HTML apportait
  réellement quelque chose à Usenet, ce qui est faux, comme nous
  allons le voir maintenant.


3. Les avantages supposés du HTML

3.1. Lisibilité

Le HTML permet de "mettre en page" le texte, c'est-à-dire de changer
la police, la taille, la couleur du texte, la texture du fond, etc. 
Cette possibilité devrait augmenter la libilité des articles,
cependant:

- Le HTML ne permet pas d'entrelacer les citations proprement: il est
  incapable de montrer correctement qu'un texte est cité et qu'à
  l'intérieur de ce texte cité, un autre texte est cité, etc. Il ne
  dispose donc pas d'une fonction essentielle à Usenet où le plus
  important pour augmenter la lisibilité est de montrer clairement, par
  des couleurs différentes par exemple, qui a écrit quel texte et par
  qui il est cité.

- De nombreux lecteurs de nouvelles permettent déjà de distinguer par
  des couleurs distinctes les différentes citations, en mettant dans
  la même couleur le texte écrit et la ligne d'attribution de ce même
  texte, c'est-à-dire la ligne du type « Le 2 Feb 1998, Marcel Dugenou
  écrivait: ». Il serait maldroit de critiquer un format (le texte
  brut) alors que le responsable de tous vos malheurs est en fait le
  logiciel qui exploite mal ce format (par exemple Outlook Express).  

- Les couleurs choisies par les intervenants ne sont pas toujours du
  meilleur goût et diminuent parfois la lisibilité. Un texte vert sur
  un fond rouge est illisible. La balise <BLINK> a déjà fait des
  ravages sur le web, inutile de la transposer sur Usenet. 
  Au contraire, chacun peut configurer son lecteur de nouvelles pour
  que les couleurs, la taille de la police, ..., correspondent le
  mieux à son confort personnel.

- Le HTML n'est pas fait pour la mise en page d'un document mais pour
  sa structuration. Utiliser le HTML dans les news pour faire
  clignoter FREE en 3D et en rose fluo n'est pas une utilisation
  canonique du HTML.
  Donc, le HTML n'est pas adapté à Usenet où les articles sont en
  général courts et peu structurés. La seule utilité serait de
  faciliter la lecture des FAQ et autres documents de référence dont
  la lecture en texte brut peut être fastidieuse. Mais, c'est bien
  connu, personne ne lit les FAQ (sauf accidentellement leurs
  valeureux auteurs). De plus, les FAQ sont en général automatiquement
  archivées en HTML. Pour la hiérarchie fr, elles sont disponibles
  sous ce format à <URL:http://www.usenet-fr.news.eu.org/>

- Certains lecteurs de news comprennent déjà un formatage basique
  du texte:
        /blabla/ pour l'italique
        *blabla* pour le gras
        _blabla_ pour souligner

- Le « problème » des lignes coupées: le HTML a autant de problèmes
  avec les lignes trop longues que tout système utilisant du texte
  brut pour décrire des paragraphes. Ce n'est pas apparent parce que
  les navigateurs formatent à la volée le texte pour que les lignes
  occupent toute la largeur de l'écran ou de la fenêtre. Or, non
  seulement il est plus efficace en termes de temps de calcul que
  celui qui émet le message le formate bien plutôt que chacun des
  lecteurs aient à le reformater. Mais, de plus, avec la marge de
  sécurité des 72 caractères maximum par ligne (ce qui autorise 4
  niveaux de citation qui ajoutent chacun deux caractères en début de
  ligne: "> "), il n'y a pratiquement aucun problème avec tous les
  lecteurs de nouvelles, même ceux se contentant d'afficher simplement
  le texte de 80 colonnes sans le reformater pour le bien-être de
  l'utilisateur. Des problèmes ne se rencontrent qu'avec Outlook
  Express qui est notoirement incapable de citer le message d'un autre
  sans le rendre illisible (alternance de lignes de différentes
  longueurs, précédées ou non de caractères de citation).

- Pour augmenter la qualité du message, il est d'abord nécessaire de
  soigner l'orthographe et la grammaire, la ponctuation, la bonne
  structuration des idées, la concision, etc.  L'expérience montre que
  le soin apporté à ces différents points est plus efficace en terme
  de clarté et de lisibilité du discours, que l'utilisation de
  couleurs ou fontes particulières. Il suffit d'examiner n'importe
  quel livre pour s'en convaincre.

3.2. Les caractères non-latins, les formules mathématiques et les images

- Pour les caractères non-latins (grecs, chinois, japonais, ...), le
  HTML est inutile, il suffit d'avoir les bonnes en-têtes:

        Mime-Version: 1.0
        Content-Type: text/plain; charset=iso-qui-va-bien
        Content-Transfer-Encoding: 8bit

- Le HTML n'est pas adapté pour transmettre les formules
  mathématiques. MathML est encore très peu utilisé, donc il ne reste
  que les images (voir le dernier paragraphe). Lire les conseils
  publiés régulièrement sur fr.sci.maths pour écrire le mieux possible
  les formules mathématiques.

- Le HTML n'est pas non plus adapté pour transporter les images. En
  effet, tous les binaires sont interdits sur fr, filtrés de la même
  façon que le HTML et annulés par un robot.
  Pour montrer une image, il suffit de donner un lien vers un site web
  ou ftp où l'on aura stocké cette image.
  Pour des schémas, d'électronique par exemple, il existe des
  programmes transformant des images en « art ASCII », c'est à dire en
  les représentant à l'aide des caractères ASCII.

4. Les autres formats et les autres médias

4.1. Les autres formats

- D'après ce qui précède, l'idéal serait un formatage basique du texte
  pour mettre en gras, en italique et souligner. Ce format existe:
  c'est le texte/enriched décrit dans la RFC 1896.

- D'autres expériences ont été menées pour transporter les
  caractéristiques de la mise en page séparément du texte auquel elle
  s'applique. Lire <URL:http://www.templetons.com/brad/oob.txt>
  Un système similaire (proletext) et du même auteur est utilisé dans la
  hiérarchie clari.*

- XML/CSS est très à la mode en ce moment et c'est un format qui
  semble intelligent. Cependant, il présente les mêmes inconvénients
  que le HTML, en particulier en ce qui concerne la taille des
  messages (les définitions des styles et les tags prenant plus de
  place que le contenu du message).

4.2. Les autres médias

Tous les arguments exposés ci-dessus s'appliquent aussi au mail à la
nuance près que le mail (hors liste de diffusion) est un média privé
qui ne concerne que les correspondants qui peuvent donc trouver un
format commun autre que le texte/brut. Ce qui n'exclut pas qu'il est
inconvenant d'envoyer un mail en HTML sans s'enquérir d'abord si son
correspondant veut et peut le lire.

5. Remerciements

Merci à...

- tous les intervenants de fr.usenet.* et fr.comp.mail qui ont exposé
  les arguments qui se trouvent dans cette FAQ
- tous les relecteurs: Pascal Petit, Éric Demeester, Thomas Parmelan,
  Michel Guillou, Sylviane Jacquemin, Christian Perrier, Cédric Beust
- tous les intervenants de fr.* qui liront cette FAQ au lieu de
  débattre encore une fois de ce sujet sur les groupes que je lis.



Valid XHTML 1.0! [Retour au sommaire] Valid CSS!

Traduit en HTML par faq2html.pl le Wed Nov 3 05:42:13 2010 pour le site Web Usenet-FR.