Sur les optimisations possibles
La section sur la normalisation de HTML traite également des
optimisations possibles.
Voir ici.
nous nous posons la question suivante : faut-il que le programme
optimise la séquence suivante : "<b> </b>" où les deux balises peuvent
être supprimées puisqu'un espace n'est jamais gras ? Dans ce cas, cela
veut dire qu'il faut traiter différemment le caractère espace et les
autres caractères ("<b>a</b>" ne doit pas être modifié), ce qui nous
paraît compliqué.
C'est valide à priori est c'est une bonne idée,
tant que le rendu de l'espace ne dépend pas du style...
(Attention avec <TT> </TT>
ou avec les changements de taille.)
Notez que votre idée s'applique à
tous les blancs, y compris les sauts de ligne.
C'est effectivement compliqué à mettre en oeuvre de la façon la
plus générale possible, sans analyse
syntaxique. Mais une mise en
oeuvre partielle de l'idée par changement local des lexèmes
est très faisable.