L’Epub, le futur parfait de PDF

Un peu d’histoire

Depuis plus de 30 ans, le format PDF s’est intégré dans nos vies numériques. Ce fut, effectivement, au début des années 90 un format « magique » qui permettait de partager des documents d’une machine à une autre, Quel que soit le système d’exploitation. En complément, le PDF était nativement difficile à modifier.

Cette situation, cette habitude, s’est muée en légende numérique. Le PDF devient incontournable, il est le seul format d’échange qui protège les documents de toute modification. La perfection faite échange documentaire.

Seulement voilà, ce conte de fées n’en est pas un. PDF, n’est pas tout à fait ce que l’on pense qu’il est. La belle histoire marketing à quelques revers assez désagréables.
Il est nécessaire de rappeler que PDF est le descendant de Post-script. Un format descriptif à destination des imprimantes. Et, c’est exactement ce qu’est PDF, en plus léger, plus contemporain (en regard des années 90). Ainsi, son gros défaut est qu’il ne porte nativement, absolument, aucune information de structure ou de sémantique du contenu qu’il propose.

Quelques croyances

Côté pseudo-sécurité, le PDF ne garanti rien. Je trouve toujours amusant l’énoncé que l’usage du format PDF garanti la non-modification du document, surtout pour des documents commerciaux.

Légende. Un PDF est depuis longtemps aussi facile à modifier que tout autre format numérique. Vous souhaitez protéger un document, signez-le.

La versatilité du PDF et devenu un non-argument puisque l’interopérabilité (Linux, macOS, Android, MS-Windows) des fichiers ou contenus est une réalité opérationnelle depuis des années.
Donc, quel est l’intérêt d’utiliser le format PDF ? Aucun.

À part peut-être de considérer que nous avons un format unique auto-porteur pour tous nos échanges. Soit, mais PDF porte un très gros problème :
le PDF ne prend pas en compte (et ne permettra jamais) de respecter les normes d’accessibilité. Même en investissant un effort démesuré, en respectant à la lettre tous les conseils, toutes les procédures afin de structurer et de retoucher les documents, il continuera à échouer aux vérifications et restera un vrai point noir pour les utilisateurs.

Mais alors, que faire ?!

Des besoins simples et une solution évidente

Résumons nos besoins.

Avoir un document qui permette le respect des normes d’accessibilité
Avoir un document auto-porteur consultable sur tous les systèmes avec des liseuses gratuites.
Avoir un format qui permette une génération à partir d’outils bureautiques ou de documents structurés existants.
Être un format « sémantique et structuré ».
Permettre une édition et création avec des outils librement accessibles.

Il existe une solution souple, élégante et immédiate : le format EPUB. Oui, celui utilisé par les livres électroniques. Ce format est une forme d’évidence, de couteau suisse du format d’échange et de la lecture de contenus.
D’un point de vue fonctionnel, c’est une réponse complète :

Le document est auto-porteur et peut être lu hors ligne Sur n’importe quelle machine, système d’exploitation ou même en ligne.
Sa génération est évidente à partir d’une page HTML, d’un contenu bureautique et de fait à partir de n’importe quel type de contenu.
Le respect de l’accessibilité numérique est natif, le respect de la norme dépend essentiellement de la qualité du document et du contenu. Pas besoin de post-production lourde et répétitive.

C’est quoi un EPUB ?

Mais à quoi ressemble techniquement le format EPUB ?

C’est une simple archive compressée, un simple fichier ZIP. Prenez un de vos EPUB, changez l’extension en .zip et voilà, vous pouvez explorer (et même continuer à lire le contenu).
Dans ce dossier EPUB, vous trouvez exactement la même chose que pour ne page HTML.
La dernière version d’EPUB (V3) est basée sur HTML5.
Je reviendrai dans la note complémentaire sur la structure interne d’un EPUB, vous verrez, c’est super simple.

Donc, puisque l’EPUB est en fait du HTML, toutes les attentes, règles et bonnes pratiques web / HTML liées à l’accessibilité numérique s’appliquent simplement (y compris les outils de vérification du respect des normes).
Ainsi, à partir d’un document HTML conforme au RGAA, RaWeb, WCAG ou EN-301-549 ou d’un document bureautique accessible, vous obtenez – sans actions de mise en conformité – un document EPUB accessible. Victoire !

L’EPUB, ça marche vraiment, c’est aussi fiable que le PDF. Oui, sur toutes les machines, systèmes d’exploitation ou liseuses, le résultat reste le même. Les CSS font leur travail et la mise en page / forme est respectée.

S’il doit y avoir une ombre au tableau, c’est parfois la piètre qualité de certains lecteurs dans l’affichage de documents au format EPUB V3.

Quelques points bonus :

Puisque — de fait — le format EPUB est sémantique et structuré, la création automatique d’une table des matières est un jeu d’enfant.
Puisque le socle et HTML5, CSS et JavaScript. Il en est normal d’avoir des animations, des contenus multimédia dans les documents (et accessible en plus).
L’utilisation et l’envoi de formulaires sont tout aussi évidents.

Le format est géré depuis 2017 par le W3C.

Bref, pas besoin de chercher plus loin, la solution accessible de partage de contenus, documents est là, disponible et gratuite, sans besoin d’une licence Adobe pour tenter de faire croire à l’accessibilité des documents.
Il suffit simplement de changer, d’accepter de changer d’habitude.

Simple finalement.

Besoin d’exemples concrets ?

Le premier cas d’usage que j’ai pu tester est la chaine de production de documents contractuels pour un assureur. Des milliers de documents PDF à mettre en conformité et en production avec une dette d’accessibilité qui augmente tous les jours.
Cette chaine de production possède un gros avantage, les PDF sont créés à partir de contenus HTML édités dans le CMS de l’assureur. Les contenus sont produits à partir de modèles spécifiques qui donnent des contenus HTML transformés en PDF. Brancher une seconde sortie au format EPUB est une évidence. Les premiers tests bruts ont validé cette évidence. Les seules non-conformités au RGAA sont le fruit de quelques maladresses ou mauvaises habitudes de rédaction (couleurs, listes graphiques et non techniques, structure des tableaux de données). Rien de compliqué à résoudre de manière globale.
Au niveau technique, il est important de prendre en compte les spécificités des EPUB dans l’imbrication XML + HTML5 (c’est surprenant, mais cela ne demande qu’un traitement simple et cohérent de transformation automatique de balises HTML).
Ainsi, sans changer le processus de production des documents, ni les outils pour les rédacteurs, le résultat permet de simplement être conforme.
Le second cas d’usage est la sauvegarde ou pseudo-impression de contenus d’un site Web.
J’ai réalisé les premiers tests à partir du site de démo d’Access-Score (https://demos.access-score.org).
Super simple, il suffit de reprendre le conteur HTML généré et d’en faire un EPUB. Cela m’a permis de découvrir quelques points d’attention en regard des ressources (SVG, typographies, CSS) utilisées dans une page lors de la transformation. Il faut simplement être vigilant à ne rien laisser en route. Rien de bien méchant. Le résultat est une génération à la volée de contenus au format EPUB accessibles.
Le troisième cas concerne la génération d’EPUB à partir de documents bureautiques.
Différents tests ont été effectués :
1. À partir de Libre Office. Un simple export au format EPUB suffit.
2. À partir de MS-Word, pas de solution native, mais le module WordtoEpub (https://daisy.org/activities/software/wordtoepub/) du consortium Daisy semble bien fonctionner
  Pour les présentations au format MS-PowerPoint, il faudra passer par un convertisseur en ligne
3. À partir de la suite Google doc, il est possible d’exporter au format EPUB (attention à la couleur de fond du document).

Mais n’oubliez pas, vous pouvez également (et c’est sans doute mieux) diffuser directement les formats bureautiques natifs (après avoir vérifié leur accessibilité). C’est plus simple et efficace.

L’EPUB est bien le futur parfait du PDF

La conclusion est sans appel : le format EPUB peut et doit remplacer de PDF dans délai !

L’utilisation du format EPUB ne demande pas de « contrarier » tous ceux qui ne pensent encore que par le PDF, les 2 formats peuvent parfaitement coexister, mais au moins avec l’EPUB, nous arrêtons d’exclure.

N’oubliez pas non plus de fournir des liens est des ressources afin de pouvoir lire les EPUB, si beaucoup connaissent les liseuses, encore trop peu utilisent les lecteurs sur leurs machines.

Rappelons qu’au début de l’utilisation de masse de PDF, il a fallu expliquer.

Notes

Note 1 : quelques ressources

Les liseuses epub

L’extension ePUB Reader à ma préférence.

Extensions navigateur

Firefox
- ePUB Reader
- Epubespiar
Chrome
- ePUB Reader
- Epubespiar

En ligne

Pour Linux

Pour MacOS

Pour Windows

Quelques ressources et outils d’aide à la vérification de l’accessibilité

Note 2 : pour les plus curieux, la structure technique d’un epub

Comme mentionné précédemment, le format EPUB est en fait une archive au format ZIP qui contient un certain nombre de dossiers et de fichiers, dont certains sont obligatoires. La structure de base est :
[racine]
mimetype
[META_INF]
container.xml
[contenu]
content.opf
contenu.html
toc.html
[css]
…
[pic]
…
etc.
Quelques petites explications.

mimetype (obligatoire) est la « preuve » qu’il s’agit bien d’un fichier EPUB, il doit etre (au sens littéral) le premier fichier de l’archive.
container.xml (obligatoire) se contente d’indiquer quel est et où se situe le fichier « chef d’orchestre » de l’EPUB, le fichier content.opf.
content.opf (obligatoire), la tour de contrôle, on y trouve :
- les métadonnées (en quantité) ;
- le manifest, la liste des ressources que l’EPUB va contenir ;
- spine, la colonne vertébrale qui indique les fichiers de contenus et leur ordre.
Les autres fichiers et dossiers sont les contenus et ressources de votre EPUB, de manière équivalente à une page HTML.

C’est donc très simple, des fichiers de définition et le contenu.

Note 3 : pour les plus techniques, le processus global de production d’un EPUB à la volée.

Que les non techniciens se rassurent la création d’un epub à partir de MS-Word ou Libre Office se fait en un clic à partir d’un menu.
Pour les autres…

Ce processus doit prendre en compte un élément fondamental, le fichier mimetype doit absolument être le premier fichier de l’archive EPUB. J’ai pris l’habitude de crér l’EPUB avec uniquement le fichier mimetype j’y ajoute les autres dossiers / fichiers.

Dans le cas de la génération à la volée de l’EPUB sur le site demos.access-score, la équence de fabrication des EPUB est la suivante :

Récupérer l’ID de l’article ;
Créer le répertoire de l’EPUB ;
Créer le répertoire ID/META-INF/ ;
Créer le répertoire ID/contenu/ ;
Poser le fichier mimetype ;
Poser le fichier META-INF/container.xml ;
Créer le contenu ID/contenu/images/ ;
Créer le fichier ID/contenu/content.opf ;
Lister les fichiers CSS nécessaires au contenu ;
Lister es fichiers ressources nécessaire à partir du code HTML (et des CSS !) ;
Mettre à jour le fichier opf ;
Créer le répertoire ID/contenu/css/ ;
Copier les CSS dans ID/contenu/css/ ;
Créer le fichier ID/contenu/contenu.html (à partir des éléments structurels / sémaniques) de contenu de la page candidate ;
Zipper (“demo-Access-Score_p”+ID+“.epub”) avec uniquement mimetype ==> zip -0X …/ps8.epub mimetype ;
Zipper le reste ==> zip -9 -r …/ps8.epub META-INF/ contenu/
Vérifier validité du résultat !

Pour alléger le processus, j’utilise une série de fichier gabarit pour mimetype, container.xml et le .opf.

Voilà, c’est fini.

lhorens-marie.fr