Déb/u/o/gue tes humanités
Saison 04

Les formats

Formateur·trice·s :
Louis-Olivier Brassard, Giulia Ferretti
Lieu :
Bibliothèque des lettres et sciences humaines, local 3091
Date et heure :
(13h-15h)
Lien de la visioconférence :
https://meet.jit.si/DebogueHumanitesCRCEN-BLSH
Impression (bêta) :
Version imprimable
Support de présentation (cliquez pour ouvrir en grand ↗)

Sommaire

# Plan de la séance

  1. Qu’est-ce qu’un format ?
  2. Quelles sont ses implications techniques et politiques ?
  3. En pratique ! Exercices d’encodage

# 1. Les formats

# 1. Les formats

# 1.1. Qu’est-ce que un format ? – les origines du terme

Les formats de papier pour l’imprimé, première apparition technique du terme ?

Le terme format est un terme technique, son usage permet de délimiter les caractéristiques d’un objet : avec le format nous donnons un certain nombre de données, d’instructions, ou de règles. Pourquoi définir tout cela ? L’objectif est de constituer une série d’informations compréhensible, utilisable et communicable.

Pour prendre un exemple concret du côté du livre, l’impression d’un document nécessite de s’accorder sur un format de papier. Les largeurs, longueurs et orientation sont normalisées, des standards sont établis, ils permettent alors de concevoir des imprimantes qui peuvent gérer des types définis de papier.

Sans des formats de papier il est difficile de créer des machines adéquates, comme des presses à imprimer ou des imprimantes. L’usage du format dans l’imprimerie est sans doute la première apparition de ce terme technique. Cependant, il est intéressant de noter que le format est ainsi d’abord attaché au livre et à sa fabrication.

Notons également que des outils ou des processus sont associés au concept de format : les instructions sont définies pour qu’une action soit réalisée par un agent – humain, analogique, mécanique, numérique.

Le concept de format è étroitement lié avec le concept de média : les médias supportent des formats spécifiques (par exemple, un lecteur MP3 lit uniquement les informations sonores au format MP3). L’existence des médias dépend de l’existence des formats.

# 1. Les formats

# 1.2. Et les formats informatiques ?

Une façon particulière d’organiser et structurer des données dans un fichier.

En informatique, au niveau le plus fondamental, tout est exprimé dans un alphabet numérique binaire : 0 et 1. Un format, c’est une convention qui établit la correspondance entre une certaine succession de 0 et de 1, et quelque chose d’autre : par exemple une couleur, ou une lettre de l’alphabet, ou la position d’un pixel sur un écran. L’expression « format texte » désigne une catégorie de formats pour lesquels le contenu en binaire des fichiers encode des caractères textuels uniquement.

— Arthur Perret, 2021

Un fichier (vidéo, image ou texte) peut être produit, transmis ou lu par l’ordinateur en raison du fait qu’il est encodé dans un format numérique.

Un format informatique est le lien entre l’infrastructure et l’agent (humain ou programme) qui utilise cette infrastructure.

Le choix des formats informatiques détermine la manière dont les informations sont créés, stockées, envoyées, reçues, interprétées, affichées. Aujourd’hui les formats prennent une place importante dans notre environnement, et leur incidence dépasse le domaine de l’informatique, leur étude a pourtant été longtemps délaissée dans le champ des médias.

Exemple du format DOC ou .doc : le logiciel Microsoft Word ne peut pas lire n’importe quel format informatique, les données doivent être structurées d’une façon précise pour que le logiciel puisse les interpréter, et ensuite les modifier, et enfin produire une nouvelle version du fichier. Ici le format DOC a été créé pour les besoins d’un logiciel spécifique.

Dans cet exemple c’est le format informatique qui est le résultat du logiciel, mais d’autres fonctionnement sont possibles. Par ailleurs, le format DOC est longtemps resté propriétaire (jusqu’à l’arrivée du format DOCX), ses spécifications n’étaient pas publiques et des brevets empêchaient toute initiative de développement d’un logiciel autre que Word capable de lire ou de modifier des fichiers .doc.

# 2. Implications technique et politiques

# 2. Implications technique et politiques

# 2.1. L’interopérabilité

Transmission d’informations entre machines

L’interopérabilité est un principe qui permet à plusieurs machines de dialoguer :

# 2. Implications technique et politiques

# 2.2. Format ouvert ou fermé ?

Standards et licences.

# 3. PDF, DOCX, XML, MD, HTML de plus près

Standards et licences.

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.1. PDF

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.2. DOCX

Un document de traitement de texte au format Microsoft Word, dans lequel il n’y a d’écrit que «  Bonjour  ».

Aperçu des fichiers produits par l’écriture de «  Bonjour!  » et l’insertion d’une image dans un document Microsoft Word DOCX.

Un paquet DOCX contient habituellement ces dossiers, ainsi que de nombreux fichiers :

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.3. XML

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.5. HTML

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.6. La structure d’un fichier HTML

<!doctype html>
 <html>
  <head>
    <meta charset="utf-8">
    <title>Titre dans l'onglet</title>
  </head>
  <body>
    <h1>Titre</h1>
    <p>Ceci contient un paragraphe.</p>
  </body>
</html>

Pour consulter le html des pages web : view-source: + lien.

Par exemple, pour consulter le code source de l’article Sens Public dans le navigateur : view-source: + https://www.sens-public.org/articles/1600/

Quelques balises html : voir ICI

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.4. Markdown

Markdown permet de baliser :

# 3. PDF, DOCX, XML, MD, HTML de plus près

# 3.5. Exercice avec Markdown

Baliser le texte d’un article avec du markdown

Lien vers l’article

Lien vers le texte brut à baliser

Identifier

# 4. Conversion entre formats

# 4. Conversion entre formats

# 4.1. La conversion

Pour les formats textuels, la conversion consiste en la transformation de balises (plus légères) en d’autres balises (plus verbeuses).

En entrée :

En sortie :

La conversion est un processus qui prendre un certain nombre de données en compte, et pas uniquement le texte balisé.

# 4. Conversion entre formats

# 4.2. Conversion entre formats

Des logiciels permettent de passer aisément d’un format à un autre, comme Pandoc :

# 4. Conversion entre formats

# 4.3. Fonctionnement de Pandoc

Pandoc fonctionne en ligne de commande, avec un schéma classique d’options.

En rappel : en ligne de commande, on commence toujours par appeler un programme (ici, pandoc), en lui fournissant une séquence d’arguments (comme un fichier source à convertir) et d’options (gestion du format, recours à un modèle, etc.).

<programme> <fichier.entrée> (optionnel: <fichier.sortie>, <drapeau>, etc.)

# 4. Conversion entre formats

# 4.4. Pandoc – Exemples

Conversion d’un fichier source au format markdown. Notez que le format de sortie n’a pas été précisé : par défaut, Pandoc répondra au format HTML, directement dans la console, sans enregistrer la réponse dans un fichier. Essayez pour voir ce que ça donne !

#!/bin/bash

pandoc mon-fichier.md

# ...

Production d’un fichier HTML. Le prochain exemple crée un fichier html, nommé mon-fichier.html (à partir du fichier source mon-fichier.md). On y fournit également les «  drapeaux  » (ou options) de ligne de commande permettant d’expliciter le format d’entrée (--from, ou -f pour faire court) :

#!/bin/bash
# Note: les barres obliques inversées permettes de poursuivre l'écriture
# de la commande sur une ligne séparée.

pandoc \
  --from markdown \
  --to html \
  mon-fichier.md \
  --output mon-fichier.html`

# => "mon-fichier.html" sera produit !

Utilisation d’un modèle. La troisième commande applique un modèle ou gabarit (en anglais : template), permettant ainsi de prérégler le rendu du document. On gagnera ainsi du temps en réutilisant un modèle fréquemment utilisé. Ici, on suppose l’existence du fichier mon-modele.html, appelé avec l’option --template de Pandoc :

#!/bin/bash
# Note: les barres obliques inversées permettes de poursuivre l'écriture
# de la commande sur une ligne séparée.

pandoc \
  --from markdown \
  --to html \
  --template mon-modele.html \
  mon-fichier.md \
  --output mon-fichier.html

# => "mon-fichier.html" sera produit !

# 5. Pandoc en pratique

# 5. Pandoc en pratique

# 5.1. Installer Pandoc

# 5. Pandoc en pratique

# 5.2. Installation – Deuxième étape

Pour installer Pandoc, suivez les instructions sur cette page : https://docs.zettlr.com/fr/installing-pandoc/

# 6. Exercice

# 6. Exercice

# 6.1. Ajouter des métadonnées

Pour ajouter des métadonnées, on débutera l’écriture du document markdown avec un bloc au format YAML, délimité par les triplets suivants --- :

1
2
3
4
5
6
---
titre: Le titre de mon document
auteur: Mon Nom
---

<!-- Le corps du document ira ici -->

Essayez de convertir votre fichier markdown en HTML, puis en DOCX.
(Indice : manuel d’utilisateur de Pandoc)

Suite à vos conversions, vous devriez obtenir la série de fichiers suivants :

# dans votre répertoire courant...
.
├── mon-fichier.docx
├── mon-fichier.html
└── mon-fichier.md

Ouvrez les fichiers obtenus. Que remarquez-vous ?

# 6. Exercice

# 6.2. Appliquer un modèle

Créez un fichier HTML avec le code suivant :

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
<!doctype html>
<html>
  <head>
    <!-- Titre du document, dans les métadonnées -->
    <title>$titre$</title>

    <!-- Auteur du document, dans les métadonnées -->
    <meta name="author" content="$auteur$">
  </head>

  <body>
    <!-- Titre du document, affiché une balise `h1` -->
    <h1 class="titre">$titre$</h1>

    <!-- Auteur du document -->
    <p class="auteur">$auteur$</p>

    <!-- La date, si indiquée dans le document source -->
    $if(date)$
    <p class="date">$date$</p>
    $endif$

    <!-- Le corps du document, ou contenu du markdown,
         sera inséré ici, dans la variable `$body$` de pandoc -->
    <div>$body$</div>

  </body>
</html>

Lancez la conversion en HTML en appliquant le modèle/template, puis ouvrez le document obtenu.

# Ressources