Des données à l’information par Florent Chavand (Extrait)
Publié le 21/10/2017

Des données à l’information

De l’invention de l’écriture à l’explosion numérique

Florent Chavand

 


Auteur : Florent Chavand

Un extrait pour les lecteurs de CultureMath. Les informations de publication à retrouver en suivant ce lien.


L’écriture est la transcription codée sur un support physique du langage oral. Celui-ci constitue lui-même un codage de la pensée et de l’expression humaine. Ce codage est une construction naturelle dans laquelle on retrouve des caractéristiques utilisées dans les représentations des données numériques : codage, compression, redondance. Qu’est ce qui fait que des mots comme « oui » et « non » sont courts, monosyllabiques, alors que d’autres mots sont beaucoup plus longs, comme « anticonstitutionnellement » qui est, avec ses vingt cinq lettres, un des mots les plus longs de la langue française ? Les premiers sont prononcés souvent. Le deuxième n’est utilisé que rarement, et encore plus rarement dans la langue parlée de tous les jours. Cette tendance, consistant à utiliser des mots courts pour les usages fréquents et des mots longs pour les usages peu fréquents, est générale à toutes les langues. Ainsi, pour oui, on dit yes en anglais, ja en allemand, da en russe, si en espagnol et en italien, etc. ; et pour non, on dit no, nein, niet, no pour ces mêmes langues.

La langue est un codage de la pensée pour la communication. Ce codage obéit à des règles. L’une de ces règles est l’efficacité de la communication, qui consiste à transmettre le maximum d’information avec le moins d’efforts possibles. Cette règle de l’optimisation du « coût » d’une communication, est implicite, en aucun cas elle n’est consciemment formulée, mais elle est quasiment systématiquement mise en pratique. Ce mécanisme a été explicité, en 1949, par le linguiste américain George Kingsley Zipf de l’université de Harvard sous l’expression « principe de moindre effort ». Les langues alphabétiques sont composées de mots monosyllabiques, de mots comportant plusieurs syllabes et de mots composés. Ces derniers s’ils sont souvent utilisés, ont tendance à disparaître derrière une contraction. Par exemple, les « pommes de terre frites » sont devenues des « frites ». Ce mécanisme n’est pas nouveau, ce n’est pas une invention de notre civilisation moderne de gens pressés. Le mot français « foie » vient du latin ficus pour figue et non du latin jecur pour foie. D’après la linguiste Henriette Walter, c’est probablement parce que les Grecs, puis les Romains gastronomes, engraissaient leurs oies avec des figues, ce qui leur permettait d’obtenir un « foie gras de figues » très apprécié. Il n’est resté que le dernier mot de l’expression latine pour désigner d’abord le foie pour la gastronomie, puis par la suite le foie en tant qu’organe.

Ce mécanisme de formation d’une langue est très général. Il présente des analogies avec le codage des données en informatique. Il a fallu attendre 1948 pour qu’un Américain, Claude Elwood Shannon, publie une théorie mathématique de l’information et définisse une mesure de la quantité d’information exprimée en bit, contraction de binary digit. Les travaux de Shannon ont été repris, dans les années 1950, par des chercheurs pour définir un codage de l’information. En 1952 David Albert Huffman a présenté un algorithme de compression de l’information tel qu’un texte codé soit de longueur minimale. Le codage de Huffman, appelé aussi codage statistique, est basé sur un principe simple. Dans un texte, la longueur du codage d’un mot est fonction de sa fréquence d’apparition : plus le mot est courant plus son codage est court. C’est le principe utilisé par l’humanité depuis la nuit des temps. Dans leurs communications parlées et écrites, les humains font, naturellement, du codage statistique.

Par ailleurs, C.E. Shannon et d’autres chercheurs ont montré que la redondance dans les langues anglaise et française est de 50 %. Pour un texte donné, la redondance peut se définir par la partie d’un texte (mots ou lettres) que l’on peut enlever sans ôter de l’information. Cette redondance facilite la compréhension entre deux interlocuteurs. Elle permet de détecter et corriger des erreurs (d’orthographe par exemple). En transmission et stockage des données, on retrouve ce même principe consistant à ajouter des bits de redondance pour permettre la détection et, dans certains cas, la correction des erreurs. Les techniques modernes de transmission et de stockage des données numériques utilisent donc les mêmes principes que les langues naturelles : d’une part, la compression des données pour améliorer l’efficacité des échanges ou du stockage et, d’autre part, l’introduction d’un codage redondant pour permettre la détection et la correction des erreurs.

Cette analogie entre la structure d’une langue écrite, codage d’une langue naturelle et le codage des données informatiques est l’idée de base qui a fait naître cet ouvrage. L’extension aux sciences et technologies de l’information et de la communication (STIC) est naturelle. Le traitement de l’information, les techniques de communication se basent sur diverses disciplines scientifiques ou technologiques. A côté de l’écriture et de la numération il y a bien sûr les mathématiques et plus près de nous l’informatique (matériels et logiciels).  Il y a des concepts communs entre le contrôle d’une tâche faite par un ordinateur et le contrôle d’une tâche faite par un robot. Ces machines « intelligentes » traitent l’information qui leur est propre et celle de leur environnement. Il ne s’agit pas de faire une histoire disciplinaire mais de faire ressortir les liens croisés entre ces différentes disciplines. Les apports de l’interdisciplinarité entre la linguistique, l’informatique et les mathématiques statistiques conduisent à la réalisation de « fouilles de textes ». Les liens entre automatique et traitement du signal et des images, électronique et transmissions, électronique et informatique sont importants et soulignés.

Les télécommunications permettent le transfert de l’information. Le traitement des données, des signaux et des images permet de faire émerger de manière automatique, c’est-à-dire sans l’intervention de l’homme, cette information.  

Il ne s’agit en aucun cas de traiter de l’information et de la communication au sens journalistique du terme, non pas que cette approche ne soit pas intéressante, mais parce que nous avons choisi de nous concentrer sur les sciences et technologies qui sont mises en jeu, utilisées pour représenter, traiter, stocker et transmettre les informations. On verra comment, dans les différentes disciplines concernées, les avancées dans les idées, concepts et outils nouveaux vont vers plus d’efficacité dans le contrôle des machines, le traitement ou la représentation de l’information. Ce point vient en illustration du principe de « moindre effort » que George Zipf lui-même n’a pas limité à la linguistique, mais a étendu à toutes les activités humaines :

« En termes simples, le principe du moindre effort signifie, par exemple, qu’une personne, en résolvant ses problèmes immédiats, va les voir en regard de ses problèmes futurs, tels qu’estimés par lui-même. En outre, il s’efforcera de résoudre ses problèmes de manière à minimiser le travail global à fournir en résolvant à la fois ses problèmes immédiats et ses problèmes futurs. Ce qui signifie que la personne s’efforcera de minimiser le niveau moyen de la dépense en travail à effectuer sur la durée. En faisant cela, il minimise son effort .... Le " Moindre effort "est par conséquent une variante de " Moindre travail ". »

Le fil rouge de cet ouvrage est son titre : des données à l’information. Le géomètre mésopotamien qui, à partir des mesures d’un champ, en déduit la surface ; l’astronome qui, à partir de l’observation de la position des astres en déduit les orbites ; le contrôleur d’un robot qui, à partir de données capteurs, en déduit une loi de commande ; le logiciel d’analyse de données qui, à partir des fichiers d’une entreprise, en déduit des informations sur le comportement de ses clients, font tous le même cheminement, des données vers l’information. Les outils changent, du traitement manuel utilisant la modélisation mathématique, on passe au traitement électronique puis informatique, mais la motivation de base est la même : à partir des données, extraire des informations qui élèvent le niveau de connaissance sur l’objet observé.

L’objectif de cet ouvrage sur l’histoire des STIC n’est pas de faire une histoire de sciences ou disciplines particulières, comme l’écriture, les mathématiques, l’informatique, l’électronique ou l’automatique. Ceci a déjà été fait et bien fait par d’autres. L’objectif est essentiellement de faire une histoire croisée, d’une part, entre les grandes disciplines scientifiques et technologiques concernées et, d’autre part, entre les différentes civilisations ou pays qui, de l’Antiquité à nos jours, ont contribué à jeter les bases de ces disciplines et à en enrichir le contenu.

 

Ce parcours historique est structuré par thèmes scientifiques et technologiques ; il est divisé en deux parties. La première intitulée Emergence et consolidation des outils conceptuels est consacrée aux langages de base, hors informatique, utilisés par les humains, et à leur quête de la connaissance de leur environnement spatial et temporel. Cette partie est divisée en quatre chapitres : Ecriture, écrits et langages (chapitre 1), Numérations écrites (chapitre 2), Le langage mathématique (chapitre 3) et Espace et temps (chapitre 4). La deuxième partie intitulée Automatisation du contrôle des machines et du traitement de l’information est consacrée aux évolutions technologiques et scientifiques qui conduisent à l’ère numérique. Elle est divisée en trois chapitres : Machines intelligentes (chapitre 5), Transmission et stockage (chapitre 6) et Traitement automatisé de l’information (chapitre7).

L’écriture (chapitre 1) est apparue de manière indépendante en cinq zones géographiques et à des époques différentes : en Mésopotamie, en Egypte, dans la vallée de l’Indus, en Chine et en Amérique centrale. L’alphabet est né en un seul endroit du monde, dans une zone qui s’étend du Sinaï à la Syrie méditerranéenne.

La matière archéologique la plus abondante, à la fois en nombre de pièces et en périodes représentées, concerne la Mésopotamie où de très nombreuses tablettes d’argile ont pu être exhumées dans des sites différents correspondants à différentes dynasties. Ces tablettes ont fait apparaître une évolution de l’écriture de graphes représentant de manière directe les objets désignés (indépendamment du langage parlé), à une écriture phonétique, syllabique, qui nécessite beaucoup moins de signes pour représenter tous les mots de la langue. Puis les systèmes d’écriture, sauf le chinois, ont adopté un alphabet qui permet, avec un nombre très réduit de caractères, de représenter un nombre considérable de mots.

Dans une deuxième partie de ce chapitre sont présentées les voies, incertaines voire chaotiques, par lesquelles certains textes anciens sont parvenus jusqu’à nous.

Le chapitre 1 est terminé par une analyse de la structure du langage et notamment de la redondance contenue dans un texte, ce qui fait le lien avec les procédés modernes de compression d’information utilisés en informatique.

La première numération apparaît naturellement en Mésopotamie. Le chapitre 2 fait la comparaison entre les systèmes de numération des différentes civilisations antiques. Le système de numération utilisé de nos jours dans le monde entier est positionnel à base 10. Cela veut dire que 10 chiffres (0 à 9) sont les seuls éléments utilisés pour représenter un nombre aussi grand soit-il. La position du chiffre dans le nombre donne sa valeur. Par exemple dans 1953, le 3 est le chiffre des unités, le 5 vaut 50, le 9 vaut 900 et le 1 vaut 1000. Le système positionnel a été inventé par les Mésopotamiens ; le leur était de base 60. Que la base soit 10 ou 60, ce système de numération est le plus puissant pour représenter les nombres aussi grands soient-ils parce que c’est le plus économe en signes.

Après l’écriture et la numération, les mathématiques (chapitre 3) constituent la troisième couche du socle d’outils pour la représentation et le traitement de l’information. « Le livre de la nature est écrit en langage mathématique […] et ses caractères sont les triangles, les cercles et autres figures géométriques ... » a écrit Galilée (L’Essayeur, 1623). Galilée a certes été le premier à le formuler ainsi, mais il a été devancé par une armée de géomètres, mathématiciens, astronomes qui, depuis l’Antiquité, ont participé au développement de ce langage.

Le chapitre 3 permet de comparer l’évolution des mathématiques chez les Mésopotamiens, Grecs, Egyptiens, Chinois et de mesurer l’apport des Arabo-Musulmans. La deuxième partie du chapitre 3 concerne les outils de modélisation des systèmes (équations différentielles, graphes, etc.), ou d’aide à la décision (probabilités et statistiques).

On sera amené, au cours de ce chapitre, à réfléchir sur la notion de « qui a inventé tel outil ou tel concept » et on verra que la réponse n’est pas toujours évidente. En effet, il faut faire une différence entre « utiliser une méthode » sans avoir conscience qu’elle conduit à l’introduction d’un nouveau concept, « concevoir un outil », même rudimentaire, en ayant pleinement conscience qu’il est innovant et apporter des perfectionnements à cet outil. Pour avoir une idée de la complexité de la chose, on peut se demander pourquoi l’Amérique ne s’appelle pas la Colombie, reprenant ainsi le nom de Christophe Colomb (la réponse est dans le chapitre 4).

Dans l’acronyme « STIC » il y a « communication ». Communiquer, c’est transmettre une information. Dans l’acte de « transmission » intervient la notion de lieux entre lesquels la transmission se déroule et aussi la durée de celle-ci. C’est pourquoi le chapitre 4 concerne l’espace et le temps. Le thème de ce chapitre constitue aussi une illustration de la manière dont les hommes sont passés des données d’observation des astres à l’information sur les orbites des planètes et, enfin, à la connaissance du fonctionnement du système solaire. Au cours de ce chapitre, on va rencontrer le choc entre les scientifiques d’un côté et l’Eglise de l’autre, entre la connaissance et le dogme. Les concepts d’espace et de temps nous paraissent maintenant familiers. Et pourtant il a fallu attendre Newton, et la publication des Principia en 1687, pour que l’espace et le temps soient définis pour la première fois. En 1905, avec la « relativité restreinte » et, en 1915, avec la « relativité générale », Albert Einstein va faire exploser la conception newtonienne, absolue, de l’espace-temps. 

Ce parcours historique dans la notion d’espace-temps va nous permettre d’aborder des sujets comme le passage de la mesure du temps à sa fabrication et la course à la détermination de la longitude entre la France et l’Angleterre. Ce n’est qu’à la fin du xviiie siècle que les hommes sont arrivés à des précisions convenables en inventant l’horloge de marine.  Puis le GPS fut mis au point et chacun d’entre nous peut désormais, très facilement, relever ses coordonnées en latitude et longitude.

Dans ces quatre premiers chapitres vont donc être présentés, d’une part, les langages écrits : celui de la description de choses concrètes ou abstraites et des idées, celui des nombres et celui des objets mathématiques ; et, d’autre part, leur application à la lente mais constante construction des concepts d’espace et de temps. Tous les appareils utilisés, tous les processus mis en œuvre sont entièrement contrôlés par l’homme, jusque dans leurs niveaux les plus bas ; tous les calculs faits, toutes les interprétations menées, le sont par les savants. Dans la deuxième partie, nous allons aborder le sujet de l’automatisation des processus que l’homme a initié et développé pour le soulager et démultiplier l’efficacité de son travail.

Une machine sera dite « intelligente » si ses changements d’action, de comportement, ne sont pas des conséquences directes de l’intervention de l’homme, mais sont induits par des informations prises sur son environnement, selon un processus conforme à son objet. Ce thème est traité au chapitre 5.  Il existe deux classes de systèmes répondant à cette problématique. Les machines (de transformation d’énergie ou déplacement de matière) et automates (ou robots) d’une part, les machines à calculer et ordinateurs d’autre part. Les machines et automates sont des objets mécaniques qui provoquent des modifications de leur environnement et qui sont munis de capteurs qui traitent de l’information pour estimer l’état du système et le contrôler. Ce voyage historique nous mènera de l’ingénieur grec Ctésibios d’Alexandrie, qui vécut au début du iiie siècle avant JC, aux robots modernes en passant par le régulateur que Watt et Boulton installèrent, en 1790, sur leur machine à vapeur. Le problème fondamental de la stabilité de ces systèmes sera évoqué avec les développements de l’automatique qui est la science du contrôle-commande des systèmes dynamiques construits par l’homme. La deuxième classe des machines dites intelligentes est constituée des machines à calculer et des systèmes programmables que sont les ordinateurs. La surface à calculer ou abaque des anciens Chinois et Egyptiens a laissé la place au boulier chinois, puis aux véritables machines à faire des calculs arithmétiques de l’allemand Schickard (1623) et du français Pascal (1645). Enfin les machines programmables sont apparues avec le français Bouchon (1725) pour les métiers à tisser, l’anglais Babbage (1834) pour la première machine à calculer programmable et enfin avec les ordinateurs conçus au moment de la seconde guerre mondiale en Allemagne, aux USA et au Royaume-Uni.

Le chapitre 6 s’intitule « transmission et stockage ». Ces deux notions sont réunies sous un même chapeau car, comme cela est montré dans l’exposé, la chaîne de traitement de l’information est strictement la même dans les deux cas. Les aspects fonctionnels ne peuvent exister que si la technologie les suit ou même les précède. En effet, ces deux fonctions de transmission et stockage n’ont pu évoluer comme elles l’ont fait que grâce aux progrès, d’abord de l’électromagnétisme et ensuite de l’électronique des tubes à vide dans la première moitié du xxe siècle et des semi-conducteurs, essentiellement à partir de 1948, date de l’invention du transistor.

Ce rôle fondamental de l’électronique se retrouve dans l’expression désormais universelle de « courrier électronique ». Ce chapitre montre l’importance de cette fertilisation croisée entre différentes disciplines pour arriver à des systèmes dont les performances n’étaient pas imaginables il y a seulement quelques dizaines d’années. Le rôle de l’électronique a déjà été évoqué. Les avancées considérables en traitement du signal dans la deuxième moitié du xxe siècle ont permis de faire passer sur une ligne téléphonique, somme toute pas fondamentalement différente du « fil qui chante » (Lucky Luke) utilisé par Samuel Morse vers 1840, outre une conversation téléphonique, des données numériques comprenant des fichiers de texte, des images et des vidéos, comme dans les dispositifs ADSL utilisés de nos jours. La compression d’information, le codage correcteur d’erreurs, issus des travaux de Claude Shannon, sont les mêmes en transmission et stockage d’information. Cette puissance de transmission et stockage, associée à une grande fiabilité, a conduit au développement de l’informatique d’une part et d’Internet et du web d’autre part, ce qui est en train de modifier considérablement nos manières d’être, de travailler et de communiquer avec les autres.

Le traitement automatisé de l’information, porté par le développement de l’informatique, est abordé chapitre 7. L’informatique, l’automatique, le traitement du signal sont véritablement nés au cours de la seconde guerre mondiale, sous l’impulsion d’un puissant effort de guerre porté essentiellement, mais pas uniquement, par les USA. Ces nouvelles technologies ont donné lieu à une explosion d’idées nouvelles et d’espoirs dans les applications envisagées. Les années d’après-guerre voient la naissance de l’informatique, de la cybernétique, de l’intelligence artificielle. Les langages de programmation, les systèmes d’informations, les outils informatiques de conception-fabrication de produits, de contrôle des machines, sont devenus des intermédiaires numériques incontournables entre l’homme et la machine. Comment donner du sens, faire émerger l’information contenue dans un tableau de données, dans un texte, un signal, une image, c’est l’objet de la deuxième partie de ce dernier chapitre. Il peut paraître trivial pour une personne d’analyser un texte ou de décrire une image, mais le problème n’est pas là. Il s’agit de faire émerger de manière automatique, c’est-à-dire sans intervention humaine, l’information contenue dans un fichier de 0 et de 1. Les principaux outils mathématiques permettant de réaliser ou d’approcher cette fonction sont présentés : analyse statistique, méthodes d’optimisation, reconnaissance de formes, etc. Ensuite les méthodes d’analyse des signaux, des images, les techniques d’analyse et fouilles de données, de recherche d’information et de fouilles de textes sont développées.

 Dans la plupart des thèmes évoqués dans cet ouvrage, l’analyse ne va pas au-delà de l’an 2000. En effet les évolutions récentes dans les outils informatiques sont très rapides et fluctuantes et il est difficile d’en rendre compte. Par exemple le réseau social Second Life qui a eu un grand succès au début des années 2000 a disparu des « écrans » vers 2010 au profit de Facebook et de Twitter. Cependant, cette barrière de l’an 2000 n’est pas tenable pour certaines technologies, notamment en ce qui concerne la reconnaissance vocale, celle de l’écriture manuscrite, ou les fouilles de données et de textes. C’est pourquoi certaines références dépassent cette date.

[...]

 

 

 
 
 
 
 
Dernières publications