Le principe adopté alors repose sur le concept d'hypertexte un document comprenant plusieurs pages peut se lire d'une nouvelle façon.
L'hypertexte
(NB : Un exemple type d'ouvrage en hypertext est le livre dont vous êtes le héros).
Le concept d'hypertexte permet donc l'accès immédiat aux données tout en gardant une simplicité d'utilisation. La lecture du document peut se faire de façon non linéaire, selon l'humeur et la curiosité du lecteur. Il peut entraîner cependant quelques inconvénients par exemple, celui qui découle du nombre de liens créés dans le document. Trop nombreux ou mal faits, ils peuvent transformer la lecture en un labyrinthe, rendant certaines informations inaccessibles et d'autres redondantes.
La manipulation des pages et des informations doit être instantanée pour que ce concept soit viable. L'informatique permet cette manipulation et, mieux, donne la possibilité de gérer l'arborescence engendrée par les liens hypertextes.
C'est ainsi que furent programmés quelques navigateurs de fichiers hypertexte au CERN par l'équipe de Berners-Lee pour la mise en application du concept.
Il restait ensuite à préciser le format du fichier hypertexte qui servirait sur internet et la manière de le tranférer HTML ou HyperText Markup Language basé sur les spécifications SGML (Standard Generalized Markup Language) et HTTP ou HyperText Transfer Protocol.
SGML
Tout est codé au format ASCII américain (pour chaque caractère une valeur de 0 à 127, sur 1 octet), le texte comme les données servant au formatage. L'enrichississement et la pagination se font au moyen de markup ou balises, identifiées entre les signes inférieur et supérieur (< et >).
Les caractères spéciaux comme les accents ne sont plus codés en ASCII étendu (valeur 128 à 255 sur les différentes plateformes) mais entre les caractères "et commercial" (&) et le point virgule (;) sous forme de texte ou de code correspondant à la norme ISO-Added-Latin-1.
Exemple é donne é ou è
Ceci permet de standardiser la gestion des accents qui est gérée différemment selon les plateformes : le code ASCII pour é sur Macintosh n'est pas le même que sur PC!
De plus, une DTD (Document Type Definition), faisant partie intégrante du document SGML, permet la déclaration des balises et leur interprétation par le logiciel lisant le document.
HTTP
La notion de sécurité, préalable aux transactions et au flux de capitaux, est en cours d'intégration pour les futures versions d'HTTP.
L'entête HTTP, au format ASCII, est de la forme:
HTTP/1.0 200 OK
MIME-version: 1.0
Content-type: text/html
Expires: Mon, 28 Jul 1997 20:39:00 GMT
Content-length: 421
La première ligne indique le numéro de version du protocole et un message
d'état, la seconde la version de MIME (Multipurpose Internet Mail Extensions).
MIME est une norme permettant d'identifier les objets transférés, dont
le type est décrit dans la troisième ligne. Une image au format GIF,
tranférée par HTTP aurait donc un Content-type égal à image/gif.
La ligne Expires indique la date limite d'utilisation et la dernière la taille des
données (texte, image, son...) qui doivent être transférées.
D'autres lignes peuvent s'y ajouter comme par exemple des mots clés (Keywords
Faculté, Pharmacie, Lyon, ISPB)...
Un transfert HTTP peut se schématiser ainsi:
Le particulier surfant sur Internet se connecte au moyen d'un ordinateur dit client. Celui-ci se trouve sur la partie World Wide Web du réseau et utilise donc le protocole HTTP pour transmettre et recevoir des données. La première étape de l'opération est la transmission d'une adresse URL (voir plus loin) vers l'ordinateur hébergeant les données ou serveur. Ce serveur va prendre en compte la requête et renvoyer un fichier correspondant à l'adresse indiquée. Tout cela se fait selon Internet Protocol (IP).
L'avantage du système, outre sa simplicité, est qu'il ne monopolise pas le serveur. Quand une adresse est demandée, un fichier est de suite envoyé vers le client puis il y a déconnexion. Plusieurs clients peuvent donc se connecter au serveur sans trop monopoliser ses ressources et son temps-machine. De plus, il n'y a pas de mémorisation des circonstances de la connexion. Le serveur "oublie" qu'il a été sollicité par un client, et ne conserve pas d'archives encombrantes de demandes et d'envois (sauf cas particuliers).
Le principal inconvénient est que l'échange de données ne se fait que dans un sens. L'interactivité est faible, et on ne peut rien envoyer vers le serveur via HTTP à part une adresse. Ceci est réglé temporairement par une astuce grâce à la méthode CGI-Bin, voire définitivement avec l'apparition de nouveaux langages du Web comme Java ou JavaScript.
Les adresses URL
http://www.univ-lyon1.fr/ispb
Le protocole utilisé ici est HTTP, l'adresse du serveur est "univ-lyon1.fr" sur le World Wide Web "www" et le chemin d'accès "ispb". Ce dernier étant incomplet (il ne pointe sur rien), le serveur envoie spontanément un fichier par défaut qui est, dans la majorité des cas, index.html. L'adresse complète était donc
http://www.univ-lyon1.fr/ispb/index.html
D'autres protocoles peuvent être utilisés notamment :
Le langage HTML de description des documents hypertextes, inspiré de SGML, et le protocole HTTP ont été définis. Les travaux ont ainsi permis la création d'une cinquantaine de sites World Wide Web à l'automne 1990. Mais c'est au début de l'année 1993 que le nombre de sites Web a décollé, avec l'apparition d'un browser Web performant Mosaic de NCSA (National Center for Supercomputing Applications). Un browser Web ou nagivateur est un logiciel se trouvant du côté client (il est nommé ainsi client) pouvant lire les fichiers reçus par le protocole HTTP, envoyer les adresses vers le serveur et naviguer dans l'arborescence des liens hypertextes.
L'évolution du nombre de sites a été depuis exponentielle, et divers éditeurs de logiciels ont sorti leur propres navigateurs. On peut citer Communicator (Navigator 3.0) de Netscape qui contrôle 80% du marché des browsers, ou l'Internet Explorer 3.0 de Microsoft. Ceux-ci ont intégré quelques fonctionnalités comme Java, JavaScript, VBScript ou ActiveX, et quelques balises HTML supplémentaires.
Le World Wide Web Consortium ou W3C
Le W3C aide au développement des technologies du Web et fait un travail de normalisation, les projets sur le Web et les extensions du langage HTML sont proposés par les membres adhérents au Consortium et soumis pour évaluation et développement à des groupes de travail. Ils sont publiés sous forme de Request for Comments (RFC) avec un numéro sur Internet. Lorsqu'un projet ou une proposition est satisfaisante, une recommandation est votée et elle garde le nom de RFC + uméro.
NB : Ces RFC sont communes à une autre organisation l'IETF ou Internet Engineering Task Force, qui gère les évolutions et les normalisations du réseau Internet.
Ainsi, la version 1.0 de HTML intègre les références hypertextes, les paragraphes, les listes et plusieurs niveaux de titres. La version 2.0 s'est vu ajouter la gestion des images et les formulaires. Dans la version 3.0 sont apparus les image-maps, les formules mathématiques, les feuilles de style, les tableaux... Les membres adhérents comme Microsoft, Netscape, Sun Microsystems, NCSA, Silicon Graphics, Adobe Systems Incorporated, EDF ou IBM, ont proposé leurs propres extensions comme
D'autres sont en cours d'intégration
Rajah Lone, le 21 Octobre 1997