Outils pour utilisateurs

Outils du site


profgra:misc:inventer_des_mots

La machine à inventer des mots

Implémentation des idées de cette video de Science Étonnante (genre je lis des bouquins et je joue de la guitare;). Un billet de son blog détaille le procédé.

Un mot au passage : déjà que c’est vraiment bien de valoriser les maths, les probas, les algorithmes, la programmation, je trouve ça encore mieux que ça puisse s’appliquer à un problème strictement littéraire.
Vraiment bravo !

La génération de texte n’était pas un scoop pour moi, mais vu le succès de la chaîne et de cette vidéo, c’était l’occasion de suivre le mouvement ! Et puis les programmes en Python n’étant pas lisibles par des débutants (ou même des non débutants), une version MicroAlg peut aider à la compréhension.

Quelques autres implémentations ou idées de générateurs :

Algo naïf

Pioche de neuf lettres au hasard dans l’alphabet.

À partir des statistiques

Par soucis de simplification, seuls les séquences de deux lettres ont été utilisées. C’est ce qui correspond à l’explication de la vidéo, mais pas au système qui a généré les mots qui apparaissent dans la vidéo (séquences de trois lettres).

Création du tableau

Désolé, MicroAlg n’est pas vraiment adapté pour la génération des statistiques à partir de textes réels.

Pourquoi ? D’une part MicroAlg ne peut pas (encore) lire dans des fichiers, et d’autre part il est très lent (en tout cas dans la version web).

Cependant, MicroAlg peut afficher le tableau sous forme de couleurs. Il aurait été pratique de savoir à quelle lettre correspond chaque ligne et chaque colonne, mais vous devez suffisamment bien connaître votre alphabet !

Les données viennent de cette page et ont été retravaillées à l’aide d’un tableur. Sur la première ligne apparaissent les probas sur 1000 que le A soit suivi de la lettre correspondant au numéro de la colonne.

Utilisation du tableau

Le résultat n’est pas aussi splendide que dans la vidéo. C’est dû au fait que la prochaine lettre n’est calculée qu’en fonction de la précédente et non des deux précédentes. Par exemple, un P peut probablement être suivi d’un L, et un L d’un autre L, mais la séquence PL a très peu de chances d’un autre L !

Aussi, les données ne contenaient pas les informations correspondantes à la lettre vide (début et fin des mots). On a donc fixé la longueur des mots à sept lettres.

Rien ne vous empêche d’y remédier ! À vos claviers ?

profgra/misc/inventer_des_mots.txt · Dernière modification: 2015/10/18 21:09 par admin