Un article assez intéressant sur la loi de Zipf (ProfesseurGeorgeKingsleyZipf): Zipf's Law par Richard Wallace.
En gros: la loi de Zipf dit qu'un mot a une ProfondeurConceptuelle plus importante quand il apparaît moins souvent dans un corpus.
Pendant Ma Thèse, j'ai trouvé aussi des règles moins triviales: ce qu'on appelle les Mots Vides, c'est-à-dire les mots outils/charnières de la langue sont liés avec de nombreux mots différents, alors que les mots ayant un sens important, même s'ils ont une fréquence importante, co-occurrent avec beaucoup moins de mots.
J'en parle ici.
Dans un Réseau De Concepts, celà revient à trouver des mots avec un nombre de liens afférents et/ou efférents relativement faibles (relativement à leur fréquence).
En gros: quand on a un corpus parlant essentiellement d'un sujet, les mots exprimant ce sujet vont avoir une fréquence haute. Comment les distinguer des Mots Vides? En calculant un ratio fréquence/liens (les liens étant le nombre de mots suivant ou précédant ce mot).