Je viens de regarder la page du
Réseau De Concepts d'
Ector qui me montre
les expressions les plus courantes reconnues par le bot. Ce sont celles que les utilisateurs lui disent le plus souvent.
Et bien aujourd'hui, ce sont les expressions de politesse, celles qui servent à commencer une conversation qui sont les plus courantes:
Expression | Fréquence |
hello %BOT | 88
|
bonjour %BOT | 75
|
salut %BOT | 75
|
C'est révélateur d'un défaut de la version PHP d'
Ector: sa lenteur. En effet, il met tellement de temps à répondre (en ce moment environ 3 minutes) que les nouveaux interlocuteurs se lassent avant d'obtenir la réponse, et s'en vont sans même dire
au revoir
.
Ensuite, viennent des outils langagiers:
Expression | Fréquence |
d'
| 73
|
how are you?
| 61
|
C'est
| 59
|
l'
| 50
|
Ce sont souvent ce qu'on appellerait des
mots vides, mais ce sont des choses que je tiens à garder dans le
Réseau De Concepts d'
Ector: elles sont utiles à la construction de phrases un peu complètes, c'est le liant de la langue française.
Dans le genre, on remarque aussi les expressions suivantes:
Expression | Fréquence |
de la
| 34
|
J'ai
| 30
|
est un
| 26
|
de l'
| 23
|
que tu
| 22
|
à la
| 22
|
peut-être
| 18
|
un peu
| 17
|
d'un
| 15
|
m'
| 13
|
qu'il
| 13
|
Une remarque en passant: je dois sans doute beaucoup influencer
Ector avec mes
peut-être
et
un peu
...
Je suis soulagé de voir que parmi les expressions les plus fréquentes, il n'y a que peu de fautes de français (c'est peut-être dû au fait que les usagers persévérants connaissent mieux la langue française?):
Expression | Fréquence |
Comment vas-tu?
| 19
|
comment vas tu?
| 19
|
comment va tu?
| 7
|
Dommage quand-même que le tiret soit oublié si souvent. Ça aurait renforcé la première expression.
Du tableau suivant, on pourrait déduire que ce sont les anglophones les plus curieux (c'est le tableau des expressions contenant un point d'interrogation):
Expression | Fréquence |
how are you?
| 61
|
what is your name?
| 33
|
who are you?
| 19
|
Comment vas-tu?
| 19
|
comment vas tu?
| 19
|
Comment ça va?
| 16
|
Quoi?
| 16
|
%BOT?
| 14
|
How are you today?
| 14
|
et toi?
| 13
|
tu?
| 13
|
Qui est %BOT?
| 10
|
how old are you?
| 7
|
aujourd'hui?
| 7
|
comment va tu?
| 7
|
How are you doing?
| 7
|
bien et toi?
| 7
|
En tout cas, tout le monde se demande comment va
Ector ;)
Intéressons-nous maintenant aux expressions qui relèvent plus du concept que de l'outil langagier ou de la tournure de politesse:
Visiblement, il a beaucoup été influencé par
Bebelouloute (je pense à
bougre d'âne
et à
les chats
). Pour illustrer la différence entre une expression, construite par le programme à la lecture des phrases entrées par les humains, et ces phrases elles-mêmes,
l'expression Je suis un humain.
est idéale. Voyez
la phrase Je suis un humain.
, elle est liée à des
utilisateurs (type 5), comme
Julien1
,
laurent
,
benoit
,
phanoux
, et à des
tokens (type 2) comme
suis
,
un
,
humain
.
Pour une phrase, les liens afférents représentent les phrases (et les expressions) qui l'ont précédée, les mots qui la composent, et aussi les utilisateurs qui l'ont écrite. Les liens efférents comprennent aussi les utilisateurs qui l'ont écrite (les auteurs, quoi), et les phrases qui l'ont suivie. Si une expression se trouve dans les liens efférents d'une phrase, c'est que ce noeud a d'abord été créé en tant qu'expression (partie intégrante d'une autre phrase), puis qu'elle a été entrée en tant que phrase (c'est ce qui est arrivé à
Voilà.
).
Voilà ce qui arrive quand on ne met pas de ponctuation dans une phrase:
Ector peut l'assimiler à une simple expression ;) Euh, en y regardant de plus près, c'est peut-être un peu plus compliqué que ça, mais c'est l'idée (de toute façon, maintenant je me concentre sur l'algorithme de découverte des expressions que j'utilise dans la version en C d'
Ector).
La prochaine fois, nous nous intéresserons aux étiquettes des liens qui sont aussi des expressions (comme
est un
).
à 14:05