|
12-08-2003, 03:04 PM | #1 |
Green Mole
Join Date: Dec 2003
Location: Lyon, France
Posts: 17
|
Some ideas (in french) for synonyms & Aptness(?)
Hi,
i was made a mail for a search_engine's webmaster. If it can help you, it's about synonyms and aptness (fr : pertinence) of results. It's all in french, so you can use the translator you want. (and i'm uncapable to translate all of this.) if you have questions, ... i'm here . Cite :: je pense que l'on ne peut pas inventer des synonymes Ă* partir d'une base de donnĂ©es. A moins de rĂ©Ă©crire le dico des synonymes... Par contre, il peut etre possible, en effet, de trouver des correlations entre les mots. Je m'explique : 1- Il y a 87.5% de similitude entre le mot 'musique' et le mot 'musiques'. On peut dire qu'ils sont similaires. D'autant que lorsque l'un d'eux apparait dans les mĂ©tas, il y a toujours (ou presque) l'autre. 2- Sur un site, lorsque l'on parle de MP3, on parle de musique. Il y a donc une relation entre les deux. 3- Sur un site de cirque, on parle parfois de la musique. Mais rarement de MP3. 4- Lorsque l'on parle de Jenifer Lopez, on parle d'artiste, de MP3, de musique. 5- on parle d'artiste pour la peinture. Concl- Il n'y a pas de relation entre MP3 et peinture, pourtant il y en a une entre MP3 et musique, entre musique et artiste, entre artiste et peinture. Il y a lĂ* matière Ă* travail, mon principe est le suivant => Soit une table reprenant tous les mots rencontrĂ©s ici ou lĂ*. id | mot | -------------|------------------------| 1 |musique | 2 |musiques | 3 |cheval | 4 |artiste | 5 |MP3 | 6 |cirque | 7 | jenifer Lopez | 8 |dessin | --------------------------------------- et une autre table regroupant les similitudes entre les mots, ainsi que les correlations, remplie Ă* chaque page visitĂ©e. Pour deux mots, on remplit une ligne (ou on complete la ligne , en incrĂ©mentant correlation de 1pt.). Si les mots s'Ă©crivent presque pareil, c'est la ligne similitude qui est remplie. id_mot |id_mot |correlation |similitude| 1 2 1 87.5 1 4 1 1 5 1 2 4 1 2 5 1 3 4 1 4 5 1 6 3 1 6 4 1 6 1 6 2 etc... (elle n'est pas complete, mais bon, tu comprendras...) On voit que sur un site, il y a deux mots. Le mot id 1 et le mot id 2. Ils se ressemblent beaucoup. Ce sont probablement les memes. De plus, a chaque fois que l'un apparait, l'autre aussi. Donc, quelqu'un qui demande le mot 1 (musique) a de fortes chances de dĂ©sirer aussi les rĂ©sultats du mot 2. Quelqu'un qui demande le mot .. cirque ? On regarde : cirque id 6 . Il a de fortes chances de dĂ©sirer aussi l'id 3, mais aussi les id : 1,2,3,4. On se retrouve avec les mots : musique(s), cheval, artiste, et cirque. Mais bien que artiste soit associĂ© Ă* cirque, on ne demande pas jenifer lopez (id 7). Tu me suis ? En fait, si tu fais un schĂ©ma de relations entre les numĂ©ros, tu t'apercois que pour un numĂ©ro donnĂ©, apparaissent d'autres numĂ©ros 'proches'. LĂ*, il y a je pense quelque chose Ă* en tirer. De plus, je ne pense pas que ce serait difficile. Dis moi dĂ©jĂ* ce que tu penses de cela. --------------------------------------------------------------------- Autre chose : Les gens remplissent un peu n'importe comment les balises mĂ©ta. Certes. Mais un peu seulement. Et lĂ*, il y a aussi un Ă©norme contenu qui n'est que très peu employĂ©. Et pourtant, il est source de mots synonymes : Pour dĂ©signer un theme, on le dĂ©signe sous toutes ses coutures. Par exemple, pour mon site (qui ne marche pas, pour l'instant, je sais pas pourquoi, mais il plante..), j'ai la balise mĂ©ta comme ceci : --- gite, rural, chambre, hote, gites, ruraux, chambres, hotes, maison, maisons, vacances, maisons, location, locations, hebergement, tourisme, annuaire, portail, ville, professionnel, france, terroir, cultures, tradition, voyage, conseil, annonceurs, forum, paca, provence, bretagne -- (l'idĂ©e n'est pas de dire s'ils sont pertinents, ou pas, l'idĂ©e est de donner des mĂ©ta d'un site au hasard..) Il y a lĂ* tout une gamme de mots clĂ© sur un sujet prĂ©cis, sur un theme prĂ©cis, avec tous les synonymes possibles. Bien sur, les mĂ©ta sont assez mal remplis, mais : Ils ne le sont pas tant que cela. Un site parlant de musique aura des mĂ©ta partant dans.. pas mal de directions, parce que le sujet est vaste. Mais pour des themes comme ceux dont tu parles dans ton post sur le forum (mĂ©decin/batiment/etc.. tous ces corps de mĂ©tiers assez mal reprĂ©sentĂ©s sur internet) les mĂ©ta sont assez bien remplis, et correspondent bien au site. Jettes un oeil au site 'podologie.fr'. Il est spĂ©cialisĂ©, et ses mĂ©tas correspondent bien Ă* un theme particulier, il y a bien corrĂ©lation entre les mots. Pourtant, j'y vois : sport, marche, etc... Jettes un oeil au site de Monique : sport, course, etc... Il y a les memes themes, mais vus sous un angle diffĂ©rent. Si tu tapes sport dans google, pourquoi google devrait il te renvoyer les sites parlant de la pratique du sport plutot que les sites parlant de la mĂ©decine du sport ? Il te renvoie les deux, me diras tu . Mais il se trompe. Il se veut pertinent, mais.. il n'est pas capable de diffĂ©rencier la mĂ©decine et le sport ? Il devrait mettre deux colonnes, l'une pour la mĂ©decine, l'autre pour la pratique, avec les liens qui vont avec, et mettre en gros, tout en haut : choisissez une sous catĂ©gorie, pour plus de pertinence. Qu'en penses tu, de cela aussi ? VoilĂ*. Nicolas." |
12-08-2003, 03:09 PM | #2 |
Green Mole
Join Date: Dec 2003
Location: Lyon, France
Posts: 17
|
And =>
Isn't it possible to incorporate a graph of stats, with number of hosts, number of pages(spider), nb of keywords, etc ? with recording of evolution between 2 scan of urls. ? That's all for today A+, Anonymus. |
|
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
PhpDig in French | Nipioko | Mod Requests | 1 | 04-18-2007 01:45 AM |
Url part after & is ignored on spider (1.8.9 RC1 and earliers) | obottek | Bug Tracker | 1 | 08-24-2006 04:52 AM |
translate in french | ENTHALPIE | Bug Tracker | 3 | 11-02-2005 12:38 AM |
How use a cronjon (In french ... :o ) | logo2 | How-to Forum | 3 | 01-09-2005 11:40 PM |
Version 1.6.3 and some bugs/ideas | manfred | Troubleshooting | 6 | 11-17-2003 11:06 AM |