Affichage hiérarchique

InstinctHack · 03-07-2013, 23h28

Salut,

Je me pose cette question : comment puis-je faire un algo similaire à google. (qualité ;D )
Voilà la gueule de ma base de données :

Code :
bdd

{

"tags":[Info, Securité, Chatons],

"bookmarks":[

{"link":"http://n-pn.fr","tags":[1,2]}

{"link":"http://youtube.com","description":"vive les chatton","tags":[3]}

{"link":"http://security.com","tags":[2]}

]

}

si je recherche "securité" comment je pourrais faire apparaître le troisième lien ? Faudrais pouvoir rechercher une similitude entre le terme rechercher et le link tout en sachant que l'ortographe n'est peut-etre pas exactement la meme.
une idée ?

Mazaki · 03-07-2013, 23h34

Un algo similaire, c'est assez complexe, je ne suis même pas sur que Google stocke les sites dans leur BDD, il y en a tellement O_O.

ouestcharlie · (Modification du message : 04-07-2013, 00h38 par ouestcharlie.)

hei .
peut être que ... http://www.siteduzero.com/informatique/t...completion
avec une bonne DB mixer avec du php fera l'affaire sinon c'est une bonne question tiens ._.
edit : http://www.dcode.fr/chaines-de-markov

InstinctHack · 04-07-2013, 06h50

@Mazaki T'as jamais use le cache de google ? Bien sûr que si, il stocke les sites.

@ouestcharlie c'est gentil des liens, mais faut qu'ils apportent une réponse ou un début de piste, ce qui n'est pas le cas ici.

Sh4dows · 04-07-2013, 07h24

@ouestcharlie l'auto complétion ça vient bien après tous le reste.

Concernant le fonctionnement de google, ils vont me semble t-il bien plus loin qu'un simple stockage (description, url, titre, tags). Il y a derrière tout ça de l'analyse de contenu (cf. GoogleBot).

D'ailleurs cet article est pas mal http://www.siteduzero.com/informatique/t...nne-google

J'ai également trouvé cet interview parlant de l'algorithme de classement de Google (Pas le temps de le lire).

b0fh · 05-07-2013, 00h35

Comme je le comprends, l'algorithme décrit par le lien de ouestcharlie, celui avec la chaîne de Markov, à pour but d'aider un black SEO à baiser un moteur de recherche, en générant massivement du contenu similaire mais pas identique. Peu d'intérêt pour nous donc.

Sinon, pour ton problème d'orthographe des mots clef ou de correspondance sémantique, une piste possible est celle de l'Association Rule Learning (http://en.wikipedia.org/wiki/Association_rule_learning)

Le but de cet algorithme, étant donné une base de données de "transactions", constituées chacune d'un ensemble de mots-clef, est de calculer, pour une transaction inconnue, la probabilité qu'elle contienne un mot-clef X, sachant qu'elle contient déja un sous-ensemble connu de mots-clef.

Au coeur de cette approche, on trouve l'algorithme Apriori, qui permet de trouver les associations de mots les plus fréquentes dans l'absolu. Pour chaque sous-ensemble de mots générés, on calcule la probabilité de ce sous-ensemble d'inclure aussi le mot X cherché, et cette probabilité donne une mesure de la pertinence de la recherche.

Globalement, ça fonctionnerait ainsi:

- on choisit un niveau limite pour le support des règles qui nous intéressent, par exemple 10%
- on découpe tous les documents en mots et on crée une liste de mots uniques. On retire tous les mots qui n'apparaissent pas dans au moins 10% des documents.
- A partir de la liste de mots nettoyée, on génère toutes les paires de mots. On retire tous les mots qui n'apparaissent pas dans au moins 10% des documents.
- On répète cette opération pour tous les tuples de mots de longueur n, jusqu'a avoir tout éliminé. C'est l'algorithme Apriori.

On stocke ensuite tous ces totaux dans une grosse db. On peut ajuster le paramètre du support pour obtenir une DB plus ou moins grande.

Quand vient le moment de rechercher une série de mots clef {x1,x2,..,xn}, on parcours notre db. Pour chaque série de mots dans la db {y1,y2,..yn}, il y a peut-être également un tuple {y1,y2,..,yn,x1,x2,..,xn}. On compare les quantités associées (soit le nombre de documents contenant ces mots). la 1ere sera logiquement toujours supérieure à la 2e, ce qui nous donne donc une probabilité de pertinence.

On garde toutes les séries de mots {y1,y2,..,yn} dont la pertinence est élevée, et il ne reste plus qu'a récupérer les documents contenant ces tuples.

Identifiant Mot de passe
S’enregistrer \| Mot de passe oublié ? Se rappeler