الخميس، 19 ديسمبر 2019

Créer un moteur de recherche


Créer un moteur de recherche


• Sujets peu ou prou abordés :
• Problématique de passage à l'échelle.
• Temps des crawls (et leur ciblage).
• Temps d'analyse des contenus.
• Gestion des grands volumes de données (> million de
documents).
• Technologies Cloud (ex.: bases NoSQL, Hadoop, etc.).
• Développement de moteurs de recherche
sémantiques.
• Large variété d'outils libres disponibles:
• logiciels intégrés,
• Composants réutilisables,
• bibliothèques de base.
• Capacité des outils libres à répondre à des besoins
variés mais...
• Concepts de base à maîtriser.
• Intégration (souvent) moindre comparé à des
équivalents propriétaires (ex.: Oracle Text).
• Étape 1 : constituer une base de données d'URLs (basé sur
logiciellibre.com).
• Étape 2 :
• Détecter les éventuelles redirections, sites morts, etc
(automatisable sous PHP avec « get_headers »).
• Générer les requêtes wget correspondantes.
• Lancer le crawl avec « wget ».
• Étape 3 : lancer l'indexation des pages collectées par
« wget ».
• Utilité : identifier les prestataires actifs sur une ou plusieurs
technologies particulières.
• Sujet : comment créer un moteur de recherche à
base de logiciels libres ?
• Plan :
• Qu'est-ce qu'un moteur de recherche ?
• Faut-il utiliser une base de données « fulltext » ou
un pur indexeur ?
• Jusqu'où est-il utile de développer soi-même ?
• Exemples : création de moteurs de recherche
spécialisés.

ليست هناك تعليقات:

إرسال تعليق