Créer un moteur de recherche
• Sujets peu ou prou abordés :
• Problématique de passage à l'échelle.
• Temps des crawls (et leur ciblage).
• Temps d'analyse des contenus.
• Gestion des grands volumes de données (>
million de
documents).
• Technologies Cloud (ex.: bases NoSQL,
Hadoop, etc.).
• Développement de moteurs de recherche
sémantiques.
• Large variété d'outils libres disponibles:
• logiciels intégrés,
• Composants réutilisables,
• bibliothèques de base.
• Capacité des outils libres à répondre à des
besoins
variés mais...
• Concepts de base à maîtriser.
• Intégration (souvent) moindre comparé à des
équivalents propriétaires (ex.: Oracle Text).
• Étape 1 : constituer une base de données
d'URLs (basé sur
logiciellibre.com).
• Étape 2 :
• Détecter les éventuelles redirections,
sites morts, etc
(automatisable sous PHP avec « get_headers
»).
• Générer les requêtes wget correspondantes.
• Lancer le crawl avec « wget ».
• Étape 3 : lancer l'indexation des pages
collectées par
« wget ».
• Utilité : identifier les prestataires
actifs sur une ou plusieurs
technologies particulières.
• Sujet : comment créer un moteur de
recherche à
base de logiciels libres ?
• Plan :
• Qu'est-ce qu'un moteur de recherche ?
• Faut-il utiliser une base de données «
fulltext » ou
un pur indexeur ?
• Jusqu'où est-il utile de développer
soi-même ?
• Exemples : création de moteurs de recherche
spécialisés.
ليست هناك تعليقات:
إرسال تعليق