Big Data et collecte

Ayant à mis en place un prototype pour évaluer le moteur de recherche SOLR 5.0, j’ai pu constater que la collecte de document PDF était facile.
Cette phase d’indexation est automatique, mais il est très difficile de désindexer, de supprimer une donnée qu’on a alimentée.
Pour supprimer une donnée, il faut, à la collecte propager, un identifiant qui permet de retrouver le document, son contenu, ses enfants,…
Or ceci a un coût en architecture fonctionnelle pour un identifiant sémantique, en architecture technique pour les identifiants techniques, une sorte de clé primaire. Et bien sûr un coût en implémentation et stockage.
Lorsqu’on on choisit un moteur de recherche qui stocke des données en Big Data, il n’ y a pas d’intérêts économique à se priver de données en finançant la possibilité de supprimer les objets liés à un document.

Du coup ce qui est économiquement faisable c’est de stocker les données à supprimer en les qualifiant comme supprimées mais toujours accessibles avec un filtre applicatif du côté des accesseurs.

contactez-moi ici
Tiaray RAFARALAHITSIMBA Ingénieur Conseil