Data warehouses that don't compromise™

 

   
 
 Value Based Storage
 
   
 
Incremental Queries  
 
 Associative Queries  
 
 Data Mining comparé  










Accueil Technologie Value Based Storage

Le Value-Based Storage (VBS) permet une performance rapide pour les requêtes ad hoc

Le cœur du « correlation database » d'illuminate (CDBMS) est sa structure unique de Value-Based Storage (VBS). Contrairement aux structures de stockage de données basées sur les enregistrements ou les colonnes, chaque enregistrement dans le modèle VBS est décomposé au niveau de sa valeur unique qui est stocké une seule fois. La base de données extrêmement compacte et rapide crée automatiquement son propre data-generated schema à la volée, lors du chargement. Ainsi, chaque corrélation est indexée et fournit un contexte des valeurs de données pour l'analyse et le reporting.

Grâce à l'approche VBS, un CDBMS est structuré de façon optimale pour offrir une performance de requête ad hoc exceptionnelle.

Fonctionnement du VBS

La structure VBS du moteur de base de données iLuminate consiste en trois ensembles physiques d'objets qui sont stockés et gérés :

  • un dictionnaire de données (métadonnées) ;
  • un ensemble de données d'indexation et de liens (métadonnées additionnelles) ; et
  • les valeurs actuelles des données qui composent les informations stockées.

Contrairement aux structures basées sur les enregistrements (qui stockent les données dans des tables, selon un concept similaire aux fichiers Excel) ou aux structures en colonnes (qui stockent les données en colonnes, et compressent les données en retirant automatiquement les doublons consécutifs et les valeurs nulles) ; l'architecture VBS stocke chaque valeur unique qu'une fois seulement. Comme pour l'approche en colonnes, les informations distinctes d'indexation et de lien sont stockées.

Dans la structure VBS, les valeurs uniques sont stockées ensemble dans des bases de données optimisées par catégorie : tous les entiers dans un jeu de données, les caractères dans un autre. Plus besoin de construire des ensembles complexes de tris et de liens dans le data store, comme dans les systèmes basés sur les colonnes.

En plus des valeurs de données typiques, le data value store contient un type de données spéciales pour stocker les corrélations entre les tables. Ceci fonctionne comme les foreign key dans un RDBMS, mais dans un CDBMS, la corrélation est connue du dictionnaire et stockée comme une valeur de donnée. Cela rend la navigation des tables logiques entièrement automatique, et offre une performance de requête ad hoc extrêmement rapide.

Le dictionnaire de données contient des métadonnées typiques et des données statistiques additionnelles à propos des tables, des colonnes et des occurences des valeurs dans le schéma logique. Le stockage de l'indexation et des liens contient toutes les informations nécessaires pour reconstituer les valeurs uniques stockées sour forme de colonnes, d'enregistrements et de tables. Le dictionnaire, le stockage de l'indexation et des liens dans un CDBMS conservent les liens entre les enregistrements originaux, quels que soient les changements des valeurs de données.

Avec la structure VBS utilisée dans les correlation DBMS, il n'y a aucune décision de conception à prendre, et les besoins d'évolution de l'entreprise ne supposent aucun changement de la structure physique de la base de données. Toutes les valeurs sont stockées dans des bases de données optimisées et n'ont jamais besoin d'être réorganisées. De plus, la sélection des enregistrements s'effectue à un seul endroit et par conséquent les recherches béneficient d'une grande vitesse liée à l'indexation.

Le VBS est idéal pour les data warehouse et les datamart

Le « correlation database », pourvu du VBS, est une plateforme de data warehouse radicalement nouvelle offrant une performance de requête rapide sans compromis de conception. Le délai de réponse de requête d'un CDBMS est constant, quelle que soit la complexité ou la taille de la base de données (puisqu'il n'y a pas d'optimisateur de requête qui puisse être surchargé). Son data-generated schema inclut toutes les corrélations possibles, par conséquent, il n'est pas nécessaire de restructurer la base de données pour permettre de nouveaux types de requêtes, et les nouvelles données peuvent être ajoutées sans reconception.

Capacités uniques de requêtes ad hoc

Le VBS offre la flexibilité de conception et d'exécution des requêtes qui seraient très difficiles, voire impossibles, à modéliser en SQL. Contrairement au RDBMS (que ce soit une solution logicielle uniquement ou une appliance) et aux bases de données en colonnes, un CDBMS offre la capacité d'accomplir deux types de requêtes uniques. L' associative query, une recherche pour une valeur inéligible, est une requête simple et rapide qui est impossible avec d'autres structures.

Cette structure permet également d'effectuer des incremental queries, c'est à dire une série de recherches calibrées progressivement où chaque nouvelle requête ad hoc affine les résultats à partir des réponses aux requêtes précédentes. Ces requêtes sont complètement flexibles du fait qu'elles permettent une analyse en profondeur et dans toutes les directions.

La fin des « requêtes infernales »

Le VBS élimine la « requête infernale » qui peut affecter les data warehouse RDBMS, celle qui entraîne un « full-scan » sur les tables et monopolise toutes les ressources disponibles, bloquant l'accès à tous les autres utilisateurs, jusqu'à ce que le traitement soit terminé. Cela décharge les DBAs, qui sont en fait les responsables de la performance des requêtes et de la base de données. Par conséquent, même des utilisateurs relativement peu aguerris peuvent faire leurs propres recherches sans pénaliser les autres utilisateurs.

Les avantages du VBS par rapport aux bases de données axées sur les enregistrements et les colonnes

Bien que les bases de données relationnelles axées sur les enregistrements soient (pour le moment) le choix le plus courant en matière de data warehouse, leur structure est loin d'être parfaite. Les systèmes de bases de données relationnelles axés sur les enregistrements sont difficiles à concevoir, extrêmement inefficaces dans leur utilisation de l'espace de stockage et des E/S, difficiles à maintenir, et obligent les concepteurs à faire un compromis entre optimiser la performance des requêtes et offrir une flexibilité de requêtage maximale.

Les data warehouse appliances ont été developpés pour répondre à ces carences. Ce sont des dispositifs de bases de données relationnelles (RDBMS) livrés sur du matériel à configuration personnalisée. Ils ont les mêmes points forts et faibles que les RDBMS, à la différence que l'ensemble matériel/logiciel est optimisé pour offrir des requêtes plus rapides pour un coût total moindre. Les data warehouse appliances nécessitent toujours toute la planification, la conception et la gestion requises par les bases de données relationnelles axées sur les enregistrements, et la flexibilité des requêtes est toujours limitée par l'accès aux données SQL.

Les bases de données « column-based » exigent aussi une définition préalable des besoins des utilisateurs et une préconception physique et logique des data warehouse RDBMS. Elles impliquent un autre compromis : l'optimisation de l'insertion de nouveaux enregistrements, et la sélection/récupération des données. Cependant, elles utilisent moins d'espace de stockage et sont plus efficaces dans leurs exigences entrées/sorties par rapport aux data warehouse RDBMS.

Le VBS s'affranchit des limitations de ces deux options, offrant une performance et une flexibilité de requête optimales sans aucun compromis. En utilisant le VBS, une correlation database est compacte et efficace par définition, et de nouvelles données peuvent être ajoutées à tout moment sans restructuration. Le tableau suivant résume les différences entre les trois approches de stockage de données.