Remarques liées à la conception physique

Après avoir vérifié le modèle dimensionnel, vous devez concevoir la base de données physique. Développez des stratégies pour prendre en charge l'agrégation, la navigation dans des agrégats, l'indexation et le partitionnement des données du modèle dimensionnel.
Lorsque vous concevez la base de données physique, vous collectez les métadonnées suivantes :
Lorsque vous créez la structure physique d'un modèle dimensionnel, procédez comme suit :
  1. Concevez les agrégations pour chacune des tables de faits.
  2. Créez des index pour améliorer les performances.
  3. Partitionnez les tables du modèle.

Conception d'agrégations

De manière schématique, l'agrégation est un processus consistant à calculer les données récapitulatives à partir des enregistrements d'une table de faits au niveau de détail de base. Les agrégats représentent un outil puissant pour augmenter la vitesse de traitement des requêtes dans des magasins de données dimensionnels. La procédure d'agrégation est généralement effectuée à l'aide des attributs d'une dimension qui font partie d'une hiérarchie.

Chaque attribut qui fait partie d'une hiérarchie est associé en tant que parent ou enfant à d'autres attributs de la hiérarchie. Cette relation parent-enfant fournit différents niveaux de regroupement. Les différents niveaux de regroupement permettent à l'utilisateur de naviguer dans le rapport. L'extraction de données agrégées à un niveau élevé est plus rapide que celle de données détaillées, définies au niveau atomique. La table de faits occupe généralement beaucoup plus d'espace que les données agrégées.

Le niveau d'agrégation le plus faible (ou le niveau de détail le plus élevé) est appelé le grain de la table de faits. La granularité de la dimension a une incidence sur la conception du stockage des données et le mode d'extraction des données.

L'agrégation de tables de faits atomiques détaillées améliore les performances. Toutefois, l'agrégation entraîne des coûts :
  • Espace de stockage
  • Coûts de génération et de gestion des processus de prise en charge des tables agrégées

L'agrégation n'est pas une solution pour réduire la taille des tables de faits volumineuses et détaillées. Si les données de la table de faits sont récapitulées, les informations détaillées définies sous forme de dimensions et de mesures sont souvent perdues. Si l'entreprise a besoin des données détaillées d'une table de faits récapitulée, ces données ne sont pas disponibles. L'utilisateur doit rechercher les données détaillées dans le système OLTP source qui fournit les données de la table de faits agrégée. Si l'entreprise doit utiliser les systèmes OLTP source pour obtenir des réponses, déterminez si un modèle dimensionnel est réellement nécessaire.

Evitez de combiner des données agrégées et des données détaillées en incluant des mesures agrégées Cumul à ce jour avec les mesures détaillées. Les mesures Cumul à ce jour s'ajoutent. Si vous combinez les types de données, des calculs erronés risquent d'apparaître.

Pour préparer des tables d'agrégation, procédez comme suit :
  1. Identifiez toutes les dimensions et les hiérarchies associées à partir du modèle dimensionnel atomique au niveau de base. Ces dimensions et hiérarchies sont identifiées à partir du modèle dimensionnel atomique au niveau de base.
  2. Identifiez toutes les combinaisons possibles des attributs hiérarchiques qui sont utilisés par l'entreprise pour la génération de rapports. Identifiez tous les attributs des hiérarchies pour déterminer ceux qui sont fréquemment utilisés ensemble. Cette étape est particulièrement importante si vous disposez d'un très grand nombre de dimensions avec plusieurs hiérarchies dotées de plusieurs attributs.
  3. Calculez le nombre de valeurs dont dispose chaque attribut. Le nombre de valeurs de chaque attribut indique si l'attribut est agrégé. Par exemple, si vous incluez un membre de niveau inférieur qui comporte de nombreux membres, vous pouvez supprimer cet attribut et sélectionner un attribut de niveau supérieur, qui comporte moins de valeurs.
  4. Validez le jeu final d'attributs possibles et générez le modèle dimensionnel agrégé.

Création d'index

Vous pouvez améliorer les performances de requête en créant des index. Pour plus d'informations sur les index, voir Index.

Partition de tables

Lorsque vous partitionnez une table, vous la fractionnez par ligne et/ou par colonne. Si une table est fractionnée par colonne, la table a une partition verticale. Si vous la fractionnez par ligne, la table a une partition horizontale. Le partitionnement de tables de faits volumineuses améliore les performances car chaque partition est plus facile à gérer. Partitionnez une table en fonction de la dimension de date transactionnelle d'un modèle dimensionnel. Par exemple, si une table de faits volumineuse comporte des milliards de lignes, l'idéal serait d'affecter à un mois de données sa propre partition.

Le partitionnement des données d'un entrepôt de données permet d'atteindre un certain nombre d'objectifs, notamment :
  • Souplesse de l'accès aux données
  • Simplicité et efficacité des services de gestion des données
  • Evolutivité de l'entrepôt de données
  • Portabilité des éléments de l'entrepôt de données pour les partager dans différents entrepôts de données et les archiver
  • Amélioration des temps de réponse aux requêtes
  • Simplification de la maintenance car les partitions sont plus faciles à gérer que des tables volumineuses

Commentaires en retour