La business intelligence est aujourd’hui “drivée” par plusieurs éditeurs de logiciels – les principaux étant Microsoft avec Power BI, Tableau et Domo :

Ces outils fournissent des tableaux de bord opérationnels sur différents domaines à plusieurs niveaux hiérarchiques pouvant aller jusqu’au CODIR. Conscients des enjeux de cyber sécurité qu’implique ce type de projets, les architectes groupes réfléchissent aux solutions les plus adaptées.

Comment ces outils fonctionnent-ils ? Concrètement, dans une première démarche, un outil de BI stocke la donnée collectée dans ses propres bases de données dont le client ne peut souvent pas choisir le fournisseur et la localisation. Par exemple, un Power BI récupère de la donnée dans une base de données client chez Google Cloud et la stocke dans sa base de données Azure.

C’est ainsi que la plupart des outils de BI proposent à présent au moins deux modes de connexion : l’Import Query et le Direct Query.

Plusieurs défis se posent alors :

  • Est-ce un problème que ma donnée soit stockée dans deux bases de données différentes ? On pense par exemple à une donnée très sensible telle que la donnée financière ;
  • Les connecteurs Live Query sont-ils assez robustes pour interroger un très gros volume de données ?
  • Quels sont les coûts engendrés par le choix de l’architecture ?

Définition : Import Query et Direct Query

Tout d’abord, quelle est la différence entre ces deux notions, qui peuvent varier selon les outils de BI ?

Import Query : le fait de collecter la donnée stockée dans une database dédiée et qui appartient à l’outil de BI.

Direct Query : le fait de lire de la donnée en direct dans la database source sans la stocker ailleurs.

Import Query

La majorité des outils de BI propose ce mode de collecte de la donnée et ce, pour plusieurs raisons.

Mindset

Cela crée de la valeur pour l’outil en question. Évidemment, l’outil de BI garantit la sécurité de la donnée collectée (elle ne la diffusera ou ne la vendra pas), mais elle possède bien une donnée qui ne lui appartient pas et qui est importante aux yeux d’une entreprise. Cette dernière aura donc tendance à se fidéliser auprès de cet éditeur.

Bénéfices pour l’utilisateur

Une fois que la donnée est stockée, l’outil de BI propose aux éditeurs qui la traitent d’y apporter des transformations, comme des jointures avec d’autres bases de données. Il s’agit ici de transformer la donnée brute en une donnée qui répond parfaitement aux besoins de la visualisation dans un tableau de bord.

En matière de performance, la donnée étant stockée chez l’éditeur, les requêtes permettant d’afficher les visualisations lors d’un changement de page seront plus rapides.

Coût

Enfin, un dernier aspect non négligeable, le coût du tableau de bord. Généralement, lorsque vous souscrivez à un outil de BI, vous payez une licence qui vous donne le droit à un certain volume de stockage. Power BI est par exemple gratuit jusqu’à 1 go par jeu de données. Il faut passer sur une licence premium pour augmenter ce volume de stockage à 10 go ou plus. Vous payez donc un volume maximum.

Ainsi, vos frais relatifs à la donnée s’arrêtent là (exceptés donc les autres coûts liés par exemple aux accès utilisateurs). Peu importe le nombre de fois qu’un utilisateur requête une visualisation, votre coût sera fixe. À noter que l’entreprise paiera donc deux fois le stockage de sa donnée, une fois via l’outil de BI et une fois via le serveur où est stockée sa donnée source.

Direct Query

Une entreprise souhaitant stocker sa donnée à un seul endroit n’aura donc pas d’autre choix que d’utiliser ce mode de collecte. Le Direct Query est moins avantageux pour un éditeur d’outils de BI car il perd les points expliqués ci-dessus.

Mindset

La seule valeur ajoutée de l’outil de BI devient la visualisation.

Bénéfices pour l’utilisateur

  • Afficher la donnée la plus fraîche provenant de la base de données ;
  • Un seul point de stockage de la donnée (préférable si la donnée est sensible).

Inconvénients pour l’utilisateur

  • Avec le Direct Query, la majorité des outils de BI ne proposent plus la possibilité de faire des transformations. La donnée devra donc être traitée avant d’être collectée par l’outil de BI dans un BigQuery ou un Snowflake par exemple ;
  • La performance sera impactée en fonction du temps de réponse entre le serveur source et l’outil de BI, qui sera généralement plus long que la méthode Import. Sur un très gros volume de données, le temps d’affichage des visualisations sera trop long et deviendra un frein à l’adoption et la navigation.

Coût

En matière de coût, l’éditeur de l’outil de BI est le grand perdant. Le grand gagnant est en fait le fournisseur de base de données qui contient la donnée source. Par exemple, GCP facture à la requête, même dans un data studio qui appartient à Google, chaque nouvelle requête sur ce tableau de bord engendre des coûts d’utilisation au client. Plus la volumétrie est importante, plus les coûts le seront. Une architecture mal optimisée au sein de GCP sera vraiment coûteuse au quotidien, comme un Direct Query sur une vue classique faisant la jointure entre deux tables très volumineuses. Il sera important de porter une attention particulière à la performance et au nombre de requêtes effectuées. C’est le prix à payer pour avoir la main totale sur sa donnée et être maître de sa localisation.

Bonus : Hybrid Query

Chez certains éditeurs, notamment Power BI, il existe un troisième type nommé “Hybride”. Ce mode combine les modes import Query et Direct Query au sein d’une même table.

Concrètement, vous pouvez cibler une partie de votre table pour qu’elle vous renvoie la donnée en live query – comme les données du mois précédent, tandis que la donnée antérieure à ce mois sera récupérée via l’import Query.

Bénéfice pour l’utilisateur

Dans le cas où l’utilisateur requête une base de données avec une très grosse volumétrie, cela améliorera le temps d’affichage de son tableau de bord en lisant la plus grosse partie de la base (la donnée historique par exemple) via l’Import Query. Il pourra tout de même avoir de la donnée en temps réel (la donnée la plus fraîche par exemple) via le Direct Query sur une partie ciblée de la base de données.

Conclusion

La sensibilité de la donnée et le coût à terme sont deux points essentiels à considérer pour choisir une approche adaptée afin d’ingérer de la donnée dans des outils de BI pour réaliser un tableau de bord.

D’un point de vue relatif à la sécurité, une entreprise n’a pas intérêt à stocker sa donnée dans plusieurs base de données.

Cependant, un connecteur Direct Query n’est pas assez robuste sur des très gros volumes de données : nous l’avons vu, le temps de chargement sur une page sera un frein à la navigation sur le tableau de bord. En revanche, il est très efficace sur des petits volumes de données, si les tables alimentant les visualisations ont été factorisées en amont au sein de l’entrepôt de données. Il pourra également répondre au besoin d’afficher de la donnée en temps réel.

À ce jour, la solution la plus pertinente, notamment pour de gros volumes de données, est de choisir un même fournisseur pour stocker et lire la donnée. Par exemple, un Power BI ingérant de la donnée en Import Query depuis Azure la stocke également dans Azure – si le serveur est différent, il s’agit bien du même fournisseur.

Pour résumer :

Vous souhaitez en savoir plus ou être accompagné·e·s par nos équipes Data ?

Rédigé par Maxime Rousseau, Consultant Senior Data

Sources
(1) https://www.qlik.com/fr-fr/gartner-magic-quadrant-business-intelligence

Articles recents