Nous avons tout d'abord
- l'insertion des données via des solutions comme Kafka par exemple
- le stockage sur des systèmes HDFS ou non (Cassendra, fichiers sur disque…)
- le processing pour traiter les données via des solutions comme MapReduce, Spark...
- et enfin le rendu utilisateur.
C'est dans cette dernière partie qu'Apache Drill peut être rangé. Il fait la transition entre vos applications et les données qui peuvent être issues du monde NoSQL (HDFS, fichiers, Cassandra...) mais aussi de bases relationnelles quand vous devez croiser les données.
Drill essaye de créer un schéma pour poser les choses avant de vous les renvoyer dans le format que vous attendez. En interne il ne manipule que du JSON. Plus on aura de mémoire et de nœuds, et plus Drill sera performant.
Pour tester Drill vous pouvez très simplement le télécharger pour exécuter vos requêtes en local (mode embedded). Une application web permet de lancer des requêtes pour les tester et voir par exemple leurs plans d'exécutions.
Pour optimiser les performances vous pouvez demander à l'outil de créer des tables locales (vues matérialisées). Il est aussi toujours mieux de requêter la donnée au plus près de son stockage, donc n’hésitez pas à installer Apache Drill sur chacun des nœuds de votre cluster.
Tugdual a ensuite fait du live coding pour nous montrer la facilité d'utilisation et les différents concepts. Si vous voulez en savoir plus plusieurs vidéos sont disponibles sur le site d' Apache Drill et la documentation du projet est assez riche.
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.