Arbutus Analyzer : Vous avez dit BIG DATA ?

Comme tant de mots qui font le buzz, il est impossible d’éviter le terme « Big Data » de nos jours, tout spécialement lorsqu’on travaille dans le domaine de l’analyse des données.

Wikipedia définit le « Big Data » comme : « des ensembles de données devenus si volumineux qu’ils dépassent l’intuition et les capacités humaines d’analyse et même celles des outils informatiques classiques de gestion de bases de données… » et aussi « …ensembles de données qui sont si grands ou complexes que les applications traditionnelles de traitement de données sont inadéquates… ».

Le terme « Big Data » est relativement récent et souvent associé aux immenses quantités de données non structurées provenant de sites de médias sociaux comme Facebook ou Twitter. Quand on considère le volume de messages vers ces sites (on parle de milliards de messages par jour), on comprend facilement pourquoi les modèles traditionnels de traitement de données ne sont pas adaptés. Soit ils ne sont pas du tout en mesure d’analyser ces données, soit ils ne peuvent pas produire les résultats demandés en temps voulu, nécessitant des jours voire des semaines de traitement pour produire des informations pouvant déjà être considérées comme obsolètes.

Le terme « big data » s’est peu à peu éloigné de cette première idée, pour être plus généralement associé à l’idée de manipuler « beaucoup de données » comme par exemple les volumes transactionnels que l’on peut rencontrer dans la plupart des grandes organisations ou entreprises.

Ces volumes de données transactionnelles structurées ont connu une croissance exponentielle au cours de ces dernières années et sont soumis aux mêmes problématiques de traitement que les autres sources de données volumineuses.

Dans le domaine de l’analyse de données, il est fréquent d’entendre dire « Nous avons des fichiers extrêmement volumineux ». Bien souvent le terme « volumineux » est davantage lié à un aspect subjectif du volume de données qu’à une réelle nécessité d’utiliser des outils dédiés au « Big Data ».

Si il y a quelques années, les données « volumineuses » étaient celles qui dépassaient les 65000 lignes autorisées dans un tableur Excel, aujourd’hui une table de 10 millions d’enregistrements semble « importante » par rapport au million de lignes autorisées dans ce même tableur. Il est évident que les volumes de données actuels ont un ordre de grandeur supérieur, puisque la plupart des entreprises traitent des volumes de plusieurs millions d’enregistrements par table mais cela ne signifie pas pour autant que les utilisateurs font de meilleurs choix d’outils lorsqu’il s’agit de manipuler ou d’analyser leurs données.

L’un des outils associés au  » Big Data  » est « Hadoop/MapReduce ». Cette solution permet d’effectuer des traitements répartis sur des architectures distribuées et d’utiliser simultanément plusieurs processeurs. Autrement dit, si cela prend 100 heures pour effectuer une analyse sur votre volume de données, alors son déploiement sur 100 processeurs simultanés pourrait théoriquement demander simplement une heure. Malheureusement, les coûts liés à l’infrastructure et à la maintenance de ce type de solution sont extrêmes et réservés au  » Big Data  » avec un grand B.

Parallèlement à ces systèmes complexes, Arbutus Software développe depuis des années des solutions dédiées au traitement de données permettant d’obtenir d’excellents résultats même sur des données de type « Big Data » sans pour autant devoir investir dans un matériel ou des systèmes coûteux.

Bien évidemment on ne parle pas ici d’analyser l’intégralité des bases de données des GAFA mais de proposer une solution apte à répondre à la plupart des entreprises qui stockent de grands volumes de données. A titre d’exemple, Arbutus Analyzer peut atteindre une vitesse de traitement de 6 millions d’enregistrements par seconde sur un ordinateur de bureau. Ceci rivalise avec des alternatives beaucoup plus chères et complexes tout en restant plus rapide que les solutions de données SQL classiques. Avant d’augmenter votre budget de traitement, considérez les alternatives qui sont plus simples et déjà disponibles.

La réelle problématique est finalement assez simple : choisir l’outil informatique qui permettra de traiter facilement le volume de données souhaité dans le délai imparti tout en respectant le budget fixé.

Credit to Grant BRODIES - President, Arbutus Software

Arbutus Analyzer : solution pour l'audit et l'analyse informatique des données