Big data schema Datalyse

Innovation

Le projet Datalyse apporte un ensemble d’innovations qui se situent à plusieurs niveaux de par ses multiples facettes. Les cas d’usage Big Data concernent l'analyse rapide de gros volumes de données complexes et hétérogène. Cette problématique n'est donc pas simplement synonyme de gros volumes de données mais impacte aussi la structure des centres de données et leur capacités en termes de performances, de passage à l’échelle (scalabilité), de sécurité et de disponibilité. Dans le cadre de ce projet  les innovations attendues sont les suivantes :

 

  • Architectures économes en énergie des centres de données pour un cloud Big Data :

 

Business et Décision et l'UJF disposent de centre de données verts qui visent la mise à disposition d'infrastructures informatiques mutualisées ayant un impact minimal sur l'environnement. Ces centres de données ont été conçus pour améliorer leur efficacité en termes de Power Usage Efficiency (PUE), Carbon Usage Efficiency (CUE) et Data Center Infrastructure Efficiency (DCIE) tout en maintenant des niveaux de performances importants. Le ratio EUE (cpu) (=PUE/ %charge IT) fait partie des derniers travaux d’EnergeTIC mis en œuvre par Eolas.

 

La première innovation consiste à faire évoluer l'architecture matérielle et le pilotage de ces centres de données par un traitement Big Data. Il s’agit d’étudier et de piloter les meilleurs architectures réseaux, serveurs et supports de stockage (scale-out NAS …) vis à vis de leur capacité et de leur rendement en terme de facilités utilisées (eau, électricité, groupe froid …). L’objectif est d'une part de fournir les meilleures garanties de performances et de disponibilités tout en préservant la capacité « green » des centres de données (conformité à la charte "greenethiquette"). D'autre part, l'architecture des centres de données est aussi cruciale pour la sécurisation des données. Cette structure impacte directement les chaînes de pare-feu et les systèmes matériels de détection d'intrusion relayés par des analyses de trace au niveau applicatif.

 

  • Support infrastructure performant pour collecte, filtrage et analyse scalable :

 

Les solutions actuelles pour le Big Data sont basées sur la force brute pour effectuer la collecte, le stockage des masses de données et pour leur traitement par une forte puissance de calcul. Cette approche nécessite des moyens sans cesse plus importants, avec des rendements de plus en plus décroissants.  La construction d'une donnée utile comporte plusieurs phases importantes (collecte, filtrage, transformation, etc.) et la pertinence de cette donnée peut être limitée dans le temps et dans l'espace. La deuxième innovation porte sur le passage à l’échlle de la collecte et l'analyse des flux de données dans les centres de données. L'objectif est de fournir un mécanisme de collecte / filtrage / transformation des données brutes en amont du jeu de données, pour ensuite faciliter leur filtrage et analyse au niveau applicatif en aval. Ce mécanisme devra permettre d’une part un passage à l’échelle important, et d’autre part, il devra être facile de l’adapter et/ou restreindre, pour les besoins d’applications individuelles.

Cette approche permettra la réalisation de solutions spécifiques au niveau cloud pour déporter une partie des traitements au plus près de l'information et permettra, d'autre part, d’offrir un caractère dynamique et le passage à l’échelle au niveau de l'infrastructure. Ces capacités d'adaptation permettront à l’IT de réagir tant aux changements fonctionnels qu'aux modifications de l'architecture. Cette approche pourra se baser par exemple sur des solutions de bus asynchrone auto-adaptatif en termes de passage à l’échelle. Elle innove par l'intégration de composants d'extraction, de collecte et de traitements directement dans les flux de données. Ce même mécanisme a son intérêt d'une part pour les flux de données au niveau applicatif mais aussi pour l'analyse temps réel des traces de sécurité de la fédération des centres de données.

 

  •  PaaS (Plateform as a Service) cloud Big Data :

 

La troisième innovation porte sur la conception et la mise en œuvre de mécanismes de configuration et d'approvisionnement dynamique de ressources pour réagir au besoin de calcul des applications Big Data. Le cloud computing a ici un rôle important à jouer en permettant un mode de gestion à la demande des ressources virtualisées. L'enjeu ici est de fournir une couche cloud spécialisée pour le traitement des Big Data  qui fournisse des machines virtuelles contenant des piles logicielles adaptées à cette problématique. Le point important concerne l’interopérabilité avec différentes plateformes IaaS. Cette couche cloud doit permettre la configuration, le déploiement et la surveillance des services  Big Data
virtualisés dans les centres de données ainsi que leur dimensionnement dynamique au travers de l'élasticité du cloud. Ces mécanismes doivent notamment optimiser l'utilisation des ressources physiques en maintenant le niveau de performance. Ces mécanismes tireront partie des capacités matérielles issues de l’architecture des centres de données. La problématique ici est clairement une optimisation multi-critères performance / disponibilité / énergie au niveau de la plateforme cloud.

Les principaux points forts de Datalyse découleront de la grande souplesse et de l’ouverture de son infrastructure à destination d’une variété d’applications allant du pilotage de data centers, aux applications offrant un support à la mise à disposition et au traitement de gros volumes de données publiques en passant par des applications décisionnelles et de marketing digital réactives. Sont considérés comme des atouts majeurs de Datalyse :

 

- Une infrastructure complète allant des considérations algorithmiques de fouille de données pour le  Big Data, en passant par  les langages de programmation de ces applications jusqu’à la gestion dynamique du support système et de l’infrastructure matérielle au service de ces applications.

- Un processus d’amélioration continue de la plateforme à travers trois versions successives pour permettre d’atteindre rapidement un stade d’exploitation mature puis des améliorations à tous les niveaux de la plateforme.

- Traiter la gestion du green data center lui-même comme une application Big Data compte tenu du volume considérable des données collectées sur les équipements et la valeur de ces dernières pour l’optimisation de son fonctionnement.

 

 

  • Le projet comporte un certain nombre de risques liés à sa nature de développement expérimental :

 

- Il est basé sur des technologies en pleine effervescence mais pour certaines encore en phase de développement avancé, tel que les outils et langages pour Big Data, et donc par nature instables. Il conviendra de suivre avec une attention toute particulière l’évolution de ces techniques et leur support par les outils du marché afin d’être en phase continue avec les tendances qui se dessinent.

- Le type de données Big Data visées devra être suffisamment riche et dans le même temps d’une complexité limitée afin de permettre de faire face à des problématiques de performances et de tenue en charge.

- La plateforme se heurtera à la diversité de certaines solutions technologiques comme celle liée à la virtualisation. La plateforme devra respecter une certaine forme de généricité des solutions mises en place tout en faisant face aux exigences différentes des applications visées.

 

  • Retombées de l’innovation :

Le projet Datalyse introduit plusieurs innovations présentées dans les paragraphes précédents. Le but de ces innovations est de faire évoluer positivement le développement d’applications Big Data afin de bénéficier des possibilités nouvelles qu’elles offrent, et donc de créer de nouveaux usages. Le projet Datalyse cherche à éviter l’écueil qui consiste à simplement adapter les anciens usages de la gestion des centres d’hébergement ainsi que le développement d’applications manipulant de gros volumes de données avec des technologies inadéquates. Les impacts souhaités de l’innovation sont les suivants :

 

- Faire évoluer les pratiques de conception des centres d’hébergement vers les économies d’énergie et de coût, notamment les technologies de pilotage de centres par la collecte, le traitement et l’analyse des données provenant des équipements du centre.

 

- Extraire de la valeur des gros volumes de données par l’introduction de technologies innovantes de fouille de gros volumes de données grâce aux outils d’analyse très efficaces et à faible coût. Nous visons en particulier le développement d’algorithmes pour les grandes jointures (BJ) et d’algorithmes de linking, mining et clustering. Nous visons également de fournir une infrastructure de stockage et programmation axée sur les données flexible, efficace, et conçue spécifiquement pour le Big Data. Cette infrastructure facilitera le développement des algorithmes (traitements) sur les UBD (User Big Data) et MBD (Monitoring Big Data) tout en en assurant la performance. Cela sera principalement exploité par les applications de pilotage de data centers et de décisionnel (business intelligence) e-commerce.

 

- Offrir un meilleur support pour la diffusion des données publiques grâce à la construction d’une application pilote pour le traitement de gros volumes de données ouvertes du territoire et par la mise en place d’une plateforme complète pour les traiter. En particulier, nous proposons de construire une chaîne de traitements automatisés permettant d'homogénéiser, de publier et de lier les données des portails Open Data territoriaux suivant les standards du Web afin de favoriser l'émergence d'un écosystème d'applications.

 

- Encourager la croissance et le développement urbain dans la ville de Grenoble et de l’agglomération grenobloise en fournissant des services offrant un accès personnalisé à l'information basé sur les technologies de l'information et de la communication et des capitaux humains et sociaux et prenant compte de la localisation géographique des citoyens afin de promouvoir une mobilité et une économie intelligentes.

 

- Offrir aux usages des plateformes Big Data de nouveaux outils de suivi de leurs applications. En particulier en introduisant des techniques de validation et de suivi des usages de ces applications. Il s’agit en particulier de proposer une nouvelle méthodologie de suivi permettant d’assister les développeurs d’applications dans la phase de validation comme l’observation du comportement des utilisateurs et la collecte d’indicateurs permettant de mesurer l’efficacité du service offert par l’application.

 

Business & Decision CNRS Eolas INRIA Centre de Recherche en Informatique, Signal et Automatique de Lille LIG LIRMM Les mousquetaires UJF UM