Projets BD

Équipe : BD

  • EPIQUE - Reconstruire l'évolution des sciences à grande échelle

    L'évolution des connaissances scientifiques est directement liée à l'histoire de l'humanité. Les archives documentaires et bibliographiques comme le « Web Of Science » (WoS) ou PubMed représentent des sources fécondes pour l’analyse et la reconstruction de cette évolution. Le projet de recherche proposé part des travaux de D. Chavalarias et J.-P. Cointet sur l’analyse de la dynamique de corpus évolutifs et la construction automatique de treillis «phylomémétiques» de topics (en analogie avec l'arbre généalogiques des espèces). Les outils actuels sont limités au traitement de corpus de taille moyenne et à une utilisation non interactive. Les contributions attendues se situent à la fois dans les domaines de l'Informatique et des Sciences humaines et sociales. Notre objectif est de développer des solutions performantes pour générer et interagir avec des cartes phylomémétiques qui exploitent les avancées technologiques récentes pour la parallélisation des tâches et des algorithmes sur des données complexes et volumineuses. Ces solutions sont conçues et et validées en collaboration avec des experts en philosophie et histoire des sciences sur différents corpus de grande taille. Mots clés: épistémologie quantitative, évolution des sciences, détéction de topics, alignement temporel, traitements de données à large échelle, sciences des données, big data, scientométrie

    Responsable : Bernd AMANN
    01/01/2017
    Plus d'informations ici
  • experimaestro - Planification et gestion d'expériences informatiques

    Experimaestro is an experiment manager based on a server that contains a job scheduler (job dependencies, locking mechanisms) and a framework to describe the experiments with JavaScript or in Java.

    Responsable : Benajmin PIWOWARSKI
    01/01/2016
    Plus d'informations ici
  • SPARQL on Spark - SPARQL query processing with Apache Spark

    A common way to achieve scalability for processing SPARQL queries over large RDF data sets is to choose map-reduce frameworks like Hadoop or Spark. Processing complex SPARQL queries generating large join plans over distributed data partitions is a major challenge in these shared nothing architectures. In this article we are particularly interested in two representative distributed join algorithms, partitioned join and broadcast join, which are deployed in map-reduce frameworks for the evaluation of complex distributed graph pattern join plans. We compare five SPARQL graph pattern evaluation implementations on top of Apache Spark to illustrate the importance of cautiously choosing the physical data storage layer and of the possibility to use both join algorithms to take account of the existing predefined data partitionings. Our experimentations with different SPARQL benchmarks over real-world and synthetic workloads emphasize that hybrid join plans introduce more flexibility and often can achieve better performance than join plans using a single kind of join implementation.

    Responsable : Hubert NAACKE
    01/01/2015
    Plus d'informations ici
Archives
 Mentions légales
Carte du site |