基于Alluxio提升Spark和Hadoop HDFS的系统性能与稳定性

2017 3月 25
09:30-10:10

基于Alluxio提升Spark和Hadoop HDFS的系统性能与稳定性

Alluxio是世界上首个以内存为中心的虚拟的分布式存储系统。它为上层计算框架和底层存储系统构建了桥梁,应用可以通过Alluxio提供的统一数据访问方式访问底层任意存储系统(例如Hadoop HDFS)中的数据。此外,Alluxio以内存为中心的架构使得数据的访问速度能比常规方案快几个数量级。Alluxio开源项目从诞生的4年来发展迅速,已有超过100个组织机构的 400多贡献者参与开源系统的开发。本技术分享将首先介绍Alluxio开源项目最新版本的一些重要特性,包括:Restful API、与Apache Hive的整合等;然后将重点介绍如何基于Alluxio存储系统的提升Spark中单应用的DataFrame/RDD数据的访问性能并提供多应用的数据快速共享;最后还会分析如何利用Alluxio提升Hadoop HDFS集群的数据访问性能与一致性。