Kylo介绍
Kylo是一个基于Apache Hadoop和Apache Spark构建的功能丰富的数据湖平台.它提供了完整的数据湖解决方案,支持自动发数据摄取,数据准备和数据发现.它集成了有关元数据的捕获,安全和数据质量的最佳实践,包含和许多用Apache Spark和Apache hive进行数据湖操作的例子.
另外Kylo还提供了灵活的数据处理框架(基于Apache NIFI),用于构建批处理或者流处理管道模板,以及在不影响数据治理要求的情况下实现自动服务功能.Kylo有一个集成的元数据服务器,目前与Mysql和Postgres等数据库兼容.此外Kylo可以与Apache Ranger或Sentry以及CDH Navigator或Ambari集成,以进行集群监控。
Kylo的Web应用程序层提供面向业务用户的功能,包括数据分析师,数据管理员,数据科学家和IT运营人员。它利用Apache NiFi作为其调度程序和编排引擎,为设计具有200个处理器(数据连接器和转换)的新类型管道提供集成框架。
安装
Prerequisites
- Install MySQL (password: hadoop)
apt-get install mysql-server OR apt-get install mariadb-server (recommand)
- Ensure that “/opt/” has root privileges.
- Download Java8 and extract to /opt/java8.
tar -xvf jdk-8u92-linux-x64.tar.gz
mv jdk1.8.0_92 java8
- Download Scala and extract data into /opt/scala2.
tar -xvf scala-2.12.2.tgz
mv scala-2.12.2 scala2
#wget https://downloads.lightbend.com/scala/2.12.2/scala-2.12.2.tgz -P /opt/
- Download Spark2 and extract data into /opt/spark2
#wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz -P /opt/
tar -xvf spark-2.1.0-bin-hadoop2.7.tgz
mv spark-2.1.0-bin-hadoop2.7 spark2
- Download Maven3 using binary and extract data into /opt/maven3
# wget http://mirror.fibergrid.in/apache/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.tar.gz -P /opt/
tar -xvf apache-maven-3.5.0-bin.tar.gz
mv apache-maven-3.5.0 maven3
- Set environment variables in ~/.bashrc & “/etc/profile (for all users)” file.
JAVA_HOME=/opt/java8
JRE_HOME=/opt/java8/jre
SCALA_HOME=/opt/scala2
SPARK_HOME=/opt/spark2
MAVEN_HOME=/opt/maven3
M2_HOME=/opt/maven3
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$MAVEN_HOME/bin$:$M2_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin