Kylo介绍

Kylo是一个基于Apache Hadoop和Apache Spark构建的功能丰富的数据湖平台.它提供了完整的数据湖解决方案,支持自动发数据摄取,数据准备和数据发现.它集成了有关元数据的捕获,安全和数据质量的最佳实践,包含和许多用Apache Spark和Apache hive进行数据湖操作的例子.

另外Kylo还提供了灵活的数据处理框架(基于Apache NIFI),用于构建批处理或者流处理管道模板,以及在不影响数据治理要求的情况下实现自动服务功能.Kylo有一个集成的元数据服务器,目前与Mysql和Postgres等数据库兼容.此外Kylo可以与Apache Ranger或Sentry以及CDH Navigator或Ambari集成，以进行集群监控。

Kylo的Web应用程序层提供面向业务用户的功能，包括数据分析师，数据管理员，数据科学家和IT运营人员。它利用Apache NiFi作为其调度程序和编排引擎，为设计具有200个处理器（数据连接器和转换）的新类型管道提供集成框架。

安装

Prerequisites

Install MySQL (password: hadoop)

apt-get install mysql-server OR apt-get install mariadb-server (recommand)

Ensure that “/opt/” has root privileges.
Download Java8 and extract to /opt/java8.

tar -xvf jdk-8u92-linux-x64.tar.gz
mv jdk1.8.0_92 java8

Download Scala and extract data into /opt/scala2.

tar -xvf scala-2.12.2.tgz
mv scala-2.12.2 scala2
#wget https://downloads.lightbend.com/scala/2.12.2/scala-2.12.2.tgz -P /opt/

Download Spark2 and extract data into /opt/spark2

#wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz -P /opt/
tar -xvf spark-2.1.0-bin-hadoop2.7.tgz
mv spark-2.1.0-bin-hadoop2.7 spark2

Download Maven3 using binary and extract data into /opt/maven3

# wget http://mirror.fibergrid.in/apache/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.tar.gz -P /opt/
tar -xvf apache-maven-3.5.0-bin.tar.gz
mv apache-maven-3.5.0 maven3

Set environment variables in ~/.bashrc & “/etc/profile (for all users)” file.

JAVA_HOME=/opt/java8
JRE_HOME=/opt/java8/jre
SCALA_HOME=/opt/scala2
SPARK_HOME=/opt/spark2
MAVEN_HOME=/opt/maven3
M2_HOME=/opt/maven3
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$MAVEN_HOME/bin$:$M2_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

Test Configuration

参考

Kylo的安装

Kylo的安装

Kylo介绍

安装

Prerequisites

Test Configuration

参考

Published

Category

Tags