博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据学习之路------借助HDP SANDBOX开始学习
阅读量:4298 次
发布时间:2019-05-27

本文共 2118 字,大约阅读时间需要 7 分钟。

一开始...

  一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣。当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少。

  所以学习的过程可能会很艰辛甚至有时候会很缓慢,但是感觉这东西未来会很有用途,最初了解大数据是从《大数据时代》这本书开始的,里面的很多概念和预测让我觉得很神奇。

  但是渐渐生活中的一些事物被印证,我渐渐接受了这本书的内容,我觉得这本书还是值得一看的。

  在国内这个技术似乎是比较新颖的,做的人似乎不是很多,正因为如此,资料也会匮乏,学习难度也上升了,但是这不是我们放弃的理由不是么?

借助平台管理工具

  废话少说,多学些东西才是正经事,在公司实习过一段时间了,感觉初学的困难之一就是,搭建平台。

  所以我们可以了解一下一些比较流行的平台管理工具:

  HDP、CDH

  而我在公司使用的便是HDP,所以我就大概的说一下HDP好了

HDP

HDP是什么?

  HDP全称叫做Hortonworks Data Platform。

  Hortonworks数据平台是一款基于Apache Hadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务。该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益。HDP还提供了一个开放,稳定和高度可扩展的平台,使得更容易地集成Apache Hadoop的数据流业务与现有的数据架构。该平台包括各种的Apache Hadoop项目以及Hadoop分布式文件系统(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各种组件,使Hadoop的平台更易于管理,更加具有开放性以及可扩展性。

  官网地址为:http://zh.hortonworks.com/

HDP的架构

 

学习路线:

由上图看出

大概分为这么几类工具:

数据管理:

HDFS、YARN

数据访问:

Hive、Tez、Pig、Storm、Spark、HBase、Accumulo、Solr

数据管制和集成:

Atlas、Falcon、Oozie、Sqoop、Flume、Kafka

安全性:

Knox、Ranger

运营:

Ambari Zookeeper

Cloud:

Cloudbreak

既然没有什么具体的路线那么就是一个类一个类的来学习好了。

Hortonworks Sandbox的安装与使用:

  官网上解释:Hortonworks Sandbox,可以使用它尝试一下最新的hdp特性和功能。

  它可以装在一个VM上,如此来说,给我们学习大数据相关内容提供了极大的便利

  下载地址:http://zh.hortonworks.com/downloads/#sandbox

 

  安装的方法很简单,使用相应的虚拟机软件,直接导入就OK了。

 注意:我的笔记本电脑是12g内存的,而HDP2.5所需要的最小内存是8G,而如果你的内存不够,可以选择低版本的SANDBOX。

安装后,开启虚拟机就可以了

启动的过程可能会很久要耐心等待。

启动如下图所示:

 

打开浏览器,输入http://127.0.0.1:8888/即可。

进入后可以点开 view advanced options来查看更多的信息。

右下角有如下内容:

* Service disabled by default. To enable the service you need to log in as an ambari admin.

The ambari admin password can be set by 

这里需要我们进行ssh登录后,添加admin账户的密码,并使用这个admin账户来登录虚拟机。

ssh工具登录使用地址127.0.0.1 端口为 2222

 这里也可以使用浏览器进行登录:

在浏览器里输入127.0.0.1:4200,访问即可

用户名:root

密码:  hadoop

登录后需要修改密码,这里的密码设置复杂一些,简单密码有可能通不过(不过经过本人测试,当你以后再次登录后,可以运行passwd root,修改成任意你想要的密码)

然后运行ambari-admin-password-reset命令,修改ambari的admin账户密码。

修改后,我们在浏览器里输入172.0.0.1:8080,并用admin账户登录。

截张图,

 

关于ambari的介绍如下:

  

  Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

  Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。

 

以后我们就用它来学习了!

转载地址:http://dzvws.baihongyu.com/

你可能感兴趣的文章
docker容器秒死的解决办法
查看>>
管理网&业务网的一些笔记
查看>>
openstack报错解决一
查看>>
openstack报错解决二
查看>>
linux source命令
查看>>
openstack报错解决三
查看>>
乙未年年终总结
查看>>
子网掩码
查看>>
第一天上班没精神
查看>>
启动eclipse报错:Failed to load the JNI shared library
查看>>
eclipse安装插件的两种方式在线和离线
查看>>
linux下源的相关笔记(suse)
查看>>
linux系统分区文件系统划分札记
查看>>
Linux(SUSE 12)安装Tomcat
查看>>
Linux(SUSE 12)安装jboss4并实现远程访问
查看>>
Neutron在给虚拟机分配网络时,底层是如何实现的?
查看>>
netfilter/iptables全攻略
查看>>
Overlay之VXLAN架构
查看>>
Eclipse : An error occurred while filtering resources(Maven错误提示)
查看>>
在eclipse上用tomcat部署项目404解决方案
查看>>