一、hadoop三大组件的作用?
Hadoop的三大核心组件分别是:
1、HDFS(Hadoop Distribute File System):hadoop的数据存储工具。
2、YARN(Yet Another Resource Negotiator,另一种资源协调者):Hadoop 的资源管理器。
3、Hadoop MapReduce:分布式计算框架。
HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。通过YARN,不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。
Hadoop的MapReduce是对google三大论文的MapReduce的开源实现,实际上是一种编程模型,是一个分布式的计算框架,用于处理海量数据的运算。
二、数据仓库十大主题模型?
数据仓库十大的主题模型如下
高层模型:考虑所有上层主题,主题之间的关系
中层模型:细化 上层主题 数据项
物理模型:基于性能,存储,平台特点,数据合并,分区设计
维度建模(Ralph Kimball 拉尔夫·金博尔)提出 (当前最主流的模型)
星型:所有维表直接连接到事实表
雪花型: 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上
三、hadoop框架?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
四、hadoop特性?
hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是一种可靠,高效,可伸缩的方式进行处理的,它有一下几方面特性:
1.高可靠性:采用冗余数据存贮方式,即使一个副本发生故障,其他副本也可以保证对外工作的正常进行。
2.高效性:作为并行分布式计算平台,hadoop采用分布式存贮和分布式处理两大核心技术,能够高效的处理PB级别的数据
3.高可扩展性:hadoop的设计目标是可以高效稳定的运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。
4.高容错性:采用冗余数据存贮方式,自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.成本低:hadoop采用廉价的计算机集群,普通的用户也可以pc机搭建环境
6.运行在linux平台上,hadoop是基于java语言开发的,可以较好的运行在linux的平台上
7.支持多种编程语言,如:C++等/
五、hadoop之父?
Hadoop之父Doug Cutting
Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫 hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo,不过,事实上的小象瘦瘦长长,不像 Logo 上呈现的那么圆胖。“我儿子现在 17 岁了,所以就把小象给我了,有活动时就带着小象出席,没活动时,小象就丢在家里放袜子的抽屉里。
六、hadoop两大核心技术来源?
Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总。
七、hadoop 存储原理?
hadoop原理:
其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由 JobTrackers 和 TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
八、什么是hadoop?
Hadoop是Apache基金会开发的分布式系统基础架构
Hadoop主要被用来解决海量数据的存储和海量数据的分析计算
广义上来说,Hadoop通常是指一个更广泛的概念----Hadoop生态圈
九、hadoop重要组成?
Hadoop的组成主要分为三个部分,分别为最著名的分布式文件系统(HDFS)、MapReduce框架、储存系统(HBase)等组件。
HDFS:数据切割、制作副本、分散储存
HDFS会把一个文档切割成好几个小区块、制作副本,然后在Hadoop的服务器群集中跨多台计算机储存副本,文档副本通常预设为3份,该设定可以自行更改。除此之外,HDFS的理念是其认为移动运算到数据端通常比移动数据到运算端来得成本低,这是由于数据的位置信息会被考虑在内,因此运算作业可以移至数据所在位置。
MapReduce:拆解任务、分散处理、汇整结果
十、hadoop的特性?
hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是一种可靠,高效,可伸缩的方式进行处理的,它有以下几方面特性:
1.高可靠性:采用冗余数据存贮方式,即使一个副本发生故障,其他副本也可以保证对外工作的正常进行。
2.高效性:作为并行分布式计算平台,hadoop采用分布式存贮和分布式处理两大核心技术,能够高效的处理PB级别的数据
3.高可扩展性:hadoop的设计目标是可以高效稳定的运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。
4.高容错性:采用冗余数据存贮方式,自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.成本低:hadoop采用廉价的计算机集群,普通的用户也可以pc机搭建环境
6.运行在linux平台上,hadoop是基于java语言开发的,可以较好的运行在linux的平台上
7.支持多种编程语言,如:C++等/