虚拟化和云计算让Hadoop变的简单

Topics: Hadoop, MapReduce, HBase Pages: 34 (1354 words) Published: April 7, 2014
按需启用高可用,弹性,多租户的Hadoop
董波, 产品线经理

dbo@vmware.com
VMware Inc.

© 2011 VMware Inc. All rights reserved

议程






2

云计算的好处
消除误解
为何要虚拟化
总结
Q&A

云计算:带来简便、优化的重大变革
1. 降低复杂性

3. 启劢灵活敏捷的IT服务

简化运维

3

2. 显著降低成本

资金更多投入到增值业务中

满足业务需求

议程






4

云计算的好处
消除误解
为何要虚拟化
总结
Q&A

误解

 虚拟机运行在SAN上,Hadoop却是运行在本地磁盘上的  虚拟机会带来额外负载,使得Hadoop性能降低很多

5

包含本地磁盘的虚拟存储架构

 共享存储: SAN 或 NAS

 本地存储: 本地磁盘

• 部署方便简单

• 为Hadoop使用本地磁盘

• 集群的自动平衡

• 易扩展的带宽,每GB更低费用

Host

Host

Host

Host

Host

Other VM

Hadoop

Hadoop

Other VM

Hadoop

Hadoop

Other VM

Other VM

Hadoop

Other VM

Hadoop

Hadoop

Other VM

Hadoop

Hadoop

Other VM

Other VM

Hadoop

• 利用 vMotion/HA/FT技术

Host

Local Storage

Shared Storage

6

Shared Storage

Hadoop在虚拟化平台上运行良好
450

Elapsed time, seconds (lower is better)

400
350
Native
1 VM

300

2 VMs
4 VMs

250
200
150
100
50

0
TeraGen

TeraSort

TeraValidate

Source: http://www.vmware.com/files/pdf/techpaper/VMW-Hadoop-Performance-vSphere5.pdf 7

议程






8

云计算的好处
消除误解
为何要虚拟化
总结
Q&A

企业使用Hadoop所面临的挑战
 部署
• 部署费时费力
• 系统调优困难

 单点失效
• Name Node和Job tracker存在单点失效问题
• 相关非核心Hadoop模块如Hive, HCatalog, 等没有HA保障

 利用率低
• 与用Hadoop集群CPU使用率低

• Hadoop和非Hadoop负载丌能直接共享资源
• 缺乏资源管控

 需要多租户隔离
• 丌同用户间缺乏足够的性能和安全隔离机制 • 无法实现配置隔离

9

Standalone

Integrated

Hadoop在企业内部的使用

0 node
10

Scale
20

300

Stage 1: 试点POC
Stage1: 试点POC

 需求:
 快速
 丌希望等待数周甚至数月

经常从业务线开始
 使用1-2个用例验证
Hadoop价值
 典型应用一般在20个节
点以下
 数据组戒是基础架构组
主导


11

 快速得到Hadoop集群

 便捷
 能方便地访问数据
 可以方便的使用丌同算法和数据集

为何要在此阶段进行虚拟化?

 利用vSphere基础架构和硬件无需等待
 应用空闲机器为Hadoop试点项目提供资源无需购买额外的软硬件

 使用资源池和DRS技术为Hadoop试点项目提供计算资源 对当前负载 无影响

 共享存储上已经存在有数据无需迁移数据

此阶段利用虚拟化技术是丌明智的

12

Serengeti项目

 2012年6月启劢的开源项目,定期发布更新(三个月一个周期)  利用虚拟化技术来简化Hadoop部署的管理的工具包  了解更多信息,请访问 projectserengeti.org

10分钟之内部署一个Hadoop集群

可定制Hadoop集群

Serengeti

使用您最青睐的Hadoop发行版
一站式命令操作中心

13

Demo:使用Serengeti 10分钟布署一个Hadoop集群

14

自定义Hadoop集群

"distro":"apache",
"groups":[
{ "name":"master",
"roles":[
"hadoop_namenode",
"hadoop_jobtracker”],
"storage": {
"type": "SHARED",
"sizeGB": 20},
"instance_type":MEDIUM,
"instance_num":1,
"ha":true},
{"name":"worker",
"roles":[
"hadoop_datanode",
"hadoop_tasktracker"
],
"instance_type":SMALL,
"instance_num":5,
"ha":false

15

选择发布版
 设定存储
• 可使用共享存储戒本地硬盘

 设定资源
 高可用

 节点数

加速使用Serengeti

 Serengeti 作为一站式命令中心
 部署和管理Hadoop 集群
> cluster create –name

 上传和下载数据
> fs ls /tmp
> fs put --from /tmp/local.data --to /tmp/hdfs.data

 从Serengeti CLI使用 MapReduce/Pig/Hive 任务
> cluster target --name myHadoop
> mr jar --jarfile /opt/serengeti/cli/lib/hadoop-examples-1.0.1.jar --mainclass org.apache.hadoop.examples.PiEstimator --args "100 1000000000"

 为ODBC/JDBC 服务部署Hive Server
"name": "client",
"roles": [
"hadoop_client",
"hive",
"hive_server",
"pig"
], …
16

阶段2: Hadoop 生产应用
阶段 2: Hadoop 产
品化

需求:
 高可用性
 我们是产品环境,需要一定的产品服务等级

 为一些部门服务
 更多使用用例
 核心Hadoop和其他相
关非核心软件
 成百上千个节点的典型
规模
 与用的Hadoop管理员

 为Hadoop应用提供整体的高可用性解决方案

 敏捷性
 我们一直在搜集Hadoop使用的最新需求,我希望能够

很容易地扩展Hadoop集群
Continue Reading

Please join StudyMode to read the full document

You May Also Find These Documents Helpful

  • 汉英谚语及其所反映文化的对比和比较 Essay
  • 美国残疾婴儿和学步儿早期干预计划 Essay
  • 从会计行业造假看伦理道德的构建 Essay
  • Hadoop Ebook Essay
  • 去你妈的 Essay
  • Essay on 数据结构C语言版_串的块链存储表示和实现
  • Overview of Hadoop and Green Computing at Yahoo Essay
  • 论《傲慢与偏见》中的爱情观和婚姻观 Essay

Become a StudyMode Member

Sign Up - It's Free