HBase 在 hulu 的使用和实践. hulu

Similar documents
计算机科学与技术专业本科培养计划. Undergraduate Program for Specialty in Computer Science & Technology

上汽通用汽车供应商门户网站项目 (SGMSP) User Guide 用户手册 上汽通用汽车有限公司 2014 上汽通用汽车有限公司未经授权, 不得以任何形式使用本文档所包括的任何部分

Chapter 1 (Part 2) Introduction to Operating System

云计算入门 Introduction to Cloud Computing GESC1001

云计算入门 Introduction to Cloud Computing GESC1001

测试基础架构 演进之路. 茹炳晟 (Robin Ru) ebay 中国研发中心

IBM 开源技术微讲堂容器技术与微服务系列

如何查看 Cache Engine 缓存中有哪些网站 /URL

IBM 开源技术微讲堂容器技术与微服务系列

智能终端与物联网应用 课程建设与实践. 邝坚 嵌入式系统与网络通信研究中心北京邮电大学计算机学院

我们应该做什么? 告知性分析 未来会发生什么? 预测性分析 为什么会发生 诊断性分析 过去发生了什么? 描述性分析 高级分析 传统 BI. Source: Gartner

Understanding IO patterns of SSDs

OpenCascade 的曲面.

2. Introduction to Digital Media Format

Apache OpenWhisk + Kubernetes:

本科专业人才培养计划 信息学科大类分册 华中科技大学教务处 二 O 一五年七月

Microsemi - Leading Innovation for China s Hyperscale Data Centers

CHAPTER 5 NEW INTERNET APPLICATIONS

Build a Key Value Flash Disk Based Storage System. Flash Memory Summit 2017 Santa Clara, CA 1

Apache Kafka 源码编译 Spark 大数据博客 -

Chapter 11 SHANDONG UNIVERSITY 1

组播路由 - MSDP 和 PIM 通过走

HAWQ. MPP SQL for HDFS of Hadoop 基于 Hadoop 原生 HDFS 的大规模并行 SQL

2.8 Megapixel industrial camera for extreme environments

5.1 Megapixel machine vision camera with GigE interface

PCU50 的整盘备份. 本文只针对操作系统为 Windows XP 版本的 PCU50 PCU50 启动硬件自检完后, 出现下面文字时, 按向下光标键 光标条停在 SINUMERIK 下方的空白处, 如下图, 按回车键 PCU50 会进入到服务画面, 如下图

A Benchmark For Stroke Extraction of Chinese Characters

IEEE 成立于 1884 年, 是全球最大的技术行业协会, 凭借其多样化的出版物 会议 教育论坛和开发标准, 在激励未来几代人进行技术创新方面做出了巨大的贡献, 其数据库产品 IEL(IEEE/IET Electronic Library)

Oracle 一体化创新云技术 助力智慧政府信息化战略. Copyright* *2014*Oracle*and/or*its*affiliates.*All*rights*reserved.** *

Operating Systems. Chapter 4 Threads. Lei Duan

Spark Standalone 模式应用程序开发 Spark 大数据博客 -

DataCube Data Analysis With Mongodb.

新一代 ODA X5-2 低调 奢华 有内涵

三 依赖注入 (dependency injection) 的学习

第二小题 : 逻辑隔离 (10 分 ) OpenFlow Switch1 (PC-A/Netfpga) OpenFlow Switch2 (PC-B/Netfpga) ServerB PC-2. Switching Hub

Silverlight 3 概览 俞晖市场推广经理微软 ( 中国 ) 有限公司

Triangle - Delaunay Triangulator

AvalonMiner Raspberry Pi Configuration Guide. AvalonMiner 树莓派配置教程 AvalonMiner Raspberry Pi Configuration Guide

Presentation Title. By Author The MathWorks, Inc. 1

H3C CAS 虚拟机支持的操作系统列表. Copyright 2016 杭州华三通信技术有限公司版权所有, 保留一切权利 非经本公司书面许可, 任何单位和个人不得擅自摘抄 复制本文档内容的部分或全部, 并不得以任何形式传播 本文档中的信息可能变动, 恕不另行通知

ICP Enablon User Manual Factory ICP Enablon 用户手册 工厂 Version th Jul 2012 版本 年 7 月 16 日. Content 内容

1. Features. 2,Block diagram. 3. Outline dimension V power supply. 3. Assembled with 20 x 4 character displays

1. Spring 整合 Jdbc 进行持久层开发

信息检索与搜索引擎 Introduction to Information Retrieval GESC1007

基于 Davinci 平台的视频应用开发 沈燕飞

Virtual Memory Management for Main-Memory KV Database Using Solid State Disk *

DEV Office 客户端开发增强

操作系统原理与设计. 第 13 章 IO Systems(IO 管理 ) 陈香兰 2009 年 09 月 01 日 中国科学技术大学计算机学院

云计算技术及应用. 华清远见 : 郑老师

Bi-monthly report. Tianyi Luo

XPS 8920 Setup and Specifications

CHINA VISA APPLICATION CONCIERGE SERVICE*

Command Dictionary CUSTOM

Outline. Motivations (1/3) Distributed File Systems. Motivations (3/3) Motivations (2/3)

北 京 忆 恒 创 源 科 技 有 限 公 司 16

基于项目信息类专业教育实验班本科培养计划 (2+2)

大数据基准测试 : 原理 方法和应用. 詹剑锋 中国科学院计算技术研究所中国科学院大学 可信云服务大会, 北京 INSTITUTE OF COMPUTING TECHNOLOGY

Machine Vision Market Analysis of 2015 Isabel Yang

OTAD Application Note

梁永健. W K Leung. 华为企业业务 BG 解决方案销售部 CTO Chief Technology Officer, Solution Sales, Huawei

3dvia Composer Solidworks

在数据中心中加速 AI - Xilinx 机器学习套件 (Xilinx ML Suite )

Multiprotocol Label Switching The future of IP Backbone Technology

系统生物学. (Systems Biology) 马彬广

public static InetAddress getbyname(string host) public static InetAddress getlocalhost() public static InetAddress[] getallbyname(string host)

Research of Attitude Measuring System Using Single Camera for Non-cooperative Spacecraft 基于单目相机的空间非合作目标姿态测量

密级 : 博士学位论文. 论文题目基于 ScratchPad Memory 的嵌入式系统优化研究

浙江大学 学年秋冬学期

Murrelektronik Connectivity Interface Part I Product range MSDD, cable entry panels MSDD 系列, 电缆穿线板

数据库原理与应用 实验指导书 信息工程学院 2017 年 1 月

Chapter 1 (Part 1) Computer Abstractions and Technology ( 计算器抽象化与科技 )

ADVANCED HBASE. Architecture and Schema Design GeeCON, May Lars George Director EMEA Services

Computer Security and Cryptography

IEEE 成立于 1884 年, 是全球最大的技术行业协会, 凭借其多样化的出版物 会议 教育论坛和开发标准, 在激励未来几代人进行技术创新方面做出了巨大的贡献, 其数据库产品 IEL(IEEE/IET Electronic

Chapter 7: Deadlocks. Operating System Concepts 9 th Edition

SESEC IV. China Cybersecurity. Standardization Monthly. Newsletter. June 2018

Altera 器件高级特性与应用 内容安排 时钟管理 时钟管理 片内存储器 数字信号处理 高速差分接口 高速串行收发器. 时钟偏斜 (skew): 始终分配到系统中到达各个时钟末端 ( 器件内部触发器的时钟输入端 ) 的时钟相位不一致的现象 抖动 : 时钟边沿的输出位置和理想情况存在一定的误差

Holodesk A distributed in-memory columnar store for interactive analysis

Support for Title 21 CFR Part 11 and Annex 11 compliance: Agilent OpenLAB CDS version 2.1

China Next Generation Internet (CNGI) project and its impact. MA Yan Beijing University of Posts and Telecommunications 2009/08/06.

IPC 的 Proxy-Stub 设计模式 ( c)

Computer Networks. Wenzhong Li. Nanjing University

DPDK Summit China 2017

信息检索与搜索引擎 Introduction to Information Retrieval GESC1007

Division of Science and Technology

实验三十三 DEIGRP 的配置 一 实验目的 二 应用环境 三 实验设备 四 实验拓扑 五 实验要求 六 实验步骤 1. 掌握 DEIGRP 的配置方法 2. 理解 DEIGRP 协议的工作过程

DBI-B311. Revolution R 和微软数据平台 赵利超微软数据平台技术专家

GB/T NATIONAL STANDARD OF THE PEOPLE S REPUBLIC OF CHINA 中华人民共和国国家标准

HBASE INTERVIEW QUESTIONS

Mysqldump Schema Only No Lock

SHANDONG UNIVERSITY 1

绝佳的并行处理 - FPGA 加速的根本基石

XPages Extensibility API: Free Your Mind! 2011 IBM Corporation

NyearBluetoothPrint SDK. Development Document--Android

Hadoop Scheduling Base On Data Locality

复旦大学软件学院 2017~2018 学年第一学期期中考试试卷

Application of Mobile IP and Mobile Internet

王大珩 光电创新实验班本科培养计划. Undergraduate Program for Specialty in Opto-Information Science and Technology

NetScreen 概念与范例. ScreenOS 参考指南 第 7 卷 : 虚拟系统. ScreenOS 编号 SC 修订本 E

BlueCore BlueTunes Configuration Tool User Guide

Transcription:

HBase 在 hulu 的使用和实践 张虔熙 @ hulu qianxi.zhang@hulu.com

About hulu

About me 张虔熙 ü 软件工程师 @Hulu 大数据平台组 ü 专注于分布式计算和存储技术 ü 热衷于参与开源社区贡献代码 üqianxi.zhang@hulu.com

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Overview HBase version : 1.2.0 Hadoop nodes :1000+ HBase nodes:200+ HBase table: 200+ HBase data size:700tb Cluster:4

Scenario Audience Platform( 用户画像系统 ) Log Storage( 日志存储系统 ) Online Bill Storage( 订单信息存储系统 ) OpenTSDB

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Audience Platform( 用户画像系统 ) 用户画像 : 根据用户行为抽象出的一个标签化的用户模型 Data üprofile( 基本属性 ) üuser behavior( 用户行为 ) üthird party data( 第三方数据 ) ülabel( 标签 )

Audience Platform( 用户画像系统 ) Data characteristic üsparse(10^6 qualifier) ümulti-version(user behavior) Purpose ümarketing decision üpersonalized recommendation üadvertisement

Audience Platform( 用户画像系统 ) Kafka Spark Streaming Spark Service HDFS HBase Cache DB Bulk Load MapReduce HDFS

Audience Platform( 用户画像系统 ) Key technology üauto balance InputFormat üsnapshot

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Region Size Distribution

Application Performance Problem ü Task execution time in MapReduce and Spark is positive correlation with Region Size ü Task execution timevaries wildly Resolve Bug ü Enable TableInputFormat auto balance(hbase.mapreduce.input.autobalance) ü Split large Region and merge small Region for InputFormat ü HBASE-15357(Wrong split/middle key)

Snapshot Snapshot ütable Meta ühfile Link Why Snapshot? üperformance üthe view of data at specific time

Snapshot Problem ücreate one snapshot per application? ühow toshare snapshot between application? Snapshot Service ümanage snapshot lifecycle üassign the reasonable snapshot tothe application

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Online Bill Storage( 订单信息存储系统 ) Characteristic übill information üonline service üwrite more, readless üread delay < 1s

Online Bill Storage( 订单信息存储系统 ) Key technology üreplication ürpc Queue üreplica

Agenda Overview Audience Platform( 用户画像系统 ) Auto Balance InputFormat and Snapshot Online Bill Storage( 订单信息存储系统 ) Replication, RPC Queue and Replica

Replication Two datacenter,master-master Replication Write Read Write Read Replication Cluster A Cluster B Replication

Replication Problem ü Replication Table and CF configuration will be wrong if the table name includes namespace ü Previous design did not consider namespace üuse : when parsing tables and family, such as usertable:family1 übut Namespace and table segmentation is also :, such as namespace1:usertable:faimly1 Resolve ü HBASE-11386, HBASE-11393(Use Protobuf instead of string)

Replication Problem üsome data couldn t be replicated üpeerclusterznode under is of removed peer may never be deleted üif some regionserver crash, other regionserver couldn t take over the rest replication work since the method copyqueuesfromrsusingmulti fails Resolve ühbase-16135, HBASE-14476

RPC Queue Improve Performance ümulti RPC Queue ühbase-11355 Write Queue Get Queue Scan Queue More ücontrolling Queue Delay(CoDel) ühbase-15136

Replica Problem üwhen a RegionServer crash, the region on it is unavailable for a period Resolve üregion replicas ü There could be more than one replica for one region ü One primary replica could accept write and read operation ü Multi secondary replica only accepts read operation ü HBASE-10070

Replica Client Read and Write RegionServer RegionServer Read Only HBase Region (Primary) Region (Secondary) HDFS WAL HFile-1 HFile-2

Replica Client strategy ü Query primaryregion first ü If don t get the result in 10ms, add a query to the secondary replicas ü Take the firstanswer and cancel others Problem More ü The data in secondary replica may be stale. ü HBASE-11568(Async WAL to secondary replica)

Future Multi-Tenancy(HBASE-10994) Strong schema High availability

Reference https://issues.apache.org/jira/browse/hbase-15357 https://issues.apache.org/jira/browse/hbase-11386 https://issues.apache.org/jira/browse/hbase-11393 https://issues.apache.org/jira/browse/hbase-16135 https://issues.apache.org/jira/browse/hbase-14476 https://issues.apache.org/jira/browse/hbase-15136 https://issues.apache.org/jira/browse/hbase-10070 https://issues.apache.org/jira/browse/hbase-11568 https://issues.apache.org/jira/browse/hbase-10994

Thank you qianxi.zhang@hulu.com