/
Qi Huang  黄琦 ,  Ken Birman, Robbert van Qi Huang  黄琦 ,  Ken Birman, Robbert van

Qi Huang 黄琦 , Ken Birman, Robbert van - PowerPoint Presentation

briana-ranney
briana-ranney . @briana-ranney
Follow
367 views
Uploaded On 2018-03-22

Qi Huang 黄琦 , Ken Birman, Robbert van - PPT Presentation

Renesse 康奈尔 Wyatt Lloyd 普林斯顿 Facebook Sanjeev Kumar Harry C Li Facebook Facebook 照片缓存 分析 250 0 亿 照片 Facebook 头像 新闻 ID: 661009

edge cache origin browser cache edge browser origin pop object fifo based s4lru local sosp haystack backend facebook stack

Share:

Link:

Embed:

Download Presentation from below link

Download Presentation The PPT/PDF document "Qi Huang 黄琦 , Ken Birman, Robbert ..." is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

Qi Huang

黄琦, Ken Birman, Robbert van Renesse (康奈尔), Wyatt Lloyd (普林斯顿, Facebook),Sanjeev Kumar, Harry C. Li (Facebook)

Facebook

照片缓存

分析Slide2

250

0 亿* 照片 @ Facebook头像

新闻

相册

1

*

Internet.org

, 2013

9

后台存储

多级缓存

Full-stack

分析Slide3

我们的发现(预览)

2现有Stack的性能改进的的机会浏览器缓存非常重要 ( 负担了 65+% 的访问 )

照片的访问频度分布每层都在变化

更优秀的缓存算法可以显著地提升

命中率

(

S4LRU)

协同缓存值得一试

(

Co

llaborative distributed cache

)Slide4

用户

Facebook

照片服务

Stack

3Slide5

基于用户的

Browser Cache

用户

Browser

Cache

4

本地访问Slide6

用户

Browser

Cache

(

上百万

)

5

基于用户的

Browser CacheSlide7

Stack 路由

选择Browser Cache用户多级缓存存储后台

Facebook Stack

Akamai

内容分发网络

(CDN)

关注点:

Facebook

s

tack

6

(

上百万

)Slide8

地域分布的

Edge Cache (FIFO)Edge Cache

(

数十个

)

Browser

Cache

用户

PoP

7

(

上百万

)Slide9

Edge

Cache

Browser

Cache

用户

PoP

8

目标

降低

cross-country

访问延迟

降低数据中心的带宽消耗

(

数十个

)

(

上百万

)

地域分布的

Edge Cache (FIFO)Slide10

9

地域分布的

Edge Cache (FIFO)

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide11

10

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)

地域分布的

Edge Cache (FIFO)Slide12

全局

Origin Cache (FIFO)OriginCache

数据中心

(

四个

)

11

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide13

12

目标

最小化

I/O-bound

操作

全局

Origin Cache (FIFO)

Origin

Cache

数据中心

(

四个

)

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide14

哈希

(

url

)

13

全局

Origin Cache (FIFO)

Origin

Cache

数据中心

(

四个

)

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide15

14

全局

Origin Cache (FIFO)

Origin

Cache

数据中心

(

四个

)

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide16

Haystack 存储后台

Backend (Haystack)15

Origin

Cache

数据中心

(

四个

)

Edge

Cache

Browser

Cache

用户

PoP

(

数十个

)

(

上百万

)Slide17

我们如何采集数据

?16Slide18

数据采集

检测范围Backend (Haystack)Browser Cache

Edge

Cache

Origin

Cache

PoP

用户

数据中心

(

Object-based

采样

)

Request-based

:

采集

X%

的请求

Object-based

:

采集针对

X%

object

的请求

17Slide19

如何采样

Power-law18Object rankSlide20

Req

-based: 偏向热门内容, 导致分析出的缓存性能虚高19Object rank

Req

-based

如何采样

Power-lawSlide21

Object-

based20

Object rank

Object-based

:

即使不热门的内容也可以被采样覆盖到

如何采样

Power-lawSlide22

Object-based

: 即使不热门的内容也可以被采样覆盖到21

Object rank

Object-

based

如何采样

Power-lawSlide23

77.2M

reqs(Desktop)12.3MBrowsers检测范围

1.4M

照片

,

采集每个照片的

全部

访问

Resizer

R

2.6M

照片文件

,

采集每个

照片的

全部

访问

12.3K

Servers

22

数据采集

Backend (Haystack)

Browser

Cache

Edge

Cache

Origin

Cache

PoP

用户

数据中心Slide24

分析

缓存的访问负载效果 (traffic sheltering)照片的访问频度分布 (popularity distribution) 缓存大小、算法、协作 (collaborative Edge)文章中照片的时间属性对系统性能的影响照片拥有人的社交属性对系统性能的影响照片请求访问的路由分析23Slide25

负载效果

77.2M

26.6M

11.2M

7.6M

Backend (Haystack)

Browser

Cache

Edge

Cache

Origin

Cache

PoP

用户

数据中心

65.5%

58.0%

31.8%

R

负载分布

65.5%

20.0%

4.6%

9.9%

24Slide26

照片的访问频度分布和对系统的影响

25Slide27

访问频度分布

Browser 符合 power-law 分布262%Slide28

火爆 Viral” 的照片在 Edge 上依然访问量巨大27访问频度分布Slide29

访问频度分布

分布斜率 (Skewness) 在经过多极缓存后会减少28Slide30

访问频度分布

Backend 符合 stretched exponential 分布29Slide31

绝对访问频度

存储/缓存的设计取决于部署的层次位置30Slide32

访问频度分布对缓存的影响

31 High Low

M

Lowest

每个类别包括

25%

访问Slide33

访问频度分布对缓存的影响

Browser 的访问负载逐渐减少32Slide34

访问频度分布对缓存的影响

Edge 除 ”lowest” 组外负载稳定7.8%22~23%

33Slide35

访问频度分布对缓存的影响

Origin 对 “low” 组的贡献最多9.3%34Slide36

访问频度分布对缓存的影响

Backend 服务长尾3570% HaystackSlide37

我们如何能够提升缓存性能?

36Slide38

模拟

重放采集数据 (25% 用来预热缓存)估算当前缓存大小分析两种命中率 (object-wise, byte-wise)37Slide39

Edge Cache +

缓存空间选择 San Jose edge (高访问量, 中值命中率)

59%

38Slide40

Edge Cache

+ 缓存空间“x” 代表当前缓存尺寸 (59% 命中率)

65%

68%

59%

39Slide41

Edge Cache +

缓存空间“无限” 命中率需要 45x 当前缓存尺寸

无限缓存

65%

68%

59%

40Slide42

Edge Cache +

缓存算法LRU 和 LFU 仅比 FIFO 提高少许

无限缓存

41Slide43

S4LRU

Cache SpaceMore RecentL3

L2

L1

L0

42Slide44

S4LRU

Cache SpaceL3L2

L1

L0

Missed Object

More Recent

43Slide45

S4LRU

Cache SpaceL3L2

L1

L0

Hit

More Recent

44Slide46

S4LRU

Cache SpaceL3L2

L1

L0

Evict

More Recent

45Slide47

Edge Cache

+ 缓存算法S4LRU 提升最大

68%

1/3x

无限缓存

46

59%Slide48

Edge Cache +

缓存算法Clairvoyant (Bélády) 意味着还有大量的提升空间无限缓存

47Slide49

Origin Cache

S4LRU 对于Origin 的效用超过 Edge

14%

无限缓存

48Slide50

该缓存那种照片

Recency & frequency 导致了 S4LRU 的有效性照片的年龄、社会属性也会影响性能么?49Slide51

照片年龄

50年轻的照片更加热门,曲线符合 Pareto 分布Slide52

照片的社交网络

51更多的朋友/followers 给每张照片带来更多的访问Slide53

Edge 协作式缓存

52Slide54

Edge

的地域覆盖范围

缓存工作集较小

53Slide55

Edge

的地域覆盖范围

54

9

个高访问量

EdgesSlide56

Edge

的地域覆盖范围55

客户访问最终由本地

Edge

服务么

?Slide57

Edge

的地域覆盖范围56

AtlantaSlide58

Edge

的地域覆盖范围57

Atlanta

20% local

5% Dallas

35% D.C.

5% NYC

20% Miami

5% California

10% Chicago

Atlanta

80

%

的访问由远程

Edges

服务的Slide59

Edge

的地域覆盖范围58

Atlanta

20% local

Miami

35% local

Dallas

50% local

Chicago

60% local

LA

18% local

NYC

35% local

全局范围内也存在大量的远程访问Slide60

Edge

的地域覆盖范围

缓存工作集被放大了

59Slide61

协作式

Edge

60Slide62

协作式 Edge

“Independent 独立” 情况下所有 Edges 的命中率61Slide63

协作式 Edge

“Collaborative 协作式” Edge 能提高 18% 的命中率

18%

62

CollaborativeSlide64

相关工作

63存储系统分析内容分发分析Web 访问模式分析BSD file system (SOSP ’85), Sprite ( SOSP ’91), NT (SOSP ’99),NetApp (SOSP ’11), iBench (SOSP ’11)

Cooperative caching (SOSP ’99), CDN vs. P2P (OSDI ’02),

P2P (SOSP ’03),

CoralCDN

(NSDI ’10), Flash crowds (IMC ’11)

Zipfian

(INFOCOM ’00), Flash crowds (WWW

02),

Modern web traffic (IMC ’11)Slide65

结语与贡献

64量化了现有 stack 内缓存的性能量化了各层缓存间照片访问频度分布的改变Recency, frequency, age, social factors 都会影响缓存策略指出了协作式缓存的潜在作用