人民号首页,人民号缩略图,人民号logo 人民号首页,人民号缩略图,人民号logo 人民号首页,人民号缩略图,人民号logo 人民号首页,人民号缩略图,人民号logo

白杨数说 | 可视化图表辞典

白杨数新观察

|

2022-07-16 00:03:51

我们有许多方法可以把数据可视化,但怎样精准地知道要选择哪一种图表?又将如何制作?

今天的白杨数说归纳了一份可视化辞典,并列举了部分图表制作方法,大家可以根据数据关系选择对应的大类别,接着选择类别之下不同种类的图表,找出最适合表达那一个。这里一共分为9大类别

01

离差 Deviation

离差强调相对于一个固定参考值的变化(正/负值)。通常参考值为零,但也可能是一个目标数值或是长期平均值。也能用来展现态度倾向(正向/中立/负面)。

常见的案例有:贸易顺差/逆差、气候变化

1.分向条形图 Diverging bar

一种简单、标准化的条形图,能同时处理正、负数值。

2.分向堆叠条形图 Diverging stacked bar

最适合用来展现牵涉到态度(正向/中立/负面)的调查结果

3.成对条形图 Spine

将单一数值分成两组对比的组成(例如男性/女性)。

4.盈余/赤字填充线图 Surplus/defificit fifilled line

阴影部分能展示出一种平衡关系

或者是相对于某个基准线,或者是两组数据之间。

案例分析

在上图中的销售数据中,为了更好地看出数据差异及一年来的差异走势,就可以采用分向条形图。

Excel中,对差异列设置条件格式,建立规则,对正值(盈利)选择数据条绿色填充

然后将负值(亏损)的数据条设置为红色填充

最后实现右图效果:

配合颜色含义,右图比左侧的数字更加一目了然。

02

相关性 Correlation

展示两个或多个变量之间的关系。

要注意的是,除非你特别说明,许多读者会认为你所展示的两个变量之间存在因果关系

常见案例:通胀与失业率、收入与平均寿命

1.散点图  Scatterplot

用来展现两个连续变量关系的标准方式,

每一个变量有自己的轴线。

2.折线图+柱状图 Line + Column

能展示一个数量(柱状图)和一个比率(折线图)的关系

3.链接散点图 Connected scatterplot

通常用来展示两个变量的关系如何随着时间而变化。

4.泡泡图 Bubble

与散点图类似,但会根据第三项变量来决定泡泡的大小,

从而增加更多细节。

5.XY热图 XY heatmap

适合展示两组不同类别数据之间的规律,

但不适合展示数据的细微差异。

案例分析

当考察某店铺的年销售情况时,销售量和销售额之间存在相关关系,想要同时看到两个变量的情况,可以采用柱状图+折线图的方式:

1)首先选中需要进行分析的两列数据,在插入选项中点击柱形图,插入二维柱形图的第一个图

2)右击要设置折线图类型的那列数据,选中更改图表类型,点击折线图的第四个图

3)右击折线图类型的那一列数据,点击设置数据系列格式,最后将系列选项绘制在次坐标轴。

4)得到最终复合图示效果:

03

排序 Ranking

当某个项目在排序列表中的位置比其绝对数值或相对数值的大小更重要时,使用这种图表。不要害怕强调出需要关注的重点。

常见案例:财富、损失、排名表、选区选举结果

1.排序条形图 Ordered bar、排序柱状图Ordered column

依照顺序排列时,标准条形图更容易显示数值的排序。

2.排序比例符号 Ordered proportional symbol

当展示有巨大差异的数值时,

或者无需表现数据之间的细微差异时,使用这类图表。

3.点状条纹图 Dot strip plot

圆点依序在线条上排列,能有效使用空间,

展现出多重类别的排序。

4.坡度图 Slope

最适合用来展示排序经过一段时间之后的变化,

或在不同类别间的变化。

5.棒棒糖图 Lollipop

    棒棒糖图比标准的条形或柱状图更能吸引人们注意到数值,也能有效表示数据的排序和大小

6.凹凸线图 Bump

可以很好地展示排名在多个日期间的变化,

对于大的数据集,可考虑用颜色将线条分组。

案例分析

注重某些数据的位置而非数值大小时,最简单的例子便是Excel中对条形图进行升降序的排列。具体步骤如下:

1)在需要排序的区域中,单击任一单元格;

2)在“数据”菜单上,单击“排序”;

3)单击“选项”;

4)在“方向”选项框下,单击“按行排序”;

5)在“主要关键字”和“次要关键字”框中,单击需要排序的数据行;

04

分布 Distribution

显示数据集中的数值及其出现的频率。分布的形状(或偏离程度)是突出数据的不一致或不平均的方便记忆的方式。

常见案例:收入分配、人口(年龄/性别)分布

1.直方图 Histogram

统计分布的标准呈现方式,

要缩小每一个柱状之间的间隙,以凸显数据呈现的“形状”

2.箱线图 Boxplot

通过中位数(中值)、数据范围的呈现

来概括多个数据分布。

3.小提琴图 Violin plot:

类似于箱线图,但可以更有效地呈现复杂的分布

(当数据无法用简单的平均数来概括)

4.人口金字塔 Population pyrami

展示人口年龄和性别分布的标准方式(背对背的直方图)

5.点状条纹图 Dot strip plot

用来呈现分布中个别数值的好方法

如果太多圆点拥有相同大小的值则不宜用。

6.点状图 Dot plot

呈现不同类别数据的变化或范围(最小值/最大值)

7.二维条码图 Barcode plot

如同点状条纹图,适合在一张图中呈现所有数据,

这样的图表最适合用来凸显个别数值。

8.累积曲线图 Cumulative curve

呈现数据分布不均等的好方法:

Y轴永远是累积频率,X轴永远是标志值

9.频率多边图 Frequency polygons

类似于普通的折线图,能同时呈现多个数据分布

最好一次只展现3~4组数据。

案例分析

小提琴图不仅结合了箱线图和核密度图的功能,而且在文献中出现频率较高。这里分享一个小提琴图在线绘制工具:http://sangerbox.com/Tool 

1)输入数据并设置参数

2)运行(说明:一颗*表示统计检验的p<0.05,两颗**表示统计检验的p<0.01,三颗*表示统计检验的p<0.0001,-表示统计检验的p&0.05。)

3)图片编辑,添加描述

05

随时间的变化 Change over Time

强调趋势的变化。有可能是短期(一日内)波动或长到数十年或数百年的改变。为了向读者提供适当的背景信息,选择正确的时间段很重要。

常见案例:股价变动、经济动态时间序列

1.折线图 Line

用来显示时间序列变化趋势的标准方式。如果数据不规则,可以考虑用记号来表示数据点。

2.柱状图 Column

适合用来展示随时间变化的趋势,但通常最好一次只呈现一个数列。

3.折线图+柱状图 Line + column

适合用来呈现数值(柱状)和比率(折线)随时间的关系变化

4.股价 Stock price

通常着重于数据的每日动向,

能呈现每日的开盘、收盘价,以及高点和低点

5.坡度图 Slope

只要数据能简化为2到3个点而不损失关键信息,

此图便很适合用来展现数据的变化。

6.区域图 Area chart

适合展示整体的变迁,但很难看出组成部分的变化。

7.扇形图(预测) Fan chart (projections)

用来呈现未来预测值的不确定性,

通常预测越远不确定性越大

8.链接散点图 Connected scatterplot

适合展示两个变量的数据变化,

只要数据有相对明确的规律

9.日历式热图 Calendar heatmap

适合用来呈现时间规律(每日、每周、每月),

但会牺牲数据精确性的展示

10.普利斯特利时间轴 Priestley timeline

适用于日期和时间长度是数据中的关键因素

11. 圆圈时间轴 Circle timeline

适合展示不同类别数据的不连续数值

(例如不同大陆的地震次数)

12.垂直时间轴 Vertical timeline

以Y轴表示时间,在移动设备上滚动图表时特别能呈现出详细的时间序列。

13.震波图 Seismogram

圆圈时间轴的替代选择,适合展示数据大幅变动的数列。

06

规模 Magnitude

用来比较数据的规模。有可能是比较相对规模(显示出哪一个比较大),有可能是比较绝对规模(需要显示出精确的差异)。通常用来比较数量(例如桶、人、美元),而不是经过计算后的比率或百分比。

常见案例:大宗商品产量、市值

1.柱状图 Column、条形图Bar

2.成对柱状图 Paired column、成对条形图 Paired bar

类似于一般柱状图,但能同时呈现多重数列,

当数列超过两组以上,阅读图表会较为吃力。

3.比例堆叠条形图 Marimekko

适合用来同时呈现(不太复杂的)数据的大小与占比

4.比例符号图 Proportional symbol

当展示有巨大差异的数值时,

或者无需表现数据之间的细微差异时,使用这类图表

5.象形符号 Isotype (pictogram)

特别适用于某些案例,但只能用于整数值

(不要切掉一条手臂来表示小数)

6.棒棒糖图 Lollipop

比标准的条形或柱状图更能吸引人们注意数值。

起始值不需要为0,但最好为0。

7.雷达图 Radar

呈现多变量的一个节省空间的方式,

但务必使变量的排列对读者而言有一定的逻辑。

8.平行坐标图 Parallel coordinates

雷达图的替代选择,变量的排列很重要,

突出特定数值会帮助图表理解。

9.子弹图 Bullet

适合以目标值或区间值为背景展示变量

10.分组符号图 Grouped symbol

柱状图/条形图的替代选择,

特别是当数据能计数或者需要突出个别要素。

07

部分和整体的关系 Part-to-whole

能显示出一个整体如何被拆解成不同组成。如果读者只是想了解个别组成部分的大小,不妨改用规模类的图表。

常见案例:财政预算、公司架构、全国选举结果

1.堆叠柱状图 Stacked column

可以很简便地展示部分与整体的关系,

但如果组成部分过多会造成理解困难。

2.比例符号地图(数量/规模)

Proportional symbol (count/magnitude)

适合用来同时呈现(不太复杂的)数据的大小与占比

3.饼图 Pie

用来呈现部分和整体关系的常见方式,

但这类图很难去精确比较不同组成的大小

4.甜甜圈图 Donut

类似于饼图,但中间的空间能放入更多信息

5.树状图 Treemap

用来呈现有阶层关系的部分与整体的图表,

但如果组成太细微,会使得图表难以理解。

6.沃罗诺伊图 Voronoi

把点转换成区域的图表。每个区域的任何一点,其距离本区域的中心点会比距离其他区域的中心点更近。

7.拱形图 Arc

一个半圆,通常用来呈现议会的政治结果

8.网格 Gridplot

适合用来呈现百分比数据,

最适合以多重网格的形式呈现整数

9.文氏图 Venn

通常只用于简化的数据呈现

10.瀑布图 Waterfall

适用于当某些组成部分为负值的情况

案例分析

树状图是一种在层次结构中嵌套矩形的可视化,通常用来展示数据的比例关系及层次关系,还可以比较维度中各个部分对整体的贡献情况。

使用Tableau软件可以制作树状图,这里以世界人口占比为例:

1)数据处理:将数据导入,使用自定义拆分,隐藏,数据格式设置等进行进一步处理,得到整理好的数据如下:

2)将国家添加进横轴,人口数量添加进纵轴,并在智能展示中选择树状图:

3)设置标签:国家作为“行”直接拖拽到标签,人口数量先转换为离散,然后添加到工作表:

4)设置细节:如将颜色选项设置为离散,这样每个矩形就会显示出不同颜色;将标签居中;隐藏右侧图例等,最终得到如下树状图:

08

地理空间 Spatial

当数据中的精确位置和地理分布规律比其他信息对读者来说更重要时,可使用这类图表。

常见案例:人口密度、自然资源分布、自然灾害风险影响、集水区域、投票结果差异

1.基础地理分布图(比率/比值) Basic choropleth (rate/ratio)

把数据放到地图上展示的标准方法,应该呈现的是比值而不是绝对数值,同时要使用一个合理的基础地图。

2.比例符号地图(数量/规模)

Proportional symbol (count/magnitude)

呈现绝对数值而不是比值,数据的细微差异会很难呈现

3.流向地图 Flow map

在地图上展示有明确移动方向的信息

4.等高线地图 Contour map

在地图上展示有相同数值的区域,

能使用离散色阶来显示出正、负数值。

5.均等化示意地图 Equalised cartogram

把地图上的单位区域转化为相同大小的规则图形,

适合以相等的数值代表投票选区。

6.缩放统计地图(数值)Scaled cartogram (value)

放大或缩小地图,使得每一个区域根据数值决定大小

7.点状密度地图 Dot density

用来展示单一事件的地点,

记得标注读者应该注意的规律。

8.热度地图 Heatmap

透过强烈的色阶来表示区域数据,类似于基础地理分布图,但基础地图不会依照行政或政治区域来划分。

09

流向 Flow:

向读者展示两个或两个以上的状态、情境之间的流动量或流动强度。这里的状态、情境可能是逻辑关系或地理位置。

常见案例:资金、贸易、移民、资讯、诉讼的流向、关系图表。

1.桑基图 Sankey

呈现从一个情境到至少另一个情境的流向变化,

适合追踪过程的最终结果。

2.瀑布图 Waterfall

通过流动过程来展示数据的顺序变化,

最典型的是展示预算流动。可以包含正或负的组成部分。

3.和弦图 Chord

一种复杂却有表现力的图表,

能在矩阵中同时描绘出两种流向(以及看出谁是赢家)

4.网络图 Network

在不同类型的对象之间,展示出关系强度和内部关联关系

案例分析

桑基图可以表示信息、能量、人员...流动,线表示流向,宽度表示流量大小,满足数据流量守恒。

毕业生人口流动也是“流向”中常见的例子,比如,在中国传媒大学2020届毕业生就业质量报告中就用到了如下桑基图:

10

总结:

今天的可视化辞典总结就到这里了,这份列表并不是详尽无遗的,也不是一份万能向导,而是一个有用的制作起点,能协助你设计出内容丰富、有意义的数据可视化作品

参考资料:

ft.com/vocabulary

特别声明:本文为人民日报新媒体平台“人民号”作者上传并发布,仅代表作者观点。人民日报提供信息发布平台。

写下你的评论

热门评论
{{item.app_user_name}} {{item.news_timestamp}} {{item.like_num}} 赞

{{item.content}}

最新评论
{{item.app_user_name}} {{item.news_timestamp}} {{item.like_num}} 赞
{{++index}}
{{cell.app_user_name}} {{cell.news_timestamp}} {{cell.like_num}} 赞

{{cell.content}}

{{item.content}}

已加载全部内容
相关推荐

实时热点