阮一峰的网络日志

数据可视化：基本图表

Posted: 28 Nov 2014 10:14 PM PST

"数据可视化"可以帮助用户理解数据，一直是热门方向。

图表是"数据可视化"的常用手段，其中又以基本图表----柱状图、折线图、饼图等等----最为常用。

用户非常熟悉这些图表，但如果被问道，它们的特点是什么，最适用怎样的场合（数据集）？恐怕答得上来的人就不多了。

本文是电子书《Data Visualization with JavaScript》第一章的笔记，总结了六种基本图表的特点和适用场合，非常好地回答了上面的问题。

零、序言

进入正题之前，先纠正一种误解。

有人觉得，基本图表太简单、太原始，不高端，不大气，因此追求更复杂的图表。但是，越简单的图表，越容易理解，而快速易懂地理解数据，不正是"数据可视化"的最重要目的和最高追求吗？

所以，请不要小看这些基本图表。因为用户最熟悉它们，所以只要是适用的场合，就应该考虑优先使用。

一、柱状图（Bar Chart）

柱状图是最常见的图表，也最容易解读。

它的适用场合是二维数据集（每个数据点包括两个值x和y），但只有一个维度需要比较。年销售额就是二维数据，"年份"和"销售额"就是它的两个维度，但只需要比较"销售额"这一个维度。

柱状图利用柱子的高度，反映数据的差异。肉眼对高度差异很敏感，辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。

通常来说，柱状图的X轴是时间维，用户习惯性认为存在时间趋势。如果遇到X轴不是时间维的情况，建议用颜色区分每根柱子，改变用户对时间趋势的关注。

上图是英国足球联赛某个年度各队的赢球场数，X轴代表不同球队，Y轴代表赢球数。

二、折线图（Line Chart）数据

折线图适合二维的大数据集，尤其是那些趋势比单个数据点更重要的场合。

它还适合多个二维数据集的比较。

上图是两个二维数据集（大气中二氧化碳浓度，地表平均气温）的折线图。

三、饼图（Pie Chart）

饼图是一种应该避免使用的图表，因为肉眼对面积大小不敏感。

上图中，左侧饼图的五个色块的面积排序，不容易看出来。换成柱状图，就容易多了。

一般情况下，总是应该用柱状图替代饼图。但是有一个例外，就是反映某个部分占整体的比重，比如贫穷人口占总人口的百分比。

四、散点图（Scatter Chart）

散点图适用于三维数据集，但其中只有两维需要比较。

上图是各国的医疗支出与预期寿命，三个维度分别为国家、医疗支出、预期寿命，只有后两个维度需要比较。

为了识别第三维，可以为每个点加上文字标示，或者不同颜色。

五、气泡图（Bubble Chart）

气泡图是散点图的一种变体，通过每个点的面积大小，反映第三维。

上图是卡特里娜飓风的路径，三个维度分别为经度、纬度、强度。点的面积越大，就代表强度越大。因为用户不善于判断面积大小，所以气泡图只适用不要求精确辨识第三维的场合。

如果为气泡加上不同颜色（或文字标签），气泡图就可用来表达四维数据。比如下图就是通过颜色，表示每个点的风力等级。

六、雷达图（Radar Chart）

雷达图适用于多维数据（四维以上），且每个维度必须可以排序（国籍就不可以排序）。但是，它有一个局限，就是数据点最多6个，否则无法辨别，因此适用场合有限。

下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名，每个数据点有五个维度，分别是得分、篮板、助攻、抢断、封盖。

画成雷达图，就是下面这样。

面积越大的数据点，就表示越重要。很显然，勒布朗·詹姆斯（红色区域）是热火队最重要的选手。

需要注意的时候，用户不熟悉雷达图，解读有困难。使用时尽量加上说明，减轻解读负担。

七、总结

图表	维度	注意点
柱状图	二维	只需比较其中一维
折线图	二维	适用于较大的数据集
饼图	二维	只适用反映部分与整体的关系
散点图	二维或三维	有两个维度需要比较
气泡图	三维或四维	其中只有两维能精确辨识
雷达图	四维以上	数据点不超过6个

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2014年11月29日
更多内容：档案 » 开发者手册
付费支持：购买文集
社交媒体： twitter， weibo
Feed订阅：

[广告]　GreenVPN是一款运营多年的绿色、稳定、安全的VPN产品，帮助您轻松浏览Google、‍Facebook、Youtube、Twitter等，使用简单，手机电脑全平台支持，可免费试用，值得推荐。

阮一峰的网络日志

编译器的工作过程

Posted: 10 Nov 2014 09:43 PM PST

源码要运行，必须先转成二进制的机器码。这是编译器的任务。

比如，下面这段源码（假定文件名叫做test.c）。

 #include <stdio.h>  int main(void) {   fputs("Hello, world!\n", stdout);   return 0; }

要先用编译器处理一下，才能运行。

 $ gcc test.c $ ./a.out Hello, world!

对于复杂的项目，编译过程还必须分成三步。

 $ ./configure $ make   $ make install

这些命令到底在干什么？大多数的书籍和资料，都语焉不详，只说这样就可以编译了，没有进一步的解释。

本文将介绍编译器的工作过程，也就是上面这三个命令各自的任务。我主要参考了Alex Smith的文章《Building C Projects》。需要声明的是，本文主要针对gcc编译器，也就是针对C和C++，不一定适用于其他语言的编译。

第一步配置（configure）

编译器在开始工作之前，需要知道当前的系统环境，比如标准库在哪里、软件的安装位置在哪里、需要安装哪些组件等等。这是因为不同计算机的系统环境不一样，通过指定编译参数，编译器就可以灵活适应环境，编译出各种环境都能运行的机器码。这个确定编译参数的步骤，就叫做"配置"（configure）。

这些配置信息保存在一个配置文件之中，约定俗成是一个叫做configure的脚本文件。通常它是由autoconf工具生成的。编译器通过运行这个脚本，获知编译参数。

configure脚本已经尽量考虑到不同系统的差异，并且对各种编译参数给出了默认值。如果用户的系统环境比较特别，或者有一些特定的需求，就需要手动向configure脚本提供编译参数。

 $ ./configure --prefix=/www --with-mysql

上面代码是php源码的一种编译配置，用户指定安装后的文件保存在www目录，并且编译时加入mysql模块的支持。

第二步确定标准库和头文件的位置

源码肯定会用到标准库函数（standard library）和头文件（header）。它们可以存放在系统的任意目录中，编译器实际上没办法自动检测它们的位置，只有通过配置文件才能知道。

编译的第二步，就是从配置文件中知道标准库和头文件的位置。一般来说，配置文件会给出一个清单，列出几个具体的目录。等到编译时，编译器就按顺序到这几个目录中，寻找目标。

第三步确定依赖关系

对于大型项目来说，源码文件之间往往存在依赖关系，编译器需要确定编译的先后顺序。假定A文件依赖于B文件，编译器应该保证做到下面两点。

（1）只有在B文件编译完成后，才开始编译A文件。

（2）当B文件发生变化时，A文件会被重新编译。

编译顺序保存在一个叫做makefile的文件中，里面列出哪个文件先编译，哪个文件后编译。而makefile文件由configure脚本运行生成，这就是为什么编译时configure必须首先运行的原因。

在确定依赖关系的同时，编译器也确定了，编译时会用到哪些头文件。

第四步头文件的预编译（precompilation）

不同的源码文件，可能引用同一个头文件（比如stdio.h）。编译的时候，头文件也必须一起编译。为了节省时间，编译器会在编译源码之前，先编译头文件。这保证了头文件只需编译一次，不必每次用到的时候，都重新编译了。

不过，并不是头文件的所有内容，都会被预编译。用来声明宏的#define命令，就不会被预编译。

第五步预处理（Preprocessing）

预编译完成后，编译器就开始替换掉源码中bash的头文件和宏。以本文开头的那段源码为例，它包含头文件stdio.h，替换后的样子如下。

 extern int fputs(const char *, FILE *); extern FILE *stdout;  int main(void) {     fputs("Hello, world!\n", stdout);     return 0; }

为了便于阅读，上面代码只截取了头文件中与源码相关的那部分，即fputs和FILE的声明，省略了stdio.h的其他部分（因为它们非常长）。另外，上面代码的头文件没有经过预编译，而实际上，插入源码的是预编译后的结果。编译器在这一步还会移除注释。

这一步称为"预处理"（Preprocessing），因为完成之后，就要开始真正的处理了。

第六步编译（Compilation）

预处理之后，编译器就开始生成机器码。对于某些编译器来说，还存在一个中间步骤，会先把源码转为汇编码（assembly），然后再把汇编码转为机器码。

下面是本文开头的那段源码转成的汇编码。

     .file   "test.c"     .section    .rodata .LC0:     .string "Hello, world!\n"     .text     .globl  main     .type   main, @function main: .LFB0:     .cfi_startproc     pushq   %rbp     .cfi_def_cfa_offset 16     .cfi_offset 6, -16     movq    %rsp, %rbp     .cfi_def_cfa_register 6     movq    stdout(%rip), %rax     movq    %rax, %rcx     movl    $14, %edx     movl    $1, %esi     movl    $.LC0, %edi     call    fwrite     movl    $0, %eax     popq    %rbp     .cfi_def_cfa 7, 8     ret     .cfi_endproc .LFE0:     .size   main, .-main     .ident  "GCC: (Debian 4.9.1-19) 4.9.1"     .section    .note.GNU-stack,"",@progbits

这种转码后的文件称为对象文件（object file）。

第七步连接（Linking）

对象文件还不能运行，必须进一步转成可执行文件。如果你仔细看上一步的转码结果，会发现其中引用了stdout函数和fwrite函数。也就是说，程序要正常运行，除了上面的代码以外，还必须有stdout和fwrite这两个函数的代码，它们是由C语言的标准库提供的。

编译器的下一步工作，就是把外部函数的代码（通常是后缀名为.lib和.a的文件），添加到可执行文件中。这就叫做连接（linking）。这种通过拷贝，将外部函数库添加到可执行文件的方式，叫做静态连接（static linking），后文会提到还有动态连接（dynamic linking）。

make命令的作用，就是从第四步头文件预编译开始，一直到做完这一步。

第八步安装（Installation）

上一步的连接是在内存中进行的，即编译器在内存中生成了可执行文件。下一步，必须将可执行文件保存到用户事先指定的安装目录。

表面上，这一步很简单，就是将可执行文件（连带相关的数据文件）拷贝过去就行了。但是实际上，这一步还必须完成创建目录、保存文件、设置权限等步骤。这整个的保存过程就称为"安装"（Installation）。

第九步操作系统连接

可执行文件安装后，必须以某种方式通知操作系统，让其知道可以使用这个程序了。比如，我们安装了一个文本阅读程序，往往希望双击txt文件，该程序就会自动运行。

这就要求在操作系统中，登记这个程序的元数据：文件名、文件描述、关联后缀名等等。Linux系统中，这些信息通常保存在/usr/share/applications目录下的.desktop文件中。另外，在Windows操作系统中，还需要在Start启动菜单中，建立一个快捷方式。

这些事情就叫做"操作系统连接"。make install命令，就用来完成"安装"和"操作系统连接"这两步。

第十步生成安装包

写到这里，源码编译的整个过程就基本完成了。但是只有很少一部分用户，愿意耐着性子，从头到尾做一遍这个过程。事实上，如果你只有源码可以交给用户，他们会认定你是一个不友好的家伙。大部分用户要的是一个二进制的可执行程序，立刻就能运行。这就要求开发者，将上一步生成的可执行文件，做成可以分发的安装包。

所以，编译器还必须有生成安装包的功能。通常是将可执行文件（连带相关的数据文件），以某种目录结构，保存成压缩文件包，交给用户。

第十一步动态连接（Dynamic linking）

正常情况下，到这一步，程序已经可以运行了。至于运行期间（runtime）发生的事情，与编译器一概无关。但是，开发者可以在编译阶段选择可执行文件连接外部函数库的方式，到底是静态连接（编译时连接），还是动态连接（运行时连接）。所以，最后还要提一下，什么叫做动态连接。

前面已经说过，静态连接就是把外部函数库，拷贝到可执行文件中。这样做的好处是，适用范围比较广，不用担心用户机器缺少某个库文件；缺点是安装包会比较大，而且多个应用程序之间，无法共享库文件。动态连接的做法正好相反，外部函数库不进入安装包，只在运行时动态引用。好处是安装包会比较小，多个应用程序可以共享库文件；缺点是用户必须事先安装好库文件，而且版本和安装位置都必须符合要求，否则就不能正常运行。

现实中，大部分软件采用动态连接，共享库文件。这种动态共享的库文件，Linux平台是后缀名为.so的文件，Windows平台是.dll文件，Mac平台是.dylib文件。

（文章完）

=====================================================

以下为广告部分。欢迎大家在我的网络日志投放广告，推广自己的产品。今天介绍的是100offer。

[赞助商广告]

优秀的人才找到合适的归宿，是这个世界最幸福的事情之一。100offer程序员拍卖网站通过创新的拍卖方式，致力于帮助优秀程序员寻找归宿，给予求职者更多更好的职业选择。

过去三个月，100offer中成功的求职者，平均薪资涨幅高于30%，在2周内拿到3-5个offer。100offer与传统招聘网站存在极大差异，主要为下：

1、只接受部分候选人：100offer目前仅仅接受年薪高于15万，有一二线知名互联网公司工作经验的优秀程序员申请者。

2、反向模式：传统招聘网站是写简历投递给多家公司，而这里程序员只需要提交一次简历给offer，待审核通过后，100offer会邀约平台企业来竞拍候选人，产生一次投递数百家互联网公司的效果。拍卖时程序员会接受到来自各公司新鲜热辣的面试邀请，体验与传统网站截然不同。

3、绝对隐私：担心自己的隐私被雇主看到是完全不必要的：1、候选人同意面试邀请前，公司是完全看不到候选人的姓名、联系方式等隐私信息。2、拍卖开始前，候选人可以手动屏蔽掉3家公司，他们将永远看不到你的简历！

已经有众多大牛程序员通过100offer找到心仪的工作，目前11月候选人在征集中，点击图片注册100offer并提交完整简历的程序员朋友，即可获赠15元亚马逊礼品卡！（活动截止期为2014年12月30日）

100offer目前阶段对企业免费，欢迎极客型创业公司和有实力的互联网公司前来注册招聘！

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2014年11月11日
更多内容：档案 » 理解计算机
付费支持：购买文集
社交媒体： twitter， weibo
Feed订阅：

[广告]　生命链记忆网是永远在线的个人史馆，是永恒的信息载体，永久保留每个人的人生记忆和生命轨迹直至千秋万代。

阮一峰的网络日志

2014年11月29日星期六