|
在对数据进行比较的时候,我们通常会使用直方图、饼图、折线图来对数据差异进行显化,而箱形图很少出现在我们的视野中。
今天在看代码的时候看到箱形图觉得很有意思:
去百度百科上查了查后发现这么香的箱形图我居然不知道????
那么箱形图的价值在哪里?
我觉得最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况
有一个博主的博客里面的一张介绍箱形图的图很直观:

其中补充的一点就是:一般异常值用⭕表示,偏激异常值用 * 表示
对于Q1和Q3的值,这里举个例子就是:
import pandas as pd
num = [1,2,3,4,5,6,7,8]
print(pd.DataFrame(num).describe())

图中上面的红色箭头为Q1的值,下面为Q3;
而四分位距IQR=Q3-Q1
上限=(Q3+1.5IQR,max)取最小,下限=(Q1-1.5IQR ,min)取最大。
总之:
箱形图的优点有:
- 直观明了地识别数据批中的异常值
- 利用箱线图判断数据批的偏态和尾重
局限性
不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性 |
|