问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
查看: 138|回复: 8

箱形图怎么看,以及它反映了什么?

[复制链接]

1

主题

6

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2023-1-14 16:05:46 | 显示全部楼层 |阅读模式
在对数据进行比较的时候,我们通常会使用直方图、饼图、折线图来对数据差异进行显化,而箱形图很少出现在我们的视野中。
今天在看代码的时候看到箱形图觉得很有意思:
去百度百科上查了查后发现这么香的箱形图我居然不知道????
那么箱形图的价值在哪里?
我觉得最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况
有一个博主的博客里面的一张介绍箱形图的图很直观:


其中补充的一点就是:一般异常值用⭕表示,偏激异常值用 * 表示
对于Q1和Q3的值,这里举个例子就是:
import pandas as pd
num = [1,2,3,4,5,6,7,8]
print(pd.DataFrame(num).describe())


图中上面的红色箭头为Q1的值,下面为Q3;
而四分位距IQR=Q3-Q1
上限=(Q3+1.5IQR,max)取最小,下限=(Q1-1.5IQR ,min)取最大。
总之:
箱形图的优点有:

  • 直观明了地识别数据批中的异常值
  • 利用箱线图判断数据批的偏态和尾重
局限性
不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性
回复

使用道具 举报

1

主题

4

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-1-14 16:06:29 | 显示全部楼层
如果两段的异常值多,是不是说明厚尾[好奇]
回复

使用道具 举报

0

主题

2

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-14 16:07:14 | 显示全部楼层
看你这个文章的封面,Q3到上限和Q1到上限的长度明显不一样,和文章内容不符
少了关于温和异常值和极端异常值以及怎样定位异常值的线
回复

使用道具 举报

0

主题

7

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-14 16:07:24 | 显示全部楼层
事实上Q3到上限和Q1到下限的长度(这被称为上下限)在大多数情况下是不一样的,文中的图只是示例。
回复

使用道具 举报

1

主题

10

帖子

18

积分

新手上路

Rank: 1

积分
18
发表于 2023-1-14 16:07:57 | 显示全部楼层
可以这么说
回复

使用道具 举报

0

主题

7

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2023-1-14 16:08:04 | 显示全部楼层
作者你好,当n为基数时。Q1和Q2怎么算
回复

使用道具 举报

0

主题

5

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-14 16:08:23 | 显示全部楼层
这 Q1和 Q3是不是写错了,Q1 是最小数和 Q2的均值,Q3是最大数和 Q2的均值。按图片的公示,Q1 和 Q3是取位置就差0.5个位置,明显错了。
回复

使用道具 举报

2

主题

4

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2023-1-14 16:09:15 | 显示全部楼层
箱型图有置信区间吗
回复

使用道具 举报

0

主题

5

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-1-14 16:10:07 | 显示全部楼层
可是你这计算的长度都是1.5IQR啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-7-8 03:49 , Processed in 0.117141 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表