在本文开头,贴一段百科对卡方检验基本原理的介绍: 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。 由此可见,卡方检验刻画的是一种偏离程度。那么在相关性计算中也可以利用卡方检验计算出显著性来判断两个特征是否相关。 卡方检验 卡方检验的步骤如下: 定义 H0 和 H1 假设; 根据领域知识定义显著性水平 $\alpha$,一般取 0.05,表示有 5% 的容错; 计算卡方值; 计算显著性水平,小于 $\alpha$ 则拒绝 H0 接受 H1; 离散型特征对 离...
今天导师在群里分享了一个链接 23 个优秀的机器学习训练公共数据集,看了一下,决定对帕尔默企鹅数据集(Palmer Archipelago (Antarctica) penguin data)做一些分析。 数据集介绍 数据集是在 Kaggle 下载的,包含两个文件: penguins_lter.csv:原始数据文件; penguins_size.csv:特征约简后的数据文件; 本次分析使用的是简化后的数据集 penguins_size.csv。数据集共 344 个样本,特征信息如下表: 特征 数据类型 说明 species 离散值 标签信息,值为 Adelie|Chinstrap|Gentoo 之一 island 离散值 岛屿,...