一般情况下,你们会通过文件(CSV、Excel等) 或 Python 的内置结构(字典)来创建 DataFrame 对象。但有时,数据是字符串的形式,如何将其转换成 DataFrame 对象?

Series 和 DataFrame 是 Pandas 中两种重要的数据结构,也是我们操作和分析的主要对象。其中 Series 是一种类似于数组、列表或表格中一列的 一维数据对象,DataFrame 则可以表示表格化的数据对象,可由多个 Series 对象组成。

本文主要摘录 Series 和 DataFrame 两种数据结结构的创建方法以及一些注意事项。

卡方检验 - 检验特征对是否相关

在本文开头,贴一段百科对卡方检验基本原理的介绍: 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。 由此可见,卡方检验刻画的是一种偏离程度。那么在相关性计算中也可以利用卡方检验计算出显著性来判断两个特征是否相关。 卡方检验 卡方检验的步骤如下: 定义 H0 和 H1 假设; 根据领域知识定义显著性水平 $\alpha$,一般取 0.05,表示有 5% 的容错; 计算卡方值; 计算显著性水平,小于 $\alpha$ 则拒绝 H0 接受 H1; 离散型特征对 离...