卡方检验 - 检验特征对是否相关

在本文开头,贴一段百科对卡方检验基本原理的介绍: 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为 0,表明理论值完全符合。 由此可见,卡方检验刻画的是一种偏离程度。那么在相关性计算中也可以利用卡方检验计算出显著性来判断两个特征是否相关。 卡方检验 卡方检验的步骤如下: 定义 H0 和 H1 假设; 根据领域知识定义显著性水平 $\alpha$,一般取 0.05,表示有 5% 的容错; 计算卡方值; 计算显著性水平,小于 $\alpha$ 则拒绝 H0 接受 H1; 离散型特征对 离...

帕尔默企鹅数据集测试

今天导师在群里分享了一个链接 23 个优秀的机器学习训练公共数据集,看了一下,决定对帕尔默企鹅数据集(Palmer Archipelago (Antarctica) penguin data)做一些分析。 数据集介绍 数据集是在 Kaggle 下载的,包含两个文件: penguins_lter.csv:原始数据文件; penguins_size.csv:特征约简后的数据文件; 本次分析使用的是简化后的数据集 penguins_size.csv。数据集共 344 个样本,特征信息如下表: 特征 数据类型 说明 species 离散值 标签信息,值为 Adelie|Chinstrap|Gentoo 之一 island 离散值 岛屿,...

Go 内置的 RPC 包

在网络或 I/O 连接中,可以使用 net/rpc 包实现对一个对象的导出方法的调用,即远程过程调用(Remote Procedure Call,RPC)。通过向 RPC 服务注册一个对象,使其可被远程调用,进而实现一些复杂的业务逻辑。 项目结构 示例项目的结构如下: client - client.go - json_client.go models - greeting.go server - json_server.go - server.go 注册服务 一个可被远程调用的方法须满足以下条件: 方法所属结构是公开的; 方法是分开的; 方法的参数类型是分开的; 方法带两个参数,第 2 个参数为指针; 方法返回值为 error ...

Protocol Buffer(Protobuf) 是一种高效的数据结构序列化的机制,同时也是一种结构化数据的存储格式。 序列化与反序列化 序列化:将数据结构或对象转换成二进制串的过程; 反序列化:将序列化后的二进制串转换成数据结构或对象的过程; 语法 /* * 语法 */ /* * 指定 Protobuf 解析使用的版本,可以是 proto3 或 proto2 */ syntax = "proto3"; /* * message 定义中的每一个字段都有一个唯一标识,该标识用于在二进制格式中识别字段 * 字段的标识一旦使用就不要进行修改 * 当标识为 1 到 15 时,使用一个字节进行编码,字节信息中包含字段的标识以及类型 * 当标...

Redis 集群是基于“主从复制”特性之上的分布式 Redis 版本,可提供高并发、高性能、高可用的数据库服务。Redis 集群突破了单台服务器的内存局限,集群中的每一个节点都可以存储数据,同时维护着 “key-node” 的映射表。本文记录了 3 主 3 从的 Redis 集群的配置过程,主要内容包括:

  1. Redis 集群的配置过程;
  2. 集群相关命令;
  3. Go 存取集群数据;

每当有快速绘制图表的需求时,第一时间反应到的肯定是 Matplotlib,因为其官方提供了详细的 API 文档及示例。但是每次在编码时,总是时不时地需要查看文档,不利用于可视化快速成型。所以在本文中罗列一些 bar 图的快速实现,方便 Ctrl+C/V。