数据探索分析 – 第 2 页 – 令爷课程-曾确令(ColinZENG)AIGC玩家

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

2026年4月27日2024年9月8日作者曾确令

以下是T检验、方差分析（ANOVA）和卡方检验的对比分析，以及它们在不同应用领域的详细描述。统计方法 T检验方差分析（ANOVA）卡方检验目的比较两个组的均值差异比较多个组的均值差异比较分类变量的频数分布数据类型连续变量（通常是正态分布）连续变量（通常是正态分布）分类变量适用条件样本数量较小，正态分布，方差齐性样本数量较大，正态分布，方差齐性样本独立，预期频数不宜过低（通常每个单元格≥5）类型独立样本T检验、配对样本T检验单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验统计量计算 ...

机器学习算法之K-近邻（KNN）

2026年4月27日2024年9月7日作者曾确令

机器学习算法之K-近邻（KNN）来源： https://www.biaodianfu.com 什么是K-近邻算法？ K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出...

关联分析算法之FP-Growth

2026年4月27日2024年9月7日作者曾确令

关联分析算法之FP-Growth 来源： https://www.biaodianfu.com 在Apriori算法的学习中，我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对，I/O是很大的瓶颈。为了解决这个问题，FP-Growth利用了巧妙的数据结构，无论多少数据，只需要扫描两次数据集，大大降低了Aproir挖掘算法的代价。FP-Growth算法主要包含有两个步骤：建立一个精简的数据结构：FP-tree(frequent-pattern tree, 频繁模式树) 从FP-tree中提取频繁项集 FP-Growth算法原理为了减少I/O次数，FP...

机器学习算法之线性回归

2026年4月27日2024年9月7日作者曾确令

机器学习算法之线性回归来源： https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说，当你想表示两个变量间数学关系时，就可以使用线性回归。当你使用它时，你首先假设输出变量（有时称为响应变量、因变量或标签）和预测变量（有时称为自变量、解释变量或特征）之间存在线性关系。当然这种线性关系也可能存在于一个输出变量和数个预测变量之间。输出变量于预测变量之间存在线性关系是一个大胆的假设，同时也是一个最简单的假设。从数学表示形式来看，线性函数比非线性函数更加简单。线性模型作为最简单的参数化方法，始终值得关注。这是因为很多问题，甚至本质是非线性的问题，也...

机器学习算法之逻辑回归

2026年4月27日2024年9月7日作者曾确令

机器学习算法之逻辑回归来源： https://www.biaodianfu.com 逻辑回归算法的名字里虽然带有“回归”二字，但实际上逻辑回归算法是用来解决分类问题的。简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用（逻辑回归是基于分布假设建立的，假设在现实案例中并不是那么容易满...

机器学习算法之朴素贝叶斯

2026年4月27日2024年9月7日作者曾确令

机器学习算法之朴素贝叶斯来源： https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯定理贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率（Conditional Probability）是指在事件 B 发生的情况下，事件 A 发生的概率，用 P (A|B) 表示，读作在 B 条件下的 A 的概率。根据上图，可以很清楚地看到在事件 B 发生的情况下，事件 A 发生的概率就是 $P(A cap B)$除以 $P (B)$。 $...

机器学习算法之支持向量机SVM

2026年4月27日2024年9月7日作者曾确令

机器学习算法之支持向量机SVM 来源： https://www.biaodianfu.com 什么是支持向量机（SVM）？支持向量机（support vector machines, SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方...

机器学习算法之决策树分类

2026年4月27日2024年9月7日作者曾确令

机器学习算法之决策树分类来源： https://www.biaodianfu.com 什么是决策树决策树（decision tree）是一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树可以是二叉树或非二叉树，也可以把他看作是 if-else 规则的集合，也可以认为是在特征空间上的条件概率分布。决策树在机器学习模型领域的特殊之处，在于其信息表示的清晰度。决策树通过训练获得的 “知识”，直接形成层次结...

机器学习聚类算法之K-Means

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，其训练的样本中值包含样本的特征，不包含样本的标签信息。在聚类算法中。利用样本的特征，将具有相似属性的样本划分到统一类别中，它有点像全自动分类。 K-Means算法 K-Means算法，也被称为K-平均或K-均值算法，是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。之所...

风险控制：信用评分卡模型

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 什么是信用评分卡模型？评分卡模型又叫做信用评分卡模型，最早由美国信用评分巨头FICO公司于20世纪60年代推出，在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则，评分卡模型的使用具有很明显的优点：判断快速：系统只需要按照评分卡逐项打分，最后通过相应的公式计算出总分，即可准确判断出是否为客户授信以及额度和利率。客观透明：评分卡模型的...

机器学习之类别特征处理

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 类别型特征（categorical feature）主要是指职业，血型等在有限类别内取值的特征。它的原始输入通常是字符串形式，大多数算法模型不接受数值型特征的输入，针对数值型的类别特征会被当成数值型特征，从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式，将每个类别标签与不断增加的整数相关联，即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码，即对不连续的数值或文本进行编码。其中包含以下常用方法： ...

数据科学中10个应用广泛的统计方法

2026年4月27日2024年9月7日作者曾确令

以下是数据科学中广泛应用的十个统计方法的详细描述： 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述：中心极限定理告诉我们，无论原始数据的分布是什么样的，只要我们取足够多的样本（通常认为样本量大于30就够了），这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一，因为它让我们能够在许多情况下使用正态分布来进行推断。举例：假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀（有些天销售量很高，有些天则很低），但如果我们每天抽取一个样本，并记录这些样本的均值，随着样本数量的增加，这些均值会形成一个正...

Python数据分析7步(IMDb Summer Movies Data)

2026年4月27日2024年8月14日作者曾确令

数据：summer_movies | summer_movie_genres 流程 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 数据集说明以下是两个数据文件的详细说明：文件1：summer_movies.csv 数据预览： tconst title_type primary_title original_title ye...

Python数据分析7步(Iris数据集)

2026年4月27日2024年8月13日作者曾确令

数据：iris.csv Python数据分析7步 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot as plt # 绘图库 import seabor...