数据分析 – 第 2 页 – 令爷课程-曾确令(ColinZENG)AIGC玩家

机器学习算法之逻辑回归

2026年4月27日2024年9月7日作者曾确令

机器学习算法之逻辑回归来源： https://www.biaodianfu.com 逻辑回归算法的名字里虽然带有“回归”二字，但实际上逻辑回归算法是用来解决分类问题的。简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用（逻辑回归是基于分布假设建立的，假设在现实案例中并不是那么容易满...

机器学习算法之朴素贝叶斯

2026年4月27日2024年9月7日作者曾确令

机器学习算法之朴素贝叶斯来源： https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯定理贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率（Conditional Probability）是指在事件 B 发生的情况下，事件 A 发生的概率，用 P (A|B) 表示，读作在 B 条件下的 A 的概率。根据上图，可以很清楚地看到在事件 B 发生的情况下，事件 A 发生的概率就是 $P(A cap B)$除以 $P (B)$。 $...

机器学习算法之主成分分析PCA

2024年9月8日2024年9月7日作者曾确令

机器学习算法之主成分分析PCA 来源： https://www.biaodianfu.com 主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。首先考虑一个问题：对于正交属性空间中的样本点，如何用一个超平面（直线的高维推广）对所有样本进行恰当的表达？可以想到，若存在这样的超平面，那么它大概具有这样的性质：最近重构性：样本点到这个超平面的距离都足够近，即下图中所有红线（即投影造成的损失）加...

机器学习聚类算法之K-Means

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，其训练的样本中值包含样本的特征，不包含样本的标签信息。在聚类算法中。利用样本的特征，将具有相似属性的样本划分到统一类别中，它有点像全自动分类。 K-Means算法 K-Means算法，也被称为K-平均或K-均值算法，是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。之所...

风险控制：信用评分卡模型

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 什么是信用评分卡模型？评分卡模型又叫做信用评分卡模型，最早由美国信用评分巨头FICO公司于20世纪60年代推出，在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则，评分卡模型的使用具有很明显的优点：判断快速：系统只需要按照评分卡逐项打分，最后通过相应的公式计算出总分，即可准确判断出是否为客户授信以及额度和利率。客观透明：评分卡模型的...

机器学习之类别特征处理

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 类别型特征（categorical feature）主要是指职业，血型等在有限类别内取值的特征。它的原始输入通常是字符串形式，大多数算法模型不接受数值型特征的输入，针对数值型的类别特征会被当成数值型特征，从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式，将每个类别标签与不断增加的整数相关联，即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码，即对不连续的数值或文本进行编码。其中包含以下常用方法： ...

Pandas数据处理简明教程

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 在使用Python处理分析数据的时候，用的最多的算是Pandas时，由于Pandas是个非常强大的工具，涉及到的功能非常多，所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas...

数据科学中10个应用广泛的统计方法

2026年4月27日2024年9月7日作者曾确令

以下是数据科学中广泛应用的十个统计方法的详细描述： 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述：中心极限定理告诉我们，无论原始数据的分布是什么样的，只要我们取足够多的样本（通常认为样本量大于30就够了），这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一，因为它让我们能够在许多情况下使用正态分布来进行推断。举例：假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀（有些天销售量很高，有些天则很低），但如果我们每天抽取一个样本，并记录这些样本的均值，随着样本数量的增加，这些均值会形成一个正...

Python数据分析7步(IMDb Summer Movies Data)

2026年4月27日2024年8月14日作者曾确令

数据：summer_movies | summer_movie_genres 流程 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 数据集说明以下是两个数据文件的详细说明：文件1：summer_movies.csv 数据预览： tconst title_type primary_title original_title ye...

Python数据分析7步(Iris数据集)

2026年4月27日2024年8月13日作者曾确令

数据：iris.csv Python数据分析7步 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot as plt # 绘图库 import seabor...

健身房的正态分布例子

2026年4月27日2024年7月15日作者曾确令

以下是chatgpt 4o的描述重量堆栈正态分布这张图片显示了一个重量堆栈（可能是一个健身器材）的图示，其中每个重量位置上都有明显的磨损痕迹。这些磨损痕迹在图中形成了一个钟形曲线，类似于正态分布（即常态分布）。具体来说，这种磨损痕迹集中在中间的重量区间（大约在40到60之间），而两端的重量位置（10-20和90-115之间）的磨损痕迹较少。这反映了大多数人使用中等重量的频率最高，而使用极轻或极重的重量的人相对较少。从统计学角度来看，这表明使用这个器材的人在选择重量时，符合正态分布规律：大多数人的选择集中在一个中间值附近，极端值（非常轻或非常重的重量）选择的频率较低。凑整的极端值在...

数据分析工具介绍

2026年4月27日2024年7月6日作者曾确令

数据分析工具介绍数据分析工具在现代商业和科学研究中扮演着重要角色。不同的工具适用于不同的数据规模和分析需求。本文将介绍几种常见的数据分析工具，并讨论它们的替代品和适用场景。小规模数据分析工具 1. Excel 特点：适用于处理几千到几万行数据，提供基础的数据整理、分析和可视化功能。用户：个人用户、小型企业和业务分析师。替代品： Google Sheets：基于云端，方便团队协作。 Zoho Sheet：提供在线数据处理和协作功能。 LibreOffice Calc：开源的电子表格软件。中等规模数据分析和商业智能工具 2. Power BI 特点：适用于处理数百万行数据，提供...

Tableau免费了

2026年4月27日2024年5月15日作者曾确令

⏩支持离线使用自动保存、支持将工作簿保存在本地而不是在线发布； ⏩企业数据可以安心在本地操作而不必泄漏； ⏩可直接选择发布到Public社区，而不必经过繁杂的数据提取再发布环节； 🆓最重要的是：免费！免费！免费！与付费专业版Tableau Desktop Professional Edition相比基本没什么差别，如果说有差别，主要在于：数据导入时专业版支持的多种数据库和云空间不再提供，数据筛选环节不支持实时连接和刷新。差别也就如此，其他专业版有的功能Tableau Public Desktop Edition全部都有！ https:/...

一个标星:17.4k⭐可视化爬虫软件:EasySpider

2023年11月19日作者曾确令

EasySpider是一个可视化爬虫软件，它支持数据的定制和导出，适用于各种爬虫应用和数据采集需求。该项目在GitHub上非常受欢迎，过去一个月内增加了4,786个星星。其使用文档和示例可以在Issues中找到。项目教程包括如何爬需要登录的网站、自定义条件判断、如何爬取需要输入验证码的网站等。此外，它还提供了命令行执行任务和API调用等功能。

会讲故事的数据分析

2026年4月27日2023年11月10日作者曾确令