令爷课程-曾确令(ColinZENG)AIGC玩家 – 第 9 页 – 大数据技术|AIGC|Chatgpt应用|数据分析|人工智能

python爬虫工具集合

2026年7月27日2024年10月8日作者曾确令

python爬虫工具集合主要针对python3 常用库获取目标 chrome/firefox chrome开发者工具小技巧史上最全的Chrome使用技巧集锦 fiddler project download-unofficial download-official articles Fiddler是最强大最好用的Web调试工具之一，它能记录所有客户端和服务器的http和https请求，允许你监视，设置断点，甚至修改输入输出数据，使用Fiddler无论对开发还是测试来说，都有很大的帮助。Fiddler4基于4.0的.NET。 wireshark download artic...

50个最佳机器学习公共数据集

2026年7月27日2024年10月1日作者曾确令

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 提前说下须知：一、寻找数据集的意义根据CMU的说法，寻找一个好用的数据集需要注意一下几点：数据集不混乱，否则要花费大量时间来清理数据。数据集不应包含太多行或列，否则会难以使用。数据越干净越好，清理大型数据集可能非常耗时。应该预设一个有趣的问题，而这个问题又可以用数据来回答。二、去哪里找数据集 Kaggle：爱竞...

用户调研之标准化可用性问卷

2026年7月27日2024年9月10日作者曾确令

用户调研之标准化可用性问卷来源：https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求，原以为做下简单的问卷设计就可以了，找了一些资料发现中间的门道还是非常的深，想要很好的掌握实属不易。可用性测试的问卷有很多中，如下图：什么是标准化的问卷问卷是一种用于获取被测者信息的表格，问卷的题目可以是开放式的问题，但更典型的是选择题或打分题。标准化问卷是被设计为可重复使用的问卷，通常有一组特定的问题使用特定的格式按照特定的顺序呈现，基于用户答案产生的度量值具有一定的规则（...

2023年5个自动化EDA库推荐

2026年7月27日2024年9月10日作者曾确令

2023年5个自动化EDA库推荐来源：deephub EDA或探索性数据分析是一项耗时的工作，但是由于EDA是不可避免的，所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形，而是获得对数据集的理解，并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库，但是现在已经过了1年的时间了，我们看看现在有什么新的变化。为了测试这些库的功能，本文使用了两个不同的数据集，只是为了更好地理解这些库如何处理不同类型的数据。 YData-Profiling 以前被称为Pandas Profiling，在今年改了名字。如果...

数据探索工具Dataprep.eda

2026年7月27日2024年9月8日作者曾确令

数据探索工具Dataprep.eda 来源： https://www.biaodianfu.com Pandas-profiling（2016）被称为EDA（Exploratory Data Analysis）分析的典型工具，然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写，而EDA是一个迭代的过程，分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。 Dataprep.eda（2020）是一个 Python 库，它支持迭代和以任务为中心的分析，就像 EDA 注定要做的那样。dat...

Pandas基础教程之替换SQL

2026年7月27日2024年9月8日作者曾确令

Pandas基础教程之替换SQL 来源： https://www.biaodianfu.com 对于很多数据分析的同学来说，最熟悉的莫过于SQL，针对数据处理问题，脑海里的第一反应也往往都是SQL，而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据，今天就一起来学习Pandas。使用Pandas代替SQL 选择列 ## select COL1, COL2 from TABLE; # df.loc[:, ["COL1", "COL2"]] pandas中loc与iloc区别在Pandas中，iloc和loc是两种...

统计学基础之摘要统计

2026年4月27日2024年9月8日作者曾确令

统计学基础之摘要统计来源： https://www.biaodianfu.com 什么是摘要统计？摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段，可以帮助研究者理解数据的基本趋势和模式，但不用于从样本推断总体的结论。摘要统计主要包括两类指标：集中趋势的度量和离散程度的度量。集中趋势的度量：平均值（Mean）：数据集合中所有数值的总和除以数值的数量。中位数（Median）：将数据集合按数值大小排列后处于中间位置的数值。众数（Mode）：在数据集合中出现次数最多的数值。离散程度的度量：极差（Range）：数据集中最大值与最小值的...

探索性数据分析详解

2026年7月27日2024年9月8日作者曾确令

探索性数据分析详解来源： https://www.biaodianfu.com 什么是探索性数据分析？探索性数据分析（Exploratory Data Analysis，简称EDA）是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。探索性数据分析（EDA）与传统统计分析（Classical Analysis）的区别：传统的统计分析方法通常是先假设样本服从某种分布，然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布，因此，传统统计分析结果常常不能让人...

机器学习/数据分析之缺失值处理

2026年7月27日2024年9月8日作者曾确令

机器学习/数据分析之缺失值处理来源： https://www.biaodianfu.com 在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。数据缺失类型完全随机丢失（MCAR，Missing Completely at Random）：某个变量是否缺失与它自身的值无关，也与其他任何变量的值无关。例如，由于测量设备出故障导致某些值缺失。随机丢失（MAR，Missing at Random）：在控制了其他变量已观测到的值后，某个变量是否缺失与它自身的值无关。例如，人们是否透露收入可能与性别、教育程度、职业等因素...

机器学习算法之XGBoost

2026年7月27日2024年9月8日作者曾确令

机器学习算法之XGBoost 来源： https://www.biaodianfu.com 什么是XGBoost? 全称：eXtreme Gradient Boosting 作者：陈天奇(华盛顿大学博士) 基础：GBDT 所属：boosting迭代型、树类算法。适用范围：分类、回归优点：速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。缺点：算法参数过多，调参负责，对原理不清楚的很难使用好XGBoost。不适合处理超高维特征数据。项目地址：https://github.com/dmlc/xgboost XGBoost的原理 XGBoost 所应用的算法就...

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

2026年7月27日2024年9月8日作者曾确令

以下是T检验、方差分析（ANOVA）和卡方检验的对比分析，以及它们在不同应用领域的详细描述。统计方法 T检验方差分析（ANOVA）卡方检验目的比较两个组的均值差异比较多个组的均值差异比较分类变量的频数分布数据类型连续变量（通常是正态分布）连续变量（通常是正态分布）分类变量适用条件样本数量较小，正态分布，方差齐性样本数量较大，正态分布，方差齐性样本独立，预期频数不宜过低（通常每个单元格≥5）类型独立样本T检验、配对样本T检验单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验统计量计算 ...

机器学习算法之K-近邻（KNN）

2026年7月27日2024年9月7日作者曾确令

机器学习算法之K-近邻（KNN）来源： https://www.biaodianfu.com 什么是K-近邻算法？ K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出...

关联分析算法之FP-Growth

2026年7月27日2024年9月7日作者曾确令

关联分析算法之FP-Growth 来源： https://www.biaodianfu.com 在Apriori算法的学习中，我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对，I/O是很大的瓶颈。为了解决这个问题，FP-Growth利用了巧妙的数据结构，无论多少数据，只需要扫描两次数据集，大大降低了Aproir挖掘算法的代价。FP-Growth算法主要包含有两个步骤：建立一个精简的数据结构：FP-tree(frequent-pattern tree, 频繁模式树) 从FP-tree中提取频繁项集 FP-Growth算法原理为了减少I/O次数，FP...

机器学习算法之线性回归

2026年7月27日2024年9月7日作者曾确令

机器学习算法之线性回归来源： https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说，当你想表示两个变量间数学关系时，就可以使用线性回归。当你使用它时，你首先假设输出变量（有时称为响应变量、因变量或标签）和预测变量（有时称为自变量、解释变量或特征）之间存在线性关系。当然这种线性关系也可能存在于一个输出变量和数个预测变量之间。输出变量于预测变量之间存在线性关系是一个大胆的假设，同时也是一个最简单的假设。从数学表示形式来看，线性函数比非线性函数更加简单。线性模型作为最简单的参数化方法，始终值得关注。这是因为很多问题，甚至本质是非线性的问题，也...