相关性分析:Pearson、Kendall、Spearman

相关性分析:Pearson、Kendall、Spearman 来源: https://www.biaodianfu.com 在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为: pearson:Pearson相关系数 kendall:Kendall秩相关系数 Spearman:Spearman等级相关系数 Pearson相关系数 在统计学中,皮尔逊相关系数相关系数(英语:Pearson product-moment corre...

机器学习算法之支持向量机SVM

机器学习算法之支持向量机SVM 来源: https://www.biaodianfu.com 什么是支持向量机(SVM)? 支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 支持向量机学习方...

机器学习之类别特征处理

来源: https://www.biaodianfu.com 类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法: ...

机器学习入门

拥抱人工智能,从机器学习开始 背景: 自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。 人工智能的火爆离不开互联网、云计算、大数据、芯片和软件等技术的发展,而深度学习的进步却是当今人工智能大爆炸的核心驱动。 作为一个跨学科产物,人工智能的内容浩如烟海,各种复杂的模型和算法更让人望而生畏。那么作为一个普通程序员,在已有语言技能的前提下,该如何拥抱变化,向人工智能靠拢?如何在自己的工作中应用人工智能?学习人工智能应该从哪里开始? 人工智能并非遥不可及,人人都可以做人工智能! 人工智能是让机器...