机器学习之类别特征处理

来源: https://www.biaodianfu.com 类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法: ...

机器学习之特征选择方法

来源: https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“ 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。 特征选择是一个过程,您可以自动选择数据中您感兴趣的对预测变量...

机器学习入门

拥抱人工智能,从机器学习开始 背景: 自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。 人工智能的火爆离不开互联网、云计算、大数据、芯片和软件等技术的发展,而深度学习的进步却是当今人工智能大爆炸的核心驱动。 作为一个跨学科产物,人工智能的内容浩如烟海,各种复杂的模型和算法更让人望而生畏。那么作为一个普通程序员,在已有语言技能的前提下,该如何拥抱变化,向人工智能靠拢?如何在自己的工作中应用人工智能?学习人工智能应该从哪里开始? 人工智能并非遥不可及,人人都可以做人工智能! 人工智能是让机器...