机器学习算法之决策树分类

机器学习算法之决策树分类 来源: https://www.biaodianfu.com 什么是决策树 决策树(decision tree)是一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,从根节点到叶节点所经历的路径对应一个判定测试序列。决策树可以是二叉树或非二叉树,也可以把他看作是 if-else 规则的集合,也可以认为是在特征空间上的条件概率分布。决策树在机器学习模型领域的特殊之处,在于其信息表示的清晰度。决策树通过训练获得的 “知识”,直接形成层次结...

机器学习聚类算法之K-Means

来源: https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的样本划分到统一类别中,它有点像全自动分类。 K-Means算法 K-Means算法,也被称为K-平均或K-均值算法,是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。之所...

风险控制:信用评分卡模型

来源: https://www.biaodianfu.com 什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点: 判断快速 :系统只需要按照评分卡逐项打分,最后通过相应的公式计算出总分,即可准确判断出是否为客户授信以及额度和利率。 客观透明 :评分卡模型的...

机器学习之类别特征处理

来源: https://www.biaodianfu.com 类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法: ...

机器学习之特征选择方法

来源: https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“ 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。 特征选择是一个过程,您可以自动选择数据中您感兴趣的对预测变量...

Pandas数据处理简明教程

来源: https://www.biaodianfu.com 在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas...

数据科学中10个应用广泛的统计方法

以下是数据科学中广泛应用的十个统计方法的详细描述: 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述: 中心极限定理告诉我们,无论原始数据的分布是什么样的,只要我们取足够多的样本(通常认为样本量大于30就够了),这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一,因为它让我们能够在许多情况下使用正态分布来进行推断。 举例: 假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀(有些天销售量很高,有些天则很低),但如果我们每天抽取一个样本,并记录这些样本的均值,随着样本数量的增加,这些均值会形成一个正...

几行乱码让大模型获得科学思维:超级提示

https://github.com/NeoVertex1/SuperPrompt#superprompt 不过两三天的时间,仅有两个 Markdown 文件的 GitHub 项目为何竟能收获 1.9k star? 仔细一看,其中一个 Markdown 文件是一个流程图,另一个 Readme 文件的主要内容则是一大篇大模型提示词(prompt。而如果你细读这个 prompt,却发现里面仅有寥寥数句人类能懂的话,其余都是一些奇怪的 XML 标签、符号与函数定义。 超级提示 这是一个我决定开源的项目,因为我认为它可能有助于其他人了解人工智能代理。 这个提示花了我几个月的时间,仍然处于永久测试阶段...

机器学习入门

拥抱人工智能,从机器学习开始 背景: 自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。 人工智能的火爆离不开互联网、云计算、大数据、芯片和软件等技术的发展,而深度学习的进步却是当今人工智能大爆炸的核心驱动。 作为一个跨学科产物,人工智能的内容浩如烟海,各种复杂的模型和算法更让人望而生畏。那么作为一个普通程序员,在已有语言技能的前提下,该如何拥抱变化,向人工智能靠拢?如何在自己的工作中应用人工智能?学习人工智能应该从哪里开始? 人工智能并非遥不可及,人人都可以做人工智能! 人工智能是让机器...

Cursor + Claude 3.5 Sonnet 案例

Cursor太火了,很多人都放弃 GitHub Copilot ,转投 Cursor了。 Cursor + Claude 3.5 Sonnet 彻底改变了大家编程的体验,网友们几个惊艳的例子↓ 第一个就很震惊! 8 岁的孩子能在 45 分钟内构建了一个由Cloudflare Workers AI 驱动的聊天机器人 11k 行代码,685 次提交,整整 3 周,一个视频编辑器 Cursor+V0创建一个漂亮的界面 CURSOR + REPLIT + VOICE单手完成应用开发 几分钟创建Figma插件 30分钟创建一个web版photoshop 8-10小时构建一个Chrome扩展 通过对话...

从电力革命到AI:组织创新驱动下的生产力飞跃

1.谷歌前CEO说现在像电力革命前夕 在2024年8月13日,谷歌前CEO埃里克·施密特在斯坦福大学的演讲中指出,尽管AI技术已经取得了显著的进步,并在许多领域得到了广泛应用,但其真正的潜力尚未完全释放。他强调,当前的AI应用大多集中在替代或辅助人类完成特定任务上,而未能引发深刻的组织变革。这种情况类似于19世纪末期电力刚被引入工厂时的情景,当时工厂只是简单地用电动机替代了蒸汽机,工厂布局和生产流程并未发生实质性的改变,直到数十年后,分布式电力系统彻底重塑了生产方式,才带来了生产力的飞跃。 施密特的观点为我们思考AI时代的未来提供了一个重要视角:要想真正释放AI的潜力,关键在于组织创新。本文将...

Python数据分析7步(IMDb Summer Movies Data)

数据:summer_movies | summer_movie_genres 流程 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 数据集说明 以下是两个数据文件的详细说明: 文件1:summer_movies.csv 数据预览: tconst title_type primary_title original_title ye...

Python数据分析7步(Iris数据集)

数据:iris.csv Python数据分析7步 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot as plt # 绘图库 import seabor...

[转载]使用Cursor,2个晚上做了一个PDF转Markdown的工具

来源:https://blog.vcvit.me/2024/08/11/use-cursor-2-nights-built-pdf-to-markdown-tool/ 今天使用 Cursor,2 个晚上做了一个 PDF 转 Markdown 的工具,真的是一行代码都没有写。我不禁重新思考,这何尝不是一种 0 代码?程序员真的可以被替代么?以前我的个人感受是 GPT 确实能帮助很多会用的人,提高 80%的效率。但是今天真的有一个程序,100%是 AI 生成的,这个感受还是有些不一样的。未来一定是有更宽泛知识面的程序员能吃上这碗饭,你要懂更多的编程概念,前端,后端,数据库,权限,交互,体验等等,...

黄铮:我的中学和大学(转载)

黄铮:我的中学和大学(转载) Colin 黄峥 2016-02-18 我的小学在杭州市郊,应该算是很一般的,但是我非常狗屎运地考进了杭州有点特别的一所中学,杭州外国语学校。据我小学老师说,我是我们小学前后9年里唯一一个考进这所中学的。人生有时候是比较戏剧性的,我当时是因为奥数得了个奖,然后老师让我去考的。去考之前,我几乎不知道这所中学是干嘛的,更没有什么复习、准备、做模拟题什么的。拿到录取通知书之后,我还和老师说,我不想去,读名字以为它是一所完全学外语的学校。我说我想要进另外数理化强的中学。后来,被小学校长叫去,劝我去读,我才去了。后来回想起来,还好去了! 杭外是所好中学。老...