机器学习算法之支持向量机SVM

机器学习算法之支持向量机SVM 来源: https://www.biaodianfu.com 什么是支持向量机(SVM)? 支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 支持向量机学习方...

机器学习算法之主成分分析PCA

机器学习算法之主成分分析PCA 来源: https://www.biaodianfu.com 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达? 可以想到,若存在这样的超平面,那么它大概具有这样的性质: 最近重构性 :样本点到这个超平面的距离都足够近,即下图中所有红线(即投影造成的损失)加...

机器学习算法之决策树分类

机器学习算法之决策树分类 来源: https://www.biaodianfu.com 什么是决策树 决策树(decision tree)是一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,从根节点到叶节点所经历的路径对应一个判定测试序列。决策树可以是二叉树或非二叉树,也可以把他看作是 if-else 规则的集合,也可以认为是在特征空间上的条件概率分布。决策树在机器学习模型领域的特殊之处,在于其信息表示的清晰度。决策树通过训练获得的 “知识”,直接形成层次结...

机器学习聚类算法之K-Means

来源: https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的样本划分到统一类别中,它有点像全自动分类。 K-Means算法 K-Means算法,也被称为K-平均或K-均值算法,是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。之所...

风险控制:信用评分卡模型

来源: https://www.biaodianfu.com 什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点: 判断快速 :系统只需要按照评分卡逐项打分,最后通过相应的公式计算出总分,即可准确判断出是否为客户授信以及额度和利率。 客观透明 :评分卡模型的...

机器学习之类别特征处理

来源: https://www.biaodianfu.com 类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法: ...

机器学习之特征选择方法

来源: https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“ 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。 特征选择是一个过程,您可以自动选择数据中您感兴趣的对预测变量...

表情符号(emoji)来表示 token

为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下 让模型知道自己擅长什么、不擅长什么是一个很重要的问题。 还记得这些天大模型被揪出来的低级错误吗? 不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。 嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么? 大家普遍认为,是 Token 化(Tokenization)的锅。 在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 to...

AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征

AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征 一直以来 AI 都是一个黑盒子(black box),其内部运作机制是不可见的。人们输入数据并得到结果,但无法检查输出结果的逻辑或者系统的代码。 而就在刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。 研究论文:https://transformer-circuits.pub/2024/scalin...

普通人也能理解的 Transformer

Tableau免费了
普通人也能理解的 Transformer 闪念基因 引言 如今爆火的大模型,GPT-3,BERT 等,通过大量的参数和数据,为我们提供了前所未有的自然语言处理能力,使得机器能够更好地理解和生成人类的语言。而注意力机制无疑是重要的基石之一,作为一种新的神经网络结构,使得模型能够更好地捕捉序列中的长距离依赖关系,从而大大提高了模型的性能。 本文将从通俗和学术两个角度,详细介绍大模型和注意力机制的基础知识。无论你是对人工智能感兴趣的初学者,还是寻求深入理解的开发者,都能在本文中找到你需要的内容。我们将从 RNN 开始,介绍其原理和局限性,然后介绍 LSTM 如何解决这些问题,接着我们将深入探讨注意力...

从思维链(CoT),到思维树(ToT),再到思维图(GoT):用LLMs解决复杂问题!

从思维链(CoT),到思维树(ToT),再到思维图(GoT):用LLMs解决复杂问题! 首发: **AINLPer 微信公众号( 每日论文干货分享!!** ) 编辑: ShuYini 校稿: ShuYi-ni 时间: 2023-09-04 引言 为了提高大型语言模型(LLM)上下文学习能力,今天给大家分享的这篇文章提出了思维图(GoT),其性能超过了思维链(CoT)、思维树(ToT)等。思维图(GoT)的关键是能够将 LLM 生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。这种方法优点能够将任意LLM的思维组合在一起,提炼出整个思维图内容。实验结果显示:相比目前的思维...

ChatGPT 是怎么做的,为什么它有效

、“ 介绍神经网络的基本概念和结构,讨论训练实践、技巧以及网络规模的大小对模型能力的影响。同时介绍嵌入(Embeddings)概念,将高维数据映射到低维空间。通过本文,您将对神经网络有更深入的理解,有助于后面理解 ChatGPT 是怎么做的,为什么它有效。” 01 — 神经网络 那么我们用于图像识别等任务的典型模型实际上是如何工作的呢?当前最流行且最成功的方法是使用神经网络。神经网络发明于 20 世纪 40 年代,其形式与今天的使用非常接近,可以被认为是大脑工作方式的简单理想化。 人脑中约有 1000 亿个神经元(神经细胞),每个神经元每秒能够产生高达一千次的电脉冲。神经元连接在一个复杂的网...

4.2 chatgpt的三步训练

chatgpt的三步训练 1【无监督学习】Pre-trained 预训练 让ChatGPT对「海量互联网文本」做单字接龙,以扩充模型的词汇量、语言知识、世界的信息与知识。使ChatGPT从“哑巴鹦鹉”变成“脑容量超级大的懂王鹦鹉”。 1.1 GPT1 GPT-1 的学习材料约 5GB。 这里 1 MB 能存 30-50 万汉字,而 1 GB 是 1024 MB。 GPT-1 的参数是 1.17 亿。 参数反映着模型大小,参数越多,模型能建构的规律就越复杂,能记忆的信息和学习的知识也就越多,相当于是大脑中神经突触的数量。高中的直线斜截式方程就 2 个参数,而它有 1 亿多个。 1.2 GPT...