原理 – 第 2 页 – 令爷课程-曾确令(ColinZENG)AIGC玩家

机器学习算法之支持向量机SVM

2026年4月27日2024年9月7日作者曾确令

机器学习算法之支持向量机SVM 来源： https://www.biaodianfu.com 什么是支持向量机（SVM）？支持向量机（support vector machines, SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方...

机器学习算法之主成分分析PCA

2024年9月8日2024年9月7日作者曾确令

机器学习算法之主成分分析PCA 来源： https://www.biaodianfu.com 主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。首先考虑一个问题：对于正交属性空间中的样本点，如何用一个超平面（直线的高维推广）对所有样本进行恰当的表达？可以想到，若存在这样的超平面，那么它大概具有这样的性质：最近重构性：样本点到这个超平面的距离都足够近，即下图中所有红线（即投影造成的损失）加...

机器学习算法之决策树分类

2026年4月27日2024年9月7日作者曾确令

机器学习算法之决策树分类来源： https://www.biaodianfu.com 什么是决策树决策树（decision tree）是一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树可以是二叉树或非二叉树，也可以把他看作是 if-else 规则的集合，也可以认为是在特征空间上的条件概率分布。决策树在机器学习模型领域的特殊之处，在于其信息表示的清晰度。决策树通过训练获得的 “知识”，直接形成层次结...

机器学习聚类算法之K-Means

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，其训练的样本中值包含样本的特征，不包含样本的标签信息。在聚类算法中。利用样本的特征，将具有相似属性的样本划分到统一类别中，它有点像全自动分类。 K-Means算法 K-Means算法，也被称为K-平均或K-均值算法，是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。之所...

风险控制：信用评分卡模型

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 什么是信用评分卡模型？评分卡模型又叫做信用评分卡模型，最早由美国信用评分巨头FICO公司于20世纪60年代推出，在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则，评分卡模型的使用具有很明显的优点：判断快速：系统只需要按照评分卡逐项打分，最后通过相应的公式计算出总分，即可准确判断出是否为客户授信以及额度和利率。客观透明：评分卡模型的...

机器学习之类别特征处理

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 类别型特征（categorical feature）主要是指职业，血型等在有限类别内取值的特征。它的原始输入通常是字符串形式，大多数算法模型不接受数值型特征的输入，针对数值型的类别特征会被当成数值型特征，从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式，将每个类别标签与不断增加的整数相关联，即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码，即对不连续的数值或文本进行编码。其中包含以下常用方法： ...

机器学习之特征选择方法

2026年4月27日2024年9月7日作者曾确令

来源： https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。并且常能听到“ 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已 ”，由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。特征选择是一个过程，您可以自动选择数据中您感兴趣的对预测变量...

表情符号（emoji）来表示 token

2026年4月27日2024年7月28日作者曾确令

为什么AI数不清Strawberry里有几个 r？Karpathy：我用表情包给你解释一下让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗？不知道 9.11 和 9.9 哪个大，数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点，大模型都只能接受人们的无情嘲笑。嘲笑之后，大家也冷静了下来，开始思考：低级错误背后的本质是什么？大家普遍认为，是 Token 化（Tokenization）的锅。在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 to...

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征

2026年4月27日2024年5月29日作者曾确令

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征一直以来 AI 都是一个黑盒子（black box），其内部运作机制是不可见的。人们输入数据并得到结果，但无法检查输出结果的逻辑或者系统的代码。而就在刚刚，Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性，具有里程碑意义。研究论文：https://transformer-circuits.pub/2024/scalin...

普通人也能理解的 Transformer

2026年4月27日2024年4月16日作者曾确令

普通人也能理解的 Transformer 闪念基因引言如今爆火的大模型，GPT-3，BERT 等，通过大量的参数和数据，为我们提供了前所未有的自然语言处理能力，使得机器能够更好地理解和生成人类的语言。而注意力机制无疑是重要的基石之一，作为一种新的神经网络结构，使得模型能够更好地捕捉序列中的长距离依赖关系，从而大大提高了模型的性能。本文将从通俗和学术两个角度，详细介绍大模型和注意力机制的基础知识。无论你是对人工智能感兴趣的初学者，还是寻求深入理解的开发者，都能在本文中找到你需要的内容。我们将从 RNN 开始，介绍其原理和局限性，然后介绍 LSTM 如何解决这些问题，接着我们将深入探讨注意力...

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

2026年4月27日2023年9月8日作者曾确令

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！首发: **AINLPer 微信公众号（每日论文干货分享！！** ）编辑: ShuYini 校稿: ShuYi-ni 时间: 2023-09-04 引言为了提高大型语言模型（LLM）上下文学习能力，今天给大家分享的这篇文章提出了思维图（GoT），其性能超过了思维链（CoT）、思维树（ToT）等。思维图（GoT）的关键是能够将 LLM 生成的信息建模为任意图，其中信息单位是顶点，边代表顶点之间的依赖关系。这种方法优点能够将任意LLM的思维组合在一起，提炼出整个思维图内容。实验结果显示：相比目前的思维...

ChatGPT 是怎么做的，为什么它有效

2026年4月27日2023年7月30日作者曾确令

、“ 介绍神经网络的基本概念和结构，讨论训练实践、技巧以及网络规模的大小对模型能力的影响。同时介绍嵌入（Embeddings）概念，将高维数据映射到低维空间。通过本文，您将对神经网络有更深入的理解，有助于后面理解 ChatGPT 是怎么做的，为什么它有效。” 01 — 神经网络那么我们用于图像识别等任务的典型模型实际上是如何工作的呢？当前最流行且最成功的方法是使用神经网络。神经网络发明于 20 世纪 40 年代，其形式与今天的使用非常接近，可以被认为是大脑工作方式的简单理想化。人脑中约有 1000 亿个神经元（神经细胞），每个神经元每秒能够产生高达一千次的电脉冲。神经元连接在一个复杂的网...

4.2 chatgpt的三步训练

2026年4月27日2023年7月9日作者曾确令

chatgpt的三步训练 1【无监督学习】Pre-trained 预训练让ChatGPT对「海量互联网文本」做单字接龙，以扩充模型的词汇量、语言知识、世界的信息与知识。使ChatGPT从“哑巴鹦鹉”变成“脑容量超级大的懂王鹦鹉”。 1.1 GPT1 GPT-1 的学习材料约 5GB。这里 1 MB 能存 30-50 万汉字，而 1 GB 是 1024 MB。 GPT-1 的参数是 1.17 亿。参数反映着模型大小，参数越多，模型能建构的规律就越复杂，能记忆的信息和学习的知识也就越多，相当于是大脑中神经突触的数量。高中的直线斜截式方程就 2 个参数，而它有 1 亿多个。 1.2 GPT...