1. 首页
  2. 令爷课程
  3. 数据探索分析

机器学习算法核心教程与Python实践

算法选择快速参考

在深入了解每个算法的细节之前,您可以根据您的任务类型和应用场景,使用下表进行快速参考:

任务类型 算法 典型应用场景
分类 (Classification) 逻辑回归 (Logistic Regression) 二分类问题、广告点击率预测、信用评分
K-近邻 (KNN) 图像识别、推荐系统(基于用户的相似性)
支持向量机 (SVM) 高维数据分类、文本分类、人脸识别
决策树 (Decision Tree) 规则清晰的分类问题、客户流失预测
随机森林 (Random Forest) 高精度分类、特征重要性评估、疾病预测
梯度提升系列 (XGBoost, etc.) 各类表格数据竞赛、搜索排序、欺诈检测
神经网络 (Neural Networks) 图像识别、自然语言处理
回归 (Regression) 决策树 / 随机森林 房价预测、销量预测
梯度提升系列 (XGBoost, etc.) 金融预测(股票、信贷)、需求预测
神经网络 (Neural Networks) 复杂的非线性预测任务
聚类 (Clustering) K-均值 (K-Means) 客户分群、市场细分、图像分割
层次聚类 (Hierarchical Clustering) 用户画像、基因表达分析、社交网络分析
降维 (Dimensionality Reduction) 主成分分析 (PCA) 数据可视化、特征提取以加速模型训练
自编码器 (Autoencoders) 非线性特征学习、数据压缩、异常检测
生成与检测 (Generation & Detection) 生成对抗网络 (GANs) 图像生成、风格迁移、数据增强
自编码器 (Autoencoders) 异常检测(如金融欺诈、工业故障检测)

一、监督学习 (Supervised Learning)

监督学习是最常见的机器学习类型。我们通过一个已经标记好的数据集(即我们知道每个数据点的正确“答案”或“输出”)来训练模型,然后让模型对新的、未标记的数据做出预测。

1. 逻辑回归 (Logistic Regression)

  • 算法简介 :逻辑回归名为“回归”,但实际上是一种用于二分类问题的分类算法。它通过 Sigmoid 函数将线性回归的输出映射到 (0, 1) 区间,表示一个样本属于某个类别的概率。
  • 应用场景

    • 二分类问题,如判断邮件是否为垃圾邮件。
    • 广告点击率 (CTR) 预测。
    • 信用评分。
  • 常见问题与策略

    • 问题 :容易欠拟合,对非线性关系处理能力较弱。
    • 策略 :可以引入多项式特征来增加模型复杂度;使用正则化 (L1, L2) 来防止过拟合。
  • 参数调优技巧

    • C:正则化强度的倒数,C越小,正则化效果越强。
    • penalty:选择正则化类型,'l1' 或 'l2'。
  • 核心 Python 代码
    Python

    from sklearn.linear_model import LogisticRegression
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=20, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    # C=0.1 表示较强的正则化
    model = LogisticRegression(C=0.1, penalty='l2', solver='liblinear')
    model.fit(X_train, y_train)
    
    # 评估模型
    accuracy = model.score(X_test, y_test)
    print(f"逻辑回归准确率: {accuracy:.4f}")
    
    # 进行预测
    prediction = model.predict(X_test)

2. K-近邻算法 (K-Nearest Neighbors, KNN)

  • 算法简介 :KNN 是一种“懒惰学习”算法。对于一个新的数据点,它会在训练集中找到与它最相似(距离最近)的 K 个邻居,然后通过这 K 个邻居的标签进行投票(分类)或取平均值(回归)来得出预测结果。
  • 应用场景

    • 图像识别、手写数字识别。
    • 简单的分类和回归任务。
  • 常见问题与策略

    • 问题 :计算成本高,预测速度慢,对数据维度敏感(维度灾难)。
    • 策略 :使用 KD 树或球树 (Ball Tree) 来优化近邻搜索过程。
  • 参数调优技巧

    • n_neighbors (K值):选择合适的邻居数量,K太小容易受噪声影响,K太大则可能导致分类模糊。
    • metric:选择合适的距离度量方式(如欧氏距离、曼哈顿距离)。
  • 核心 Python 代码
    Python

    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=10, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    # n_neighbors=5 表示寻找最近的5个邻居
    model = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2) # p=2 表示欧氏距离
    model.fit(X_train, y_train)
    
    # 评估模型
    accuracy = model.score(X_test, y_test)
    print(f"KNN 准确率: {accuracy:.4f}")
    
    # 进行预测
    prediction = model.predict(X_test)

3. 支持向量机 (Support Vector Machine, SVM)

  • 算法简介 :SVM 的核心思想是在特征空间中找到一个能将不同类别样本最大程度分开的超平面(决策边界)。它在高维空间中尤其有效。
  • 应用场景

    • 高维数据的文本分类。
    • 图像识别。
    • 生物信息学。
  • 常见问题与策略

    • 问题 :对噪声和异常值敏感。
    • 策略 :调整正则化参数 C;选择合适的核函数。
  • 参数调优技巧

    • C:正则化参数,控制对误分类的惩罚程度。C越大,越倾向于将所有样本正确分类,可能导致过拟合。
    • kernel:选择核函数,如 'linear'(线性)、'rbf'(径向基函数)、'poly'(多项式)。
    • gamma:'rbf' 核函数的参数,定义了单个训练样本的影响范围。
  • 核心 Python 代码
    Python

    from sklearn.svm import SVC
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=10, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    # 使用 RBF 核函数,C=1.0
    model = SVC(kernel='rbf', C=1.0, gamma='auto')
    model.fit(X_train, y_train)
    
    # 评估模型
    accuracy = model.score(X_test, y_test)
    print(f"SVM 准确率: {accuracy:.4f}")
    
    # 进行预测
    prediction = model.predict(X_test)

4. 决策树 (Decision Tree)

  • 算法简介 :决策树通过一系列“是/否”问题来对数据进行划分,最终形成一个树状结构。每个内部节点代表一个特征判断,每个叶节点代表一个类别。
  • 应用场景

    • 分类与回归任务。
    • 信用评分、客户分类。
  • 常见问题与策略

    • 问题 :容易过拟合。
    • 策略 :对树进行剪枝;设置树的最大深度或叶节点的最小样本数。
  • 参数调优技巧

    • max_depth:树的最大深度,限制过拟合。
    • min_samples_split:内部节点再划分所需的最少样本数。
    • min_samples_leaf:一个叶节点上所需的最小样本数。
  • 核心 Python 代码
    Python

    from sklearn.tree import DecisionTreeClassifier
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=20, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    # 设置最大深度为5来防止过拟合
    model = DecisionTreeClassifier(max_depth=5, min_samples_leaf=10)
    model.fit(X_train, y_train)
    
    # 评估模型
    accuracy = model.score(X_test, y_test)
    print(f"决策树准确率: {accuracy:.4f}")
    
    # 进行预测
    prediction = model.predict(X_test)

5. 随机森林 (Random Forest)

  • 算法简介 :随机森林是决策树的集成算法。它构建多棵决策树,并在预测时综合所有树的结果(分类任务投票,回归任务取平均值),从而获得比单一决策树更稳定、更准确的性能。
  • 应用场景

    • 分类、回归、特征选择。
    • 疾病预测、股票价格预测。
  • 常见问题与策略

    • 问题 :训练时间长,模型较大。
    • 策略 :减少树的数量;进行特征选择。
  • 参数调优技巧

    • n_estimators:森林中树的数量。
    • max_depth:每棵树的最大深度。
    • min_samples_leaf:叶节点的最小样本数。
  • 核心 Python 代码
    Python

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=20, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    # 构建一个包含100棵树的森林
    model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
    model.fit(X_train, y_train)
    
    # 评估模型
    accuracy = model.score(X_test, y_test)
    print(f"随机森林准确率: {accuracy:.4f}")
    
    # 进行预测
    prediction = model.predict(X_test)

6. 梯度提升决策树系列 (GBM, XGBoost, LightGBM, CatBoost)

  • 算法简介 :这是一系列强大的集成学习算法,它们迭代地训练新的决策树来修正前面所有树的预测残差。这类算法通常在表格数据竞赛中表现优异。

    • GBM : 基础的梯度提升机。
    • XGBoost : GBM 的高效、可扩展实现,加入了正则化。
    • LightGBM : 速度更快,内存占用更低,尤其适合大规模数据。
    • CatBoost : 对类别特征 (Categorical Features) 有非常好的内置支持。
  • 应用场景

    • Kaggle 竞赛中的各类分类和回归问题。
    • 搜索排序、欺诈检测。
  • 常见问题与策略

    • 问题 :对参数敏感,容易过拟合。
    • 策略 :使用网格搜索 (Grid Search) 或贝叶斯优化来寻找最佳参数组合。
  • 参数调优技巧

    • n_estimators:树的数量。
    • learning_rate (或 eta):学习率,控制每棵树的贡献。
    • max_depth:树的最大深度。
    • subsample, colsample_bytree:行采样和列采样比例,用于控制过拟合。
  • 核心 Python 代码 (XGBoost 示例)
    Python

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import make_classification
    from sklearn.metrics import accuracy_score
    
    # 生成示例数据
    X, y = make_classification(n_samples=100, n_features=20, random_state=42)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 初始化并训练模型
    model = xgb.XGBClassifier(
      n_estimators=100,
      learning_rate=0.1,
      max_depth=3,
      use_label_encoder=False,
      eval_metric='logloss'
    )
    model.fit(X_train, y_train)
    
    # 进行预测
    y_pred = model.predict(X_test)
    
    # 评估模型
    accuracy = accuracy_score(y_test, y_pred)
    print(f"XGBoost 准确率: {accuracy:.4f}")

二、无监督学习 (Unsupervised Learning)

无监督学习处理的是没有标签的数据。算法需要自己从数据中发现隐藏的结构、模式或关系。

1. K-均值聚类 (K-Means Clustering)

  • 算法简介 :K-Means 是一种迭代算法,旨在将数据集划分为 K 个预定义的、不重叠的簇。它通过最小化每个数据点到其所属簇中心(质心)的距离之和来工作。
  • 应用场景

    • 客户分群、市场细分。
    • 图像分割、图像压缩。
  • 常见问题与策略

    • 问题 :需要预先指定簇的数量 (K);对初始质心位置敏感。
    • 策略 :使用“肘部法则”(Elbow Method) 来辅助确定 K 值;多次运行算法 (n_init) 并选择最优结果。
  • 参数调优技巧

    • n_clusters (K值):要形成的簇的数量。
    • init:初始化质心的方法,'k-means++' 通常是更好的选择。
  • 核心 Python 代码
    Python

    from sklearn.cluster import KMeans
    from sklearn.datasets import make_blobs
    import matplotlib.pyplot as plt
    
    # 生成示例数据
    X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
    
    # 初始化并训练模型
    # 假设我们想要找到4个簇
    model = KMeans(n_clusters=4, init='k-means++', n_init=10, random_state=42)
    y_kmeans = model.fit_predict(X)
    
    # 可视化结果
    plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
    centers = model.cluster_centers_
    plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')
    plt.title("K-Means Clustering")
    plt.show()
    
    print("K-Means 聚类完成。")

2. 层次聚类 (Hierarchical Clustering)

  • 算法简介 :层次聚类创建一系列嵌套的簇,其排列形式类似于一棵树(称为树状图或谱系图)。它分为自底向上(凝聚)和自顶向下(分裂)两种方法。
  • 应用场景

    • 基因表达数据分析。
    • 客户分群。
  • 常见问题与策略

    • 问题 :计算复杂度高,不适合大数据集。
    • 策略 :对于大数据,可以先进行降维或采样。
  • 参数调优技巧

    • linkage:簇间距离的计算方式,如 'ward', 'complete', 'average'。'ward' 通常表现较好。
  • 核心 Python 代码
    Python

    from sklearn.cluster import AgglomerativeClustering
    from sklearn.datasets import make_blobs
    import matplotlib.pyplot as plt
    
    # 生成示例数据
    X, _ = make_blobs(n_samples=150, centers=3, cluster_std=0.8, random_state=0)
    
    # 初始化并训练模型
    # 使用 'ward' 链接方法,分为3个簇
    model = AgglomerativeClustering(n_clusters=3, linkage='ward')
    y_pred = model.fit_predict(X)
    
    # 可视化结果
    plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=50, cmap='viridis')
    plt.title("Hierarchical Clustering")
    plt.show()
    
    print("层次聚类完成。")

3. 主成分分析 (Principal Component Analysis, PCA)

  • 算法简介 :PCA 是一种线性降维技术,它将数据转换到一个新的坐标系中。新坐标系的维度是按方差大小(即信息量)从高到低排列的。通过保留方差最大的前几个维度(主成分),可以在保留大部分信息的同时减少数据维度。
  • 应用场景

    • 特征降维,以加速模型训练或解决维度灾难。
    • 数据可视化。
    • 噪声过滤。
  • 常见问题与策略

    • 问题 :可能丢失信息;对数据缩放敏感。
    • 策略 :选择保留的主成分数量以平衡信息保留和降维效果;在 PCA 之前进行数据标准化。
  • 参数调优技巧

    • n_components:要保留的主成分数量。可以是一个整数,也可以是一个 (0,1] 之间的浮点数,表示希望保留的方差比例。
  • 核心 Python 代码
    Python

    from sklearn.decomposition import PCA
    from sklearn.preprocessing import StandardScaler
    from sklearn.datasets import load_iris
    import matplotlib.pyplot as plt
    
    # 加载示例数据
    iris = load_iris()
    X = iris.data
    
    # 1. 数据标准化
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    # 2. 初始化并应用PCA
    # 将数据降到2维以便可视化
    pca = PCA(n_components=2)
    X_pca = pca.fit_transform(X_scaled)
    
    # 查看降维后的数据维度
    print(f"原始数据维度: {X_scaled.shape}")
    print(f"PCA降维后维度: {X_pca.shape}")
    
    # 查看保留的方差比例
    print(f"保留的方差比例: {pca.explained_variance_ratio_.sum():.4f}")
    
    # 可视化
    plt.scatter(X_pca[:, 0], X_pca[:, 1], c=iris.target, cmap='viridis')
    plt.xlabel('第一主成分')
    plt.ylabel('第二主成分')
    plt.title('PCA of Iris Dataset')
    plt.show()

原创文章,作者:曾确令,如若转载,请注明出处:https://www.zengqueling.com/jqxxsfhxjcypsj/

联系我们

15602395067

在线咨询:点击这里给我发消息

邮件:eden7@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code