# 从零开始的 AI 学习 - 1 - 入门机器学习

# 基本概念

# 特征(Feature)

  • 数据中的属性或变量,用于描述样本。
    • 示例:在房价预测中,房屋面积和房间数量是特征。

# 标签(Label)

  • 监督学习中目标变量的真实值,用于训练模型。
    • 示例:房价预测中的真实房价。

# 模型

  • 描述输入与输出之间映射关系的数学函数。
    • 示例:线性回归模型:y=wx+by = w \cdot x + b

# 模型训练与测试

  • 训练集:用于学习模型参数。
  • 测试集:用于评估模型性能。

# 模型评估

  • 通常,使用一些指标来衡量模型的性能,如:
    • 准确率
    • 精确率
    • 召回率
    • F1 分数

# 监督学习(Supervised Learning)

监督学习是指模型在已标注的数据上进行训练,通过学习输入(特征)与输出(标签)之间的映射关系,从而预测未知数据的输出。

  • 输入与输出:
    • 输入:特征数据(如房价预测中的房屋面积、房间数量等)
    • 输出:标签(如对应房价)
  • 目标:
    • 学习一个映射函数 f(x)f(x) 将输入 xx 映射到输出 yy
  • 任务类型:
    • 分类任务:输出为离散类别(如垃圾邮件检测、疾病诊断)。
    • 回归任务:输出为连续值(如房价预测、股票价格预测)。
  • 示例算法:
    • 线性回归
    • 逻辑回归
    • 决策树
    • 支持向量机(SVM)

# 无监督学习(Unsupervised Learning)

无监督学习是指在未标注的数据上训练模型,发现数据的结构或模式,而无需明确的输出标签。

  • 输入:
    • 只有特征数据,没有对应标签。
  • 目标:
    • 找到数据的潜在结构或分布模式。
  • 任务类型:
    • 聚类:将数据划分为多个组(如客户分群)。
    • 降维:减少数据的维度,保留主要信息(如 PCA 降维)。
  • 示例算法:
    • K-means
    • 主成分分析(PCA)
    • 层次聚类

# 半监督学习(Semi-Supervised Learning)

  • 数据中只有一部分是有标签的,其余是无标签的。
  • 通过结合监督和无监督方法,提高模型性能。

# 强化学习(Reinforcement Learning)

  • 通过试错和环境交互,学习策略以获得最大化的奖励。
  • 应用于游戏 AI、自动驾驶等。