ML-notes:人工神经网络
5 人工神经网络
本章讨论现阶段比较热门的一个监督学习算法————人工神经网络(artificial Neural Network)
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。
5.1 神经元模型 Neuron
神经网络中最基本的成分便是神经元(Neuron)模型,也就是上面说的适应性简单单元。在神经网络中,每个神经元都与其他神经元相连,当它“兴奋”时,都会向相连的神经元发送化学物质,改变相连的神经元内的电位;如果神经元电位超过了一个“阈值”(threshold),那么该神经元就会兴奋,所以整个神经网络就是通过兴奋和电位来传播信息。
5.1.1 M-P神经元模型
1943年一直沿用至今的 “M-P神经元模型” 便是对这个过程的抽象。
在这个模型中,
神经元收到了来自其他 n 个神经元传递过来的输入信号 xi
而这些输入信号通过带有权重的连接(connection),这些权重又叫连接权(connection weight)。
然后来到细胞体的前部分,它负责计算总输入值(输入信号的加权求和,累积电平)
然后到达后部 ...
ML-notes:决策树
4 决策树
4.1 基本概念
4.1.1 举例子
多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。这次我们将讨论另一种被广泛使用的分类算法–决策树(Decision Tree)。
比如 一个相亲——母女对话:
女儿:多大年纪了?
母亲:26。
女儿:长的帅不帅?
母亲:挺帅的。
女儿:收入高不?
母亲:不算很高,中等情况。
女儿:是公务员不?
母亲:是,在税务局上班呢。
女儿:那好,我去见见。
此例子纯属虚构,不代表广大女性同胞的择偶标准。如有雷同纯属巧合。
我们就可以通过这段对话,画出一个决策树。
4.1.2 决策树
决策树(decision tree):是构建出的一个基于属性的树形
分类器。
每个非叶节点表示一个特征属性上的测试(分割)(判断)
每个分支代表这个特征属性在某个值域上的输出(分支)
每个叶节点存放一个类别(结果)
使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
4.2 决策树的构建
决策树的构建采用分治法的思想(递归)。而结束递归的条件如 ...
ML-notes:线性模型
3 线性模型
由于时间原因,这里只讲解部分内容
3.3 对数几率回归
虽然只讲这个,但是我们还是要提一提一些概念。
3.3.1 前情提要
线性模型:其实我们很早就已经与它打过交道,比如我们熟知的“最小二乘法”。这就是线性模型的经典算法之一:根据给定的(x,y)点对,求出一条与这些点拟合效果最好的直线y=ax+b。
线性回归:就是试图学到一个线性模型尽可能准确地预测新样本的输出值。
监督学习:1.绪论的方法分类有提到。
回归与分类:我们可以通过线性回归的思想来解决一些分类任务,比如二分类问题。
直观上说,可以规定直线上方的点为正样本(Positive) ,直线下方的点为负样本(Negative) 。本质上说,我们是需要把连续实数值转化为离散值的(例如: 𝟎, 𝟏):
比如:对于二分类任务,线性模型预测出来的是 连续值 z = wx + b,所以我们需要将 z 转换为 0/1 值,最理想的就是单位阶跃函数:
直观就是我们可以使用一个线性分类器𝒇(𝒙),当𝒙为正类样本,𝒇 (𝒙) > 𝟎,反之, 𝒙 为负类样本,则 𝒇 (� ...
ML-notes:模型评估与选择
2 模型评估与选择
1. 经验误差与过拟合
1.1 经验 Experiences
Experience = The data we have for training the machine learning model.
对于特定机器学习任务,已存在的可利用数据即是解决该机器学习任务的经验。而在这个大数据时代,大数据=丰富经验=训练更好的机器学习模型。
1.2 数据划分
通常我们会对获取到的数据进行数据划分,也就是我们绪论提到的一些学术用语:
训练集 Training Set:用来训练模型或确定参数。
测试集 Testing Set:测试已经训练好的模型的推广能力。
验证集 Validation Set(可选):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。用来做模型选择(Model Selection),即模型的最终优化及选择。
1.3 误差与精度
误差 Error
我们将学习器对样本的实际预测结果与样本的真实值之间的差异称之为误差(error)。而误差包含三类:
训练误差 training error 或 经验误差 e ...
ML-notes:绪论
1 绪论
1. 概念
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。
机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。也就是经典定义:利用经验改善系统自身的性能。(从 经验到数据 的过程)
在计算机系统中,经验通常以数据形式存在,因此,机器学习研究的主要内容,是关于在计算机上从数据中产生模型的算法,即学习算法。
“Learning is any process by which a system improves performance from experience.”
– Herbert Simon
Machine learning aims to study Approaches which improve the Performance of a machine at a specific Task with Experiences.
也就是说 机器学习 = 任务 + 方法 + ...
ML-notes:复习
该页仅为复习资料,内含博客链接均通过搜索得到。
1. 线性回归 Linear Regression
https://www.cnblogs.com/geo-will/p/10468253.html
要求1:可以按照自己的理解简述线性回归问题。
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。
要求2:可以对简单数据进行计算。
最小二乘法与梯度计算
见网页
要求3: 可以编程实现线性回归算法。
见网页
2. 逻辑回归 Logistic Regression
https://www.cnblogs.com/geo-will/p/10468356.html
要求1:可以按照自己的理解简述逻辑回归问题以及与线性回归问题的区别与联系。
逻辑斯蒂回归(Logistic Regression) 虽然名字中有回归,但模型最初是为了解决二分类问题。
线性回归模型帮助我们用最简单的线性方程实现了对数据的拟合,但 ...
ML-notes:目录
ML-notes
本科时期学习过的机器学习基础课程,现在重拾。本笔记主要针对清华大学出版的《机器学习》教材而作的笔记,只包括部分内容笔记,作者是南京大学的周志华教授。内容包含了我的复习笔记及其一些浅显理解,仅供借鉴。
暂时停更 2024-04
目录 | CONTENTS
0 考试相关复习点
1.绪论
2.模型评估与选择
3.线性模型
4.决策树
5.神经网络
6.SVM
7.PCA&LDA
8.聚类
参考
《机器学习》周志华
从agrinJPG到SapientialM
Greetings, dear readers!
Allow me to introduce myself – I am SapientialM, formerly known as AgrinJPG. While my moniker has changed, my passion for technology and sharing knowledge remains unwavering. During my undergraduate years, you might have stumbled upon my contributions on platforms like CSDN, cnblog, and Gitee, where I actively engaged with the vibrant tech community.
However, life has its twists and turns. After embarking on a professional journey in Shenzhen, I found myself grappling w ...