19th Ave New York, NY 95822, USA

数学代写|Basic Concepts in Supervised Machine Learning 数值分析代考

数学代写|Basic Concepts in Supervised Machine Learning 数值分析代考

数值分析代写

  • We wish to learn the relations between some input variable and the output variable
  • Denote by $X \in \mathbb{R}^{p}$ inputs, independent variables, features
  • Denote by $Y \in \mathbb{R}$ outputs, responses, dependent variables
  • Let us say we observe some values of $X$ and $Y$ : we denote the observed values by $x_{i}, y_{i}, i=1, \ldots, N$.
    We will write $\mathbf{X}=\left(x_{1}, \ldots, x_{N}\right) \in \mathbb{R}^{N \times p}$ and $\mathbf{y}=\left(y_{1}, \ldots, y_{N}\right) \in \mathbb{R}^{N}$
  • We call the set of pairs $\left(x_{i}, y_{i}\right), i=1, \ldots, N$ training data
  • The goal is to use the training data to construct a prediction rule.
  • Now, we find the parameters $\beta$ that minimizes the loss.
  • Since the loss is a quadratic function of $\beta$,
    $$
    \nabla \mathcal{L}(\beta ; f, \mathbf{X}, \mathbf{y})=\mathbf{X}^{T}(\mathbf{y}-\mathbf{X} \beta)
    $$
    we arrive at the normal equations if we set the gradient zero
    $$
    \mathbf{X}^{T} \mathbf{X} \beta=\mathbf{X}^{T} \mathbf{y}
    $$
  • If $\mathbf{X}^{T} \mathbf{X}$ is non-singular (e.g. columns of $\mathbf{X}$ are linearly independent) the that minimizes the loss function is given by
    $$
    \hat{\beta}=\left(\mathbf{X}^{T} \mathbf{X}\right)^{-1} \mathbf{X}^{T} \mathbf{y}
    $$
  • In practice, one would take the QR-decomposition of $\mathbf{X}=\mathbf{Q} \mathbf{R}$ then the solution would be
    $$
    \hat{\beta}=\mathbf{R}^{-1} \mathbf{Q}^{T} \mathbf{y}
    $$
  • The choice of class of functions $f$ depending on some parameter $\theta$ is crucial
  • For example, we can extend the linear model $f(x ; \theta)=x^{T} \theta$ with $\theta=\beta$ by adding suitable set of functions or transformations $h_{k}(x)$
    $$
    f_{\theta}(x)=\sum_{k=1}^{K} h_{k}(x) \theta_{k}
    $$
  • $h_{k}(x)$ are for example polynomials like $x_{1}^{2}, x_{1} x_{2}$ or other elemntary functions $\sin \left(x_{2}\right)$, etc.
  • If a $h_{k}$ is non-linear, then $f_{\theta}$ is also non-linear in the input variable $x$, whereas it is linear in the parameters $\theta$.

数值分析代考

  • 我们希望学习一些输入变量和输出变量之间的关系
  • 用 $X \in \mathbb{R}^{p}$ 表示输入、自变量、特征
  • 用 $Y \in \mathbb{R}$ 表示输出、响应、因变量
  • 假设我们观察到 $X$ 和 $Y$ 的一些值:我们用 $x_{i}, y_{i}, i=1, \ldots, N$ 表示观察到的值。
    我们将写 $\mathbf{X}=\left(x_{1}, \ldots, x_{N}\right) \in \mathbb{R}^{N \times p}$ 和 $\mathbf{y} =\left(y_{1}, \ldots, y_{N}\right) \in \mathbb{R}^{N}$
  • 我们称这组对 $\left(x_{i}, y_{i}\right), i=1, \ldots, N$ 训练数据
  • 目标是使用训练数据构建预测规则。
  • 现在,我们找到最小化损失的参数$\beta$。
  • 由于损失是$\beta$的二次函数,
    $$
    \nabla \mathcal{L}(\beta ; f, \mathbf{X}, \mathbf{y})=\mathbf{X}^{T}(\mathbf{y}-\mathbf{X} \beta)
    $$
    如果我们将梯度设置为零,我们就会得到正规方程
    $$
    \mathbf{X}^{T} \mathbf{X} \beta=\mathbf{X}^{T} \mathbf{y}
    $$
  • 如果 $\mathbf{X}^{T} \mathbf{X}$ 是非奇异的(例如 $\mathbf{X}$ 的列是线性独立的),则最小化损失函数由下式给出
    $$
    \hat{\beta}=\left(\mathbf{X}^{T} \mathbf{X}\right)^{-1} \mathbf{X}^{T} \mathbf{y}
    $$
  • 在实践中,我们会采用 $\mathbf{X}=\mathbf{Q} \mathbf{R}$ 的 QR 分解,那么解决方案将是
    $$
    \hat{\beta}=\mathbf{R}^{-1} \mathbf{Q}^{T} \mathbf{y}
    $$
  • 根据某些参数 $\theta$ 选择函数类 $f$ 至关重要
  • 例如,我们可以通过添加合适的函数集或变换 $h_{k}(x )$
    $$
    f_{\theta}(x)=\sum_{k=1}^{K} h_{k}(x) \theta_{k}
    $$
  • $h_{k}(x)$ 是例如多项式,如 $x_{1}^{2}、x_{1} x_{2}$ 或其他基本函数 $\sin \left(x_{2}\right )$ 等。
  • 如果$h_{k}$ 是非线性的,那么$f_{\theta}$ 在输入变量$x$ 中也是非线性的,而在参数$\theta$ 中是线性的
数学代写| Integral of interpolant $int_{a}^{b} p_{n} mathrm{~d} x$ approximates $int_{a}^{b} f mathrm{~d} x$ 数值分析代考

数学代写| Chebyshev polynomials 数值分析代考 请认准UprivateTA™. UprivateTA™为您的留学生涯保驾护航。

时间序列分析代写

数论代考

统计作业代写

统计exam代考

离散数学代写

复分析代写

抽象代数代写

随机过程代写

随机过程,是依赖于参数的一组随机变量的全体,参数通常是时间。 随机变量是随机现象的数量表现,其取值随着偶然因素的影响而改变。 例如,某商店在从时间t0到时间tK这段时间内接待顾客的人数,就是依赖于时间t的一组随机变量,即随机过程

Matlab代写

Related Posts

Leave a comment