Scroll Top
19th Ave New York, NY 95822, USA

计算机代写|机器学习代写Machine Learning代考|CITS5508 Bohning’s quadratic bound to the log-sum-exp function

如果你也在 怎样代写机器学习Machine Learning CITS5508这个学科遇到相关的难题,请随时右上角联系我们的24/7代写客服。机器学习Machine Learning是一个致力于理解和建立 “学习 “方法的研究领域,也就是说,利用数据来提高某些任务的性能的方法。机器学习算法基于样本数据(称为训练数据)建立模型,以便在没有明确编程的情况下做出预测或决定。机器学习算法被广泛用于各种应用,如医学、电子邮件过滤、语音识别和计算机视觉,在这些应用中,开发传统算法来执行所需任务是困难的或不可行的。

机器学习Machine Learning程序可以在没有明确编程的情况下执行任务。它涉及到计算机从提供的数据中学习,从而执行某些任务。对于分配给计算机的简单任务,有可能通过编程算法告诉机器如何执行解决手头问题所需的所有步骤;就计算机而言,不需要学习。对于更高级的任务,由人类手动创建所需的算法可能是一个挑战。在实践中,帮助机器开发自己的算法,而不是让人类程序员指定每一个需要的步骤,可能会变得更加有效 。

机器学习Machine Learning代写,免费提交作业要求, 满意后付款,成绩80\%以下全额退款,安全省心无顾虑。专业硕 博写手团队,所有订单可靠准时,保证 100% 原创。 最高质量的机器学习Machine Learning作业代写,服务覆盖北美、欧洲、澳洲等 国家。 在代写价格方面,考虑到同学们的经济条件,在保障代写质量的前提下,我们为客户提供最合理的价格。 由于作业种类很多,同时其中的大部分作业在字数上都没有具体要求,因此机器学习Machine Learning作业代写的价格不固定。通常在专家查看完作业要求之后会给出报价。作业难度和截止日期对价格也有很大的影响。

同学们在留学期间,都对各式各样的作业考试很是头疼,如果你无从下手,不如考虑my-assignmentexpert™!

my-assignmentexpert™提供最专业的一站式服务:Essay代写,Dissertation代写,Assignment代写,Paper代写,Proposal代写,Proposal代写,Literature Review代写,Online Course,Exam代考等等。my-assignmentexpert™专注为留学生提供Essay代写服务,拥有各个专业的博硕教师团队帮您代写,免费修改及辅导,保证成果完成的效率和质量。同时有多家检测平台帐号,包括Turnitin高级账户,检测论文不会留痕,写好后检测修改,放心可靠,经得起任何考验!

想知道您作业确定的价格吗? 免费下单以相关学科的专家能了解具体的要求之后在1-3个小时就提出价格。专家的 报价比上列的价格能便宜好几倍。

我们在计算机Quantum computer代写方面已经树立了自己的口碑, 保证靠谱, 高质且原创的计算机Quantum computer代写服务。我们的专家在机器学习Machine Learning代写方面经验极为丰富,各种机器学习Machine Learning相关的作业也就用不着 说。

计算机代写|机器学习代写Machine Learning代考|CITS5508 Bohning’s quadratic bound to the log-sum-exp function

计算机代写|机器学习代写Machine Learning代考|Bohning’s quadratic bound to the log-sum-exp function

The above likelihood is not conjugate to the Gaussian prior. However, we will now can convert it to a quadratic form. Consider a Taylor series expansion of the log-sum-exp function around $\boldsymbol{\psi}_i \in \mathbb{R}^M$ :
$$
\begin{aligned}
\operatorname{lse}\left(\boldsymbol{\eta}_i\right) & =\operatorname{lse}\left(\boldsymbol{\psi}_i\right)+\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right)^{\top} \boldsymbol{g}\left(\boldsymbol{\psi}_i\right)+\frac{1}{2}\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right)^{\boldsymbol{\top}} \mathbf{H}\left(\boldsymbol{\psi}_i\right)\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right) \
\boldsymbol{g}\left(\boldsymbol{\psi}_i\right) & =\exp \left[\boldsymbol{\psi}_i-\operatorname{lse}\left(\boldsymbol{\psi}_i\right)\right]=\mathcal{S}\left(\boldsymbol{\psi}_i\right) \
\mathbf{H}\left(\boldsymbol{\psi}_i\right) & =\operatorname{diag}\left(\boldsymbol{g}\left(\boldsymbol{\psi}_i\right)\right)-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right) \boldsymbol{g}\left(\boldsymbol{\psi}_i\right)^{\top}
\end{aligned}
$$
where $\boldsymbol{g}$ and $\mathbf{H}$ are the gradient and Hessian of lse, and $\boldsymbol{\psi}_i \in \mathbb{R}^M$, where $M=C-1$ is the number of classes minus 1. An upper bound to lse can be found by replacing the Hessian matrix $\mathbf{H}\left(\boldsymbol{\psi}_i\right)$ with a matrix $\mathbf{A}_i$ such that $\mathbf{A}_i \succeq \mathbf{H}\left(\boldsymbol{\psi}_i\right)$ for all $\psi_i$. [Boh92] showed that this can be achieved if we use the matrix $\mathbf{A}_i=\frac{1}{2}\left[\mathbf{I}_M-\frac{1}{M+1} \mathbf{1}_M \mathbf{1}_M^{\mathrm{T}}\right]$. In the binary case, this becomes $A_i=\frac{1}{2}\left(1-\frac{1}{2}\right)=\frac{1}{4}$.

Note that $\mathbf{A}_i$ is independent of $\boldsymbol{\psi}_i$; however, we still write it as $\mathbf{A}_i$ (rather than dropping the $i$ subscript), since other bounds that we consider below will have a data-dependent curvature term. The upper bound on lse therefore becomes
$$
\begin{aligned}
\operatorname{lse}\left(\boldsymbol{\eta}_i\right) & \leq \frac{1}{2} \boldsymbol{\eta}_i^{\top} \mathbf{A}_i \boldsymbol{\eta}_i-\boldsymbol{b}_i^{\top} \boldsymbol{\eta}_i+c_i \
\mathbf{A}_i & =\frac{1}{2}\left[\mathbf{I}_M-\frac{1}{M+1} \mathbf{1}_M \mathbf{1}_M^{\top}\right] \
\boldsymbol{b}_i & =\mathbf{A}_i \boldsymbol{\psi}_i-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right) \
c_i & =\frac{1}{2} \boldsymbol{\psi}_i^{\top} \mathbf{A}_i \boldsymbol{\psi}_i-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right)^{\top} \boldsymbol{\psi}_i+\operatorname{lse}\left(\boldsymbol{\psi}_i\right)
\end{aligned}
$$
where $\boldsymbol{\psi}_i \in \mathbb{R}^M$ is a vector of variational parameters.

计算机代写|机器学习代写Machine Learning代考|Bohning’s bound in the binary case

If we have binary data, then $y_i \in{0,1}, M=1$ and $\eta_i=\boldsymbol{w}^{\top} \boldsymbol{x}_i$ where $\boldsymbol{w} \in \mathbb{R}^D$ is a weight vector (not matrix). In this case, the Bohning bound becomes
$$
\begin{aligned}
\log \left(1+e^\eta\right) & \leq \frac{1}{2} a \eta^2-b \eta+c \
a & =\frac{1}{4} \
b & =a \psi-\left(1+e^{-\psi}\right)^{-1} \
c & =\frac{1}{2} a \psi^2-\left(1+e^{-\psi}\right)^{-1} \psi+\log \left(1+e^\psi\right)
\end{aligned}
$$
It is possible to derive an alternative quadratic bound for this case. as shown in Section 6.5.4.2. This has the following form
$$
\begin{aligned}
\log \left(1+e^\eta\right) & \leq \lambda(\boldsymbol{\psi})\left(\eta^2-\boldsymbol{\psi}^2\right)+\frac{1}{2}(\eta-\boldsymbol{\psi})+\log \left(1+e^{\boldsymbol{\psi}}\right) \
\lambda(\boldsymbol{\psi}) & \triangleq \frac{1}{4 \boldsymbol{\psi}} \tanh (\boldsymbol{\psi} / 2)=\frac{1}{2 \boldsymbol{\psi}}\left[\boldsymbol{\sigma}(\boldsymbol{\psi})-\frac{1}{2}\right]
\end{aligned}
$$
To facilitate comparison with Bohning’s bound, let us rewrite the JJ bound as a quadratic form as follows
$$
\begin{aligned}
\log \left(1+e^\eta\right) & \leq \frac{1}{2} a(\boldsymbol{\psi}) \eta^2-b(\boldsymbol{\psi}) \eta+c(\boldsymbol{\psi}) \
a(\boldsymbol{\psi}) & =2 \lambda(\boldsymbol{\psi}) \
b(\boldsymbol{\psi}) & =-\frac{1}{2} \
c(\boldsymbol{\psi}) & =-\lambda(\boldsymbol{\psi}) \boldsymbol{\psi}^2-\frac{1}{2} \boldsymbol{\psi}+\log \left(1+e^\psi\right)
\end{aligned}
$$
The JJ bound has an adaptive curvature term, since $a$ depends on $\boldsymbol{\psi}$. In addition, it is tight at two points, as is evident from Figure 15.1(a). By contrast, the Bohning bound is a constant curvature bound, and is only tight at one point, as is evident from Figure 15.1(b). Nevertheless, the Bohning bound is simpler, and somewhat faster to compute, since $\mathbf{V}_N$ is a constant, independent of the variational parameters $\boldsymbol{\Psi}$.

计算机代写|机器学习代写Machine Learning代考|CITS5508 Bohning’s quadratic bound to the log-sum-exp function

机器学习代写

计算机代写|机器学习代写MACHINE LEARNING代考|BOHNING’S QUADRATIC BOUND TO THE LOG-SUMEXP FUNCTION


上述可能性与高斯先验不共轭。但是,我们现在可以将其转换为二次形式。考虑 log-sum-exp 函数的泰勒级数展开 $\boldsymbol{\psi}_i \in \mathbb{R}^M$ :
$$
\operatorname{lse}\left(\boldsymbol{\eta}_i\right)=\operatorname{lse}\left(\boldsymbol{\psi}_i\right)+\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right)^{\top} \boldsymbol{g}\left(\boldsymbol{\psi}_i\right)+\frac{1}{2}\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right)^{\top} \mathbf{H}\left(\boldsymbol{\psi}_i\right)\left(\boldsymbol{\eta}_i-\boldsymbol{\psi}_i\right) \boldsymbol{g}\left(\boldsymbol{\psi}_i\right) \quad=\exp \left[\boldsymbol{\psi}_i-\operatorname{lse}\left(\boldsymbol{\psi}_i\right)\right]=\mathcal{S}\left(\boldsymbol{\psi}_i\right) \mathbf{H}\left(\boldsymbol{\psi}_i\right)=\operatorname{diag}\left(\boldsymbol{g}\left(\boldsymbol{\psi}_i\right)\right)-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right) \boldsymbol{g}\left(\boldsymbol{\psi}_i\right)^{\top}
$$
在哪里 $\boldsymbol{g}$ 和 $\mathbf{H}$ 是 Ise 的梯度和 Hessian,以及 $\boldsymbol{\psi}_i \in \mathbb{R}^M$ ,在哪里 $M=C-1$ 是类数减 1。可以通过替换 Hessian 矩阵找到 Ise 的上限 $\mathbf{H}\left(\boldsymbol{\psi}_i\right)$ 用矩阵 $\mathbf{A}_i$ 这样 $\mathbf{A}_i \succeq \mathbf{H}\left(\boldsymbol{\psi}_i\right)$ 对所有人 $\psi_i$.
Boh 92
表明如果我们使用矩阵,这是可以实现的 $\mathbf{A}_i=\frac{1}{2}\left[\mathbf{I}_M-\frac{1}{M+1} \mathbf{1}_M \mathbf{1}_M^{\mathrm{T}}\right]$. 在二进制情况下,这变成 $A_i=\frac{1}{2}\left(1-\frac{1}{2}\right)=\frac{1}{4}$.
注意 $\mathbf{A}_i$ 独立于 $\boldsymbol{\psi}_i$; 然而,我们仍然把它写成 $\mathbf{A}_i$ ratherthandroppingthe\$i\$subscript,因为我们在下面考虑的其他边界将具有与数据相关的曲率项。因此 Ise 的 上限变为
$$
\operatorname{lse}\left(\boldsymbol{\eta}_i\right) \leq \frac{1}{2} \boldsymbol{\eta}_i^{\top} \mathbf{A}_i \boldsymbol{\eta}_i-\boldsymbol{b}_i^{\top} \boldsymbol{\eta}_i+c_i \mathbf{A}_i \quad=\frac{1}{2}\left[\mathbf{I}_M-\frac{1}{M+1} \mathbf{1}_M \mathbf{1}_M^{\top}\right] \boldsymbol{b}_i=\mathbf{A}_i \boldsymbol{\psi}_i-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right) c_i \quad=\frac{1}{2} \boldsymbol{\psi}_i^{\top} \mathbf{A}_i \boldsymbol{\psi}_i-\boldsymbol{g}\left(\boldsymbol{\psi}_i\right)^{\top} \boldsymbol{\psi}_i+\operatorname{lse}\left(\boldsymbol{\psi}_i\right)
$$
在哪里 $\psi_i \in \mathbb{R}^M$ 是变分参数的向量。


计算机代写|机器学习代写MACHINE LEARNING代考|BOHNING’S BOUND IN THE BINARY CASE


如果我们有二进制数据,那么 $y_i \in 0,1, M=1$ 和 $\eta_i=\boldsymbol{w}^{\top} \boldsymbol{x}_i$ 在哪里 $\boldsymbol{w} \in \mathbb{R}^D$ 是权重向量notmatrix. 在这种情况下,博宁界变为
$$
\log \left(1+e^\eta\right) \leq \frac{1}{2} a \eta^2-b \eta+c a \quad=\frac{1}{4} b=a \psi-\left(1+e^{-\psi}\right)^{-1} c \quad=\frac{1}{2} a \psi^2-\left(1+e^{-\psi}\right)^{-1} \psi+\log \left(1+e^\psi\right)
$$
对于这种情况,可以导出替代的二次界。如第 6.5.4.2节所示。这有以下形式
$$
\log \left(1+e^\eta\right) \leq \lambda(\boldsymbol{\psi})\left(\eta^2-\boldsymbol{\psi}^2\right)+\frac{1}{2}(\eta-\boldsymbol{\psi})+\log \left(1+e^\psi\right) \lambda(\psi) \quad \triangleq \frac{1}{4 \boldsymbol{\psi}} \tanh (\boldsymbol{\psi} / 2)=\frac{1}{2 \boldsymbol{\psi}}\left[\boldsymbol{\sigma}(\boldsymbol{\psi})-\frac{1}{2}\right]
$$
为了便于与 Bohning 界进行比较,让我们将 J」界重写为二次形式如下
$$
\log \left(1+e^\eta\right) \leq \frac{1}{2} a(\boldsymbol{\psi}) \eta^2-b(\boldsymbol{\psi}) \eta+c(\boldsymbol{\psi}) a(\boldsymbol{\psi}) \quad=2 \lambda(\boldsymbol{\psi}) b(\boldsymbol{\psi})=-\frac{1}{2} c(\boldsymbol{\psi}) \quad=-\lambda(\boldsymbol{\psi}) \boldsymbol{\psi}^2-\frac{1}{2} \boldsymbol{\psi}+\log \left(1+e^\psi\right)
$$
$J J$ 界有一个自适应曲率项,因为 $a$ 取决于 $\boldsymbol{\psi}$. 此外,它在两个点上很紧,如图 $15.1$ 所示 $a$. 相比之下,博宁界是一个常曲率界,并且仅在一点紧,如图 15.1 所示 $b$. 然 而,博宁界更简单,计算起来也更快,因为 $\mathbf{V}_N$ 是一个常数,与变分参数无关 $\Psi$.

计算机代写|机器学习代写Machine Learning代考

计算机代写|机器学习代写Machine Learning代考 请认准UprivateTA™. UprivateTA™为您的留学生涯保驾护航。

微观经济学代写

微观经济学是主流经济学的一个分支,研究个人和企业在做出有关稀缺资源分配的决策时的行为以及这些个人和企业之间的相互作用。my-assignmentexpert™ 为您的留学生涯保驾护航 在数学Mathematics作业代写方面已经树立了自己的口碑, 保证靠谱, 高质且原创的数学Mathematics代写服务。我们的专家在图论代写Graph Theory代写方面经验极为丰富,各种图论代写Graph Theory相关的作业也就用不着 说。

线性代数代写

线性代数是数学的一个分支,涉及线性方程,如:线性图,如:以及它们在向量空间和通过矩阵的表示。线性代数是几乎所有数学领域的核心。

博弈论代写

现代博弈论始于约翰-冯-诺伊曼(John von Neumann)提出的两人零和博弈中的混合策略均衡的观点及其证明。冯-诺依曼的原始证明使用了关于连续映射到紧凑凸集的布劳威尔定点定理,这成为博弈论和数学经济学的标准方法。在他的论文之后,1944年,他与奥斯卡-莫根斯特恩(Oskar Morgenstern)共同撰写了《游戏和经济行为理论》一书,该书考虑了几个参与者的合作游戏。这本书的第二版提供了预期效用的公理理论,使数理统计学家和经济学家能够处理不确定性下的决策。

微积分代写

微积分,最初被称为无穷小微积分或 “无穷小的微积分”,是对连续变化的数学研究,就像几何学是对形状的研究,而代数是对算术运算的概括研究一样。

它有两个主要分支,微分和积分;微分涉及瞬时变化率和曲线的斜率,而积分涉及数量的累积,以及曲线下或曲线之间的面积。这两个分支通过微积分的基本定理相互联系,它们利用了无限序列和无限级数收敛到一个明确定义的极限的基本概念 。

计量经济学代写

什么是计量经济学?
计量经济学是统计学和数学模型的定量应用,使用数据来发展理论或测试经济学中的现有假设,并根据历史数据预测未来趋势。它对现实世界的数据进行统计试验,然后将结果与被测试的理论进行比较和对比。

根据你是对测试现有理论感兴趣,还是对利用现有数据在这些观察的基础上提出新的假设感兴趣,计量经济学可以细分为两大类:理论和应用。那些经常从事这种实践的人通常被称为计量经济学家。

Matlab代写

MATLAB 是一种用于技术计算的高性能语言。它将计算、可视化和编程集成在一个易于使用的环境中,其中问题和解决方案以熟悉的数学符号表示。典型用途包括:数学和计算算法开发建模、仿真和原型制作数据分析、探索和可视化科学和工程图形应用程序开发,包括图形用户界面构建MATLAB 是一个交互式系统,其基本数据元素是一个不需要维度的数组。这使您可以解决许多技术计算问题,尤其是那些具有矩阵和向量公式的问题,而只需用 C 或 Fortran 等标量非交互式语言编写程序所需的时间的一小部分。MATLAB 名称代表矩阵实验室。MATLAB 最初的编写目的是提供对由 LINPACK 和 EISPACK 项目开发的矩阵软件的轻松访问,这两个项目共同代表了矩阵计算软件的最新技术。MATLAB 经过多年的发展,得到了许多用户的投入。在大学环境中,它是数学、工程和科学入门和高级课程的标准教学工具。在工业领域,MATLAB 是高效研究、开发和分析的首选工具。MATLAB 具有一系列称为工具箱的特定于应用程序的解决方案。对于大多数 MATLAB 用户来说非常重要,工具箱允许您学习应用专业技术。工具箱是 MATLAB 函数(M 文件)的综合集合,可扩展 MATLAB 环境以解决特定类别的问题。可用工具箱的领域包括信号处理、控制系统、神经网络、模糊逻辑、小波、仿真等。

Related Posts

Leave a comment