第636章(1 / 2)

加入书签

天才秒记住站地址:[]最更新!广告!

对于这神经网的训练程,就要确定11935个参

的目标以粗略括为:于每一训练样,对应输出无接近于1,而其输出无接近于0。

Mhel Nielsen给出的验结果,以上述络结构基础,未经过优的情下,可轻松达95%正确识率。而心代码有74

用了深学习的路和卷网络(;netrks)后,最达到了99.67%的正识别率。而针对MNIST数据集到的历最佳成是99.79%识别率,是由Li Wn, Mtthe Zeiler, Sixin Zhng, Ynn LeCn,和 Rb Fergs在2013做出的。

考虑这个数集里还一些类如下这难以辨的数字,这个结是相当人的!已经超了真正眼的识了。

这个过中一步调整权和偏置数的值,就必须入梯度降算法(grdient deent)。

在训练过程中,我们的经网络要有一实际可的学习法,来步调整数。

最终的的,是网络的际输出期望输能够尽接近。们需要到一个达式来这种接程度进表征。个表达被称为价函数st )

x表示个训练本,即络的输。其实个x代784输入。

y(x)表示当入为x时候,望的输值;而示当输为x的候,实的输出。y(x)和都别代表10个输值(以学上的量来表)。而们的差平方,表征了际输出和期望出值的近程度。越接近,这个差就越小。

n是练样本数量。设有5个训练本,那n就是5万。因是多次练,所要除以n对所有练样本平均值。

C(,b)的示法,st 成是网中所有重和偏b的函。为什这样看?进行练的时,输入x是固定(训练本),会变。认为输不变的况下,个式子可以看是和b函数。么,式右边的b在哪?实际,在里。y(x)也是定值,是和b函数。

总结来,C(,b)表了网络实际输值和期输出值接近程。越接,C(,b)的就越小。因此,习的过就是想法降低C(,b)的过程,而不管C(,b)的表达式如何,它是和b的函数,这就变了一个函数最值的最化问题。

由于C(,b)的形式较复杂,参数也常多,以直接行数学的求解,非常困

利用计机算法决这一题,计机科学们提出梯度下算法(grdient deent)。

个算法质上是多维空中沿着个维度切线贡的方向,每次向迈出微的一步,从而最抵达最值。

于多维间在视上无法现,所人们通会退到维空间行类比。当C(,b)只两个参的时候,它的函图像可在三维间里呈

像一个球在山的斜坡向下不地滚动,最终就可能到谷底。个理解新推广多维空内也基成立。

而由于练样本数量很(上万,几十万,甚至更),直根据前的C(,b)进计算,算量会大,导学习过很慢。

↑返回顶部↑

书页/目录