第633章(1 / 2)

加入书签

,最更新我超级黑技帝国新章节!

对于个神经络的训过程,是要确这11935个数。

练的目可以粗概括为:对于每个训练本,对的输出限接近1,而它输出限接近0。

据MhelNielsen给出的验结果,以上述络结构基础,未经过优的情下,可轻松达95%正确识率。而心代码有74

用了深学习的路和卷网络(netrks)之,最终到了99.67%的正确别率。针对MNIST据集达的历史佳成绩99.79%的别率,由LiWn,MttheZeiler,SixinZhng,YnnLeCn,和RbFergs在2013年做的。

虑到这数据集还有一类似如这样难辨认的字,这结果是当惊人!它已超越了正人眼识别了。

在这过程中步步调权重和置参数值,就须引入度下降法(grdientdeent)。

在训的过程,我们神经网需要有个实际行的学算法,逐步调参数。

而最终目的,让网络实际输与期望出能够量接近。我们需找到一表达式对这种近程度行表征。这个表式被称代价函st)

x表示个训练本,即络的输。其实个x代784输入。

y(x)表示当入为x时候,望的输值;而示当输为x的候,实的输出。y(x)和都别代表10个输值(以学上的量来表)。而们的差平方,表征了际输出和期望出值的近程度。越接近,这个差就越小。

n是练样本数量。设有5个训练本,那n就是5万。因是多次练,所要除以n对所有练样本平均值。

C(,b)的示法,st看是网络所有权和偏置b的函数。为什么样看呢?进行训的时候,输入x固定的(训练样),不变。在为输入变的情下,这式子就以看成和b的数。那,式子边的和b在哪呢?实际上,在里面。y(x)也是固值,但和b的数。

结来说,C(,b)表征网络的际输出和期望出值的近程度。越接近,C(,b)的值越小。此,学的过程是想办降低C(,b)过程,不管C(,b)表达形如何,是和b函数,就变成一个求数最小的最优问题。

由于C(,b)形式比复杂,数也非多,所直接进数学上求解,常困难。

为了用计算算法解这一问,计算科学家提出了度下降法(grdientdeent)。

这个法本质是在多空间中沿着各个度的切线贡献的向,每向下迈微小的步,从最终抵最小值。

由于维空间视觉上法体现,所以人通常会退到三维间进行比。当C(,b)只有两参数的候,它函数图可以在维空间呈现。

就好像个小球山谷的坡上向不停地动,最就有可到达谷。这个解重新广到多空间内基本成

于训练本的数很大(万,几万,甚更多),直接根前面的C(,b)进行计,计算会很大,导致学过程很

↑返回顶部↑

书页/目录