Google深度学习笔记 TensorFlow实现与优化深度神经网络

UKJDeana 10年前
   <p>官方教程 <a href="/misc/goto?guid=4959673730000942347" rel="nofollow,noindex">地址</a><br> <a href="/misc/goto?guid=4959673730091650421" rel="nofollow,noindex">视频</a> / <a href="/misc/goto?guid=4959673730170272119" rel="nofollow,noindex">字幕</a> 下载</p>    <h2>全连接神经网络</h2>    <p>辅助阅读： <a href="/misc/goto?guid=4959673730250953768" rel="nofollow,noindex">TensorFlow中文社区教程</a> - <a href="/misc/goto?guid=4959673730328683241" rel="nofollow,noindex">英文官方教程</a></p>    <p>代码见： <a href="/misc/goto?guid=4959673730406203730" rel="nofollow,noindex">full_connect.py</a></p>    <h2>Linear Model</h2>    <ul>     <li>加载lesson 1中的数据集</li>     <li> <p>将Data降维成一维，将label映射为one-hot encoding</p> <pre>  def reformat(dataset, labels):  dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32)  # Map 0 to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...]  labels = (np.arange(num_labels) == labels[:, None]).astype(np.float32)  return dataset, labels</pre> <h3>TensorFlow Graph</h3> </li>     <li>使用梯度计算train_loss，用tf.Graph()创建一个计算单元</li>     <li>用tf.constant将dataset和label转为tensorflow可用的训练格式（训练中不可修改）</li>     <li>用tf.truncated_normal生成正太分布的数据，作为W的初始值，初始化b为可变的0矩阵</li>     <li>用tf.variable将上面的矩阵转为tensorflow可用的训练格式（训练中可以修改）</li>     <li>用tf.matmul实现矩阵相乘，计算WX+b，这里实际上logit只是一个变量，而非结果</li>     <li>用tf.nn.softmax_cross_entropy_with_logits计算WX+b的结果相较于原来的label的train_loss，并求均值</li>     <li>使用梯度找到最小train_loss<br> python optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)</li>     <li> <p>计算相对valid_dataset和test_dataset对应的label的train_loss</p> </li>    </ul>    <p>上面这些变量都是一种Tensor的概念，它们是一个个的计算单元，我们在Graph中设置了这些计算单元，规定了它们的组合方式，就好像把一个个门电路串起来那样</p>    <h3>TensorFLow Session</h3>    <p>Session用来执行Graph里规定的计算，就好像给一个个门电路通上电，我们在Session里，给计算单元冲上数据，That’s Flow.</p>    <ul>     <li>重复计算单元反复训练800次，提高其准确度</li>     <li>为了快速查看训练效果，每轮训练只给10000个训练数据(subset)，恩，每次都是相同的训练数据</li>     <li>将计算单元graph传给session</li>     <li>初始化参数</li>     <li>传给session优化器 - train_loss的梯度optimizer，训练损失 - train_loss，每次的预测结果，循环执行训练<br> python with tf.Session(graph=graph) as session: tf.initialize_all_variables().run() for step in range(num_steps): _, l, predictions = session.run([optimizer, loss, train_prediction])</li>     <li>在循环过程中，W和b会保留，并不断得到修正</li>     <li>在每100次循环后，会用验证集进行验证一次，验证也同时修正了一部分参数<br> python valid_prediction.eval()</li>     <li>最后用测试集进行测试</li>     <li>注意如果lesson 1中没有对数据进行乱序化，可能训练集预测准确度很高，验证集和测试集准确度会很低</li>    </ul>    <p>这样训练的准确度为83.2%</p>    <h2>SGD</h2>    <ul>     <li>每次只取一小部分数据做训练，计算loss时，也只取一小部分数据计算loss</li>     <li>对应到程序中，即修改计算单元中的训练数据，      <ul>       <li>每次输入的训练数据只有128个，随机取起点，取连续128个数据：<br> python offset = (step * batch_size) % (train_labels.shape[0] - batch_size) batch_data = train_dataset[offset:(offset + batch_size), :] batch_labels = train_labels[offset:(offset + batch_size), :]</li>      </ul> </li>     <li>由于这里的数据是会变化的，因此用tf.placeholder来存放这块空间<br> python tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))</li>     <li>计算3000次，训练总数据量为384000，比之前8000000少</li>    </ul>    <p>准确率提高到86.5%，而且准确率随训练次数增加而提高的速度变快了</p>    <h2>神经网络</h2>    <ul>     <li>上面SGD的模型只有一层WX+b，现在使用一个RELU作为中间的隐藏层，连接两个WX+b</li>     <li>仍然只需要修改Graph计算单元为<br> python Y = W2 * RELU(W1*X + b1) + b2</li>     <li>为了在数学上满足矩阵运算，我们需要这样的矩阵运算：<br> [n * 10] = RELU([n * 784] · [784 * N] + [n * N]) · [N * 10] + [n * 10]</li>     <li>这里N取1024，即1024个隐藏结点</li>     <li>于是四个参数被修改<br> python weights1 = tf.Variable( tf.truncated_normal([image_size * image_size, hidden_node_count])) biases1 = tf.Variable(tf.zeros([hidden_node_count])) weights2 = tf.Variable( tf.truncated_normal([hidden_node_count, num_labels])) biases2 = tf.Variable(tf.zeros([num_labels]))</li>     <li>预测值计算方法改为<br> python ys = tf.matmul(tf_train_dataset, weights1) + biases1 hidden = tf.nn.relu(ys) logits = tf.matmul(hidden, weights2) + biases2</li>     <li>计算3000次，可以发现准确率一开始提高得很快，后面提高速度变缓，最终测试准确率提高到88.8%</li>    </ul>    <h2>深度神经网络实践</h2>    <p>代码见 <a href="/misc/goto?guid=4959673730493674532" rel="nofollow,noindex">nn_overfit.py</a></p>    <h2>优化</h2>    <h3>Regularization</h3>    <p>在前面实现的 <a href="/misc/goto?guid=4959673730577417482" rel="nofollow,noindex">RELU连接的两层神经网络</a> 中，加Regularization进行约束，采用加l2 norm的方法，进行调节：</p>    <p><img src="https://simg.open-open.com/show/e8747d9fc4ce8b666fe126a097bc3d6c.png"></p>    <p>代码实现上，只需要对tf_sgd_relu_nn中train_loss做修改即可：</p>    <ul>     <li>可以用tf.nn.l2_loss(t)对一个Tensor对象求l2 norm</li>     <li> <p>需要对我们使用的各个W都做这样的计算（参考tensorflow官方 <a href="/misc/goto?guid=4959673730650970425" rel="nofollow,noindex">example</a> ）</p> <pre>  l2_loss = tf.nn.l2_loss(weights1) + tf.nn.l2_loss(weights2)</pre> </li>     <li>添加到train_loss上</li>     <li>这里还有一个重要的点，Hyper Parameter: β</li>     <li>我觉得这是一个拍脑袋参数，取什么值都行，但效果会不同，我这里解释一下我取β=0.001的理由</li>     <li>如果直接将l2_loss加到train_loss上，每次的train_loss都特别大，几乎只取决于l2_loss</li>     <li>为了让原本的train_loss与l2_loss都能较好地对参数调整方向起作用，它们应当至少在同一个量级</li>     <li>观察不加l2_loss，step 0 时，train_loss在300左右</li>     <li>加l2_loss后， step 0 时，train_loss在300000左右</li>     <li>因此给l2_loss乘0.0001使之降到同一个量级<br> python loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits, tf_train_labels)) + 0.001 * l2_loss</li>     <li>所有其他参数不变，训练3000次，准确率提高到92.7%</li>     <li> <p>黑魔法之所以为黑魔法就在于，这个参数可以很容易地影响准确率，如果β = 0.002，准确率提高到93.5%</p> </li>    </ul>    <h3>OverFit问题</h3>    <p>在训练数据很少的时候，会出现训练结果准确率高，但测试结果准确率低的情况</p>    <ul>     <li> <p>缩小训练数据范围：将把batch数据的起点offset的可选范围变小（只能选择0-1128之间的数据）：</p> <pre>  offset_range = 1000  offset = (step * batch_size) % offset_range</pre> </li>     <li> <p>可以看到，在step500后，训练集就一直是100%，验证集一直是77.6%，准确度无法随训练次数上升，最后的测试准确度是85.4%</p> </li>    </ul>    <h3>DropOut</h3>    <p>采取Dropout方式强迫神经网络学习更多知识</p>    <p>参考 <a href="/misc/goto?guid=4959673730730931246" rel="nofollow,noindex">aymericdamien/TensorFlow-Examples</a> 中dropout的使用</p>    <ul>     <li>我们需要丢掉RELU出来的部分结果</li>     <li> <p>调用tf.nn.dropout达到我们的目的：</p> <pre>  keep_prob = tf.placeholder(tf.float32)  if drop_out:  hidden_drop = tf.nn.dropout(hidden, keep_prob)  h_fc = hidden_drop</pre> </li>     <li>这里的keep_prob是保留概率，即我们要保留的RELU的结果所占比例，tensorflow建议的 <a href="/misc/goto?guid=4959673730810614874" rel="nofollow,noindex">语法</a> 是，让它作为一个placeholder，在run时传入</li>     <li> <p>当然我们也可以不用placeholder，直接传一个0.5：</p> <pre>  if drop_out:  hidden_drop = tf.nn.dropout(hidden, 0.5)  h_fc = hidden_drop</pre> </li>     <li>这种训练的结果就是，虽然在step 500对训练集预测没能达到100%（起步慢），但训练集预测率达到100%后，验证集的预测正确率仍然在上升</li>     <li>这就是Dropout的好处，每次丢掉随机的数据，让神经网络每次都学习到更多，但也需要知道，这种方式只在我们有的训练数据比较少时很有效</li>     <li> <p>最后预测准确率为88.0%</p> </li>    </ul>    <h3>Learning Rate Decay</h3>    <p>随着训练次数增加，自动调整步长</p>    <ul>     <li>在之前单纯两层神经网络基础上，添加Learning Rate Decay算法</li>     <li>使用tf.train.exponential_decay方法，指数下降调整步长，具体使用方法 <a href="/misc/goto?guid=4959673730895478253" rel="nofollow,noindex">官方文档</a> 说的特别清楚</li>     <li>注意这里面的cur_step传给优化器，优化器在训练中对其做自增计数</li>     <li>与之前单纯两层神经网络对比，准确率直接提高到90.6%</li>    </ul>    <h2>Deep Network</h2>    <p>增加神经网络层数，增加训练次数到20000</p>    <ul>     <li> <p>为了避免修改网络层数需要重写代码，用循环实现中间层</p> <pre>  # middle layer  for i in range(layer_cnt - 2):   y1 = tf.matmul(hidden_drop, weights[i]) + biases[i]   hidden_drop = tf.nn.relu(y1)   if drop_out:       keep_prob += 0.5 * i / (layer_cnt + 1)       hidden_drop = tf.nn.dropout(hidden_drop, keep_prob)</pre> </li>     <li> <p>初始化weight在迭代中使用</p> <pre>  for i in range(layer_cnt - 2):   if hidden_cur_cnt > 2:       hidden_next_cnt = int(hidden_cur_cnt / 2)   else:       hidden_next_cnt = 2   hidden_stddev = np.sqrt(2.0 / hidden_cur_cnt)   weights.append(tf.Variable(tf.truncated_normal([hidden_cur_cnt, hidden_next_cnt], stddev=hidden_stddev)))   biases.append(tf.Variable(tf.zeros([hidden_next_cnt])))   hidden_cur_cnt = hidden_next_cnt</pre> </li>     <li>第一次测试时，用正太分布设置所有W的数值，将标准差设置为1，由于网络增加了一层，寻找step调整方向时具有更大的不确定性，很容易导致loss变得很大</li>     <li> <p>因此需要用stddev调整其标准差到一个较小的范围（怎么调整有许多研究，这里直接找了一个来用）</p> </li>    </ul>    <p>python stddev = np.sqrt(2.0 / n)</p>    <ul>     <li>启用regular时，也要适当调一下β，不要让它对原本的loss造成过大的影响</li>     <li> <p>DropOut时，因为后面的layer得到的信息越重要，需要动态调整丢弃的比例，到后面的layer，丢弃的比例要减小</p> <pre>  keep_prob += 0.5 * i / (layer_cnt + 1)</pre> </li>     <li>训练时，调节参数，你可能遇到 <a href="/misc/goto?guid=4959673730978714251" rel="nofollow,noindex">消失（或爆炸）的梯度问题</a> ，<br> 训练到一定程度后，梯度优化器没有什么作用，loss和准确率总是在一定范围内徘徊</li>     <li>官方教程表示最好的训练结果是，准确率97.5%，</li>     <li> <p>我的 <a href="/misc/goto?guid=4959673730493674532" rel="nofollow,noindex">nn_overfit.py</a> 开启六层神经网络，<br> 启用Regularization、DropOut、Learning Rate Decay，<br> 训练次数20000（应该还有再训练的希望，在这里虽然loss下降很慢了，但仍然在下降），训练结果是，准确率95.2%</p> </li>    </ul>    <p>觉得我的文章对您有帮助的话，给个 <a href="/misc/goto?guid=4959673731073197698" rel="nofollow,noindex">star</a> 可好？</p>    <p> </p>    <p>来自： <a href="/misc/goto?guid=4959673731142347289" rel="nofollow">http://www.cnblogs.com/hellocwh/p/5527141.html</a></p>    <p> </p>
Google深度学习笔记 TensorFlow实现与优化深度神经网络

相关经验

目录