[源码分析]Text-Detection-with-FRCN

原创
2017年11月21日 17:58:39

        <ul class="article_tags clearfix csdn-tracking-statistics tracking-click" data-mod="popu_377" style="display: none;">

            <li class="tit">标签：</li>

            <!--          [endarticletags]-->

        </ul>

        <ul class="right_bar">

            <li><button class="btn-noborder"><i class="icon iconfont icon-read"></i><span class="txt">659</span></button></li>

            <li class="edit" style="display: none;">

                <a class="btn-noborder" href="https://mp.csdn.net/postedit/78580970">

                    <i class="icon iconfont icon-bianji"></i><span class="txt">编辑</span>

                </a>

            </li>

            <li class="del" style="display: none;">

                <a class="btn-noborder" onclick="javascript:deleteArticle(fileName);return false;">

                    <i class="icon iconfont icon-shanchu"></i><span class="txt">删除</span>

                </a>

            </li>

        </ul>

    </div>

    <div id="article_content" class="article_content csdn-tracking-statistics tracking-click" data-mod="popu_519" data-dsm="post" style="overflow: hidden;">

                        <div class="htmledit_views">

                    <p><span style="white-space:pre;"></span><span style="white-space:pre;"></span><span style="white-space:pre;"></span><span style="white-space:pre;"></span><span style="font-size:12px;"><a href="https://github.com/jugg1024/Text-Detection-with-FRCN" target="_blank">Text-Detection-with-FRCN</a>项目是基于<a href="https://github.com/rbgirshick/py-faster-rcnn" target="_blank">py-faster-rcnn</a>项目在场景文字识别领域的扩展。对Text-Detection-with-FRCN的理解过程，本质上是对py-faster-rcnn的理解过程。我个人认为，初学者，尤其是对caffe还不熟悉的时候，在理解整个项目的过程中，会有以下困惑：</span></p><p><span style="font-size:12px;">1.程序入口</span></p><p><span style="font-size:12px;">2.数据是如何准备的？</span></p><p><span style="font-size:12px;">3.整个网络是如何构建的？</span></p><p><span style="font-size:12px;">4.整个网络是如何训练的？</span></p><p><span style="font-size:12px;"><span style="white-space:pre;"></span>那么，接下来，以我的理解，结合论文和源代码，一步步进行浅析。</span></p><p><br></p><p><span style="font-size:24px;">一.程序入口</span></p><p><span style="font-size:12px;">训练阶段：</span></p><p><span style="font-size:18px;">入口一</span>：<span style="font-size:12px;">/py-faster-rcnn/experiments/scripts/faster_rcnn_end2end.sh</span></p><p><span style="font-size:12px;">－－ &gt;</span></p><p><br></p><p><span style="font-size:18px;">入口二</span>： <span style="font-size:12px;">/py-faster-rcnn/tools/train_net.py</span></p><p><span style="font-size:12px;">在train_net中：</span></p><p><span style="font-size:12px;">1.定义数据格式，获得imdb,roidb；</span></p><p><span style="font-size:12px;">2.开始训练网络。</span></p><p></p><div class="dp-highlighter bg_python"><div class="bar"><div class="tools"><b>[python]</b> <a href="#" class="ViewSource" title="view plain" onclick="dp.sh.Toolbar.Command('ViewSource',this);return false;" target="_self">view plain</a><span class="tracking-ad" data-mod="popu_168"> <a href="#" class="CopyToClipboard" title="copy" onclick="dp.sh.Toolbar.Command('CopyToClipboard',this);return false;" target="_self">copy</a><div style="position: absolute; left: 245px; top: 923px; width: 16px; height: 16px; z-index: 99;"><embed id="ZeroClipboardMovie_1" src="https://csdnimg.cn/public/highlighter/ZeroClipboard.swf" loop="false" menu="false" quality="best" bgcolor="#ffffff" width="16" height="16" name="ZeroClipboardMovie_1" align="middle" allowscriptaccess="always" allowfullscreen="false" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="id=1&amp;width=16&amp;height=16" wmode="transparent"></div></span><span class="tracking-ad" data-mod="popu_169"> <a href="#" class="PrintSource" title="print" onclick="dp.sh.Toolbar.Command('PrintSource',this);return false;" target="_self">print</a></span><a href="#" class="About" title="?" onclick="dp.sh.Toolbar.Command('About',this);return false;" target="_self">?</a></div></div><ol start="1" class="dp-py"><li class="alt"><span><span>train_net(args.solver,&nbsp;roidb,&nbsp;output_dir,&nbsp;pretrained_model,&nbsp;max_iters)&nbsp;&nbsp;</span></span></li></ol></div><pre class="python" name="code" style="display: none;">train_net(args.solver, roidb, output_dir, pretrained_model, max_iters)</pre><p></p><p><span style="font-size:12px;">train_net定义在/py-faster-rcnn/lib/fast_rcnn/train.py中</span></p><p><span style="font-size:12px;">－－&gt;</span></p><p><br></p><p><span style="font-size:18px;">入口三</span>：<span style="font-size:12px;">/py-faster-rcnn/lib/fast_rcnn/train.py</span></p><p><span style="font-size:12px;">在train_net函数中：</span></p><p></p><div class="dp-highlighter bg_python"><div class="bar"><div class="tools"><b>[python]</b> <a href="#" class="ViewSource" title="view plain" onclick="dp.sh.Toolbar.Command('ViewSource',this);return false;" target="_self">view plain</a><span class="tracking-ad" data-mod="popu_168"> <a href="#" class="CopyToClipboard" title="copy" onclick="dp.sh.Toolbar.Command('CopyToClipboard',this);return false;" target="_self">copy</a><div style="position: absolute; left: 245px; top: 1207px; width: 16px; height: 16px; z-index: 99;"><embed id="ZeroClipboardMovie_2" src="https://csdnimg.cn/public/highlighter/ZeroClipboard.swf" loop="false" menu="false" quality="best" bgcolor="#ffffff" width="16" height="16" name="ZeroClipboardMovie_2" align="middle" allowscriptaccess="always" allowfullscreen="false" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" flashvars="id=2&amp;width=16&amp;height=16" wmode="transparent"></div></span><span class="tracking-ad" data-mod="popu_169"> <a href="#" class="PrintSource" title="print" onclick="dp.sh.Toolbar.Command('PrintSource',this);return false;" target="_self">print</a></span><a href="#" class="About" title="?" onclick="dp.sh.Toolbar.Command('About',this);return false;" target="_self">?</a></div></div><ol start="1" class="dp-py"><li class="alt"><span><span>roidb&nbsp;=&nbsp;filter_roidb(roidb)&nbsp;&nbsp;</span></span></li><li class=""><span>sw&nbsp;=&nbsp;SolverWrapper(solver_prototxt,&nbsp;roidb,&nbsp;output_dir,&nbsp;pretrained_model=pretrained_model)&nbsp;&nbsp;</span></li><li class="alt"><span>model_paths&nbsp;=&nbsp;sw.train_model(max_iters)&nbsp;&nbsp;</span></li><li class=""><span><span class="keyword">return</span><span>&nbsp;model_paths&nbsp;&nbsp;</span></span></li></ol></div><pre class="python" name="code" style="display: none;">roidb = filter_roidb(roidb)

sw = SolverWrapper(solver_prototxt, roidb, output_dir, pretrained_model=pretrained_model)

model_paths = sw.train_model(max_iters)

return model_paths

这样，就开始对整个网络进行训练了。

在solver_prototxt中，定义了train_prototxt。在train_prototxt中，定义了各种层，这些层组合起来，形成了训练网络的结构。

－－>

入口四：/py-faster-rcnn/models/coco_text/VGG16/faster_rcnn_end2end/train.prototxt

先举例说明形式：

1.自定义Caffe Python layer

layer {
name: 'input-data'
type: 'Python'
top: 'data'
top: 'im_info'
top: 'gt_boxes'
python_param {
module: 'roi_data_layer.layer'
layer: 'RoIDataLayer'
param_str: "'num_classes': 2"
}
}

layer {


name: 'input-data'


type: 'Python'


top: 'data'


top: 'im_info'


top: 'gt_boxes'


python_param {


module: 'roi_data_layer.layer'


layer: 'RoIDataLayer'


param_str: "'num_classes': 2"


}


}

在自定义的caffe python layer中：

type为’python'；

python_param中：

module为模块名，通常也是文件名。module: 'roi_data_layer.layer'：说明这一层定义在roi_data文件夹下面的layer中

layer为模块里的类名。layer:'RoIDataLayer'：说明该类的名字为'RoIDataLayer'

param_str为传入该层的参数。

2.caffe中原有的定义好的层，一般用c++定义。

layer {
name: "conv1_1"
type: "Convolution"
bottom: "data"
top: "conv1_1"
param {
lr_mult: 0
decay_mult: 0
}
param {
lr_mult: 0
decay_mult: 0
}
convolution_param {
num_output: 64
pad: 1
kernel_size: 3
}
}

layer {


name: "conv1_1"


type: "Convolution"


bottom: "data"


top: "conv1_1"


param {


lr_mult: 0


decay_mult: 0


}


param {


lr_mult: 0


decay_mult: 0


}


convolution_param {


num_output: 64


pad: 1


kernel_size: 3


}


}

在目录：/py-faster-rcnn/caffe-fast-rcnn/include/caffe/layers文件夹下面，可以看到conv_layer.hpp的头文件定义。

了解了layer的表示方法，接下来，看一下，整个网络是如何构建的。

整个网络可以分为四个部分：

1.Conv layers。首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。

2.Region Propoasl Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors来获得精确的proposals。

3.RoI Pooling。该层收集输入的feature maps和proposals，送入后续全连接层判定目标类别。

4.Classification。利用proposal feature maps计算proposal的类别，同时再次利用bounding box regression获得检测框最终的精确位置。

介绍到这里，相信大家对于整个程序的运行流程有了初步的了解。接下来，来看看具体的实现细节。首先，从数据的准备入手。

二.数据是如何准备的？

入口一： /py-faster-rcnn/tools/train_net.py

在train_net中：

获得imdb,roidb：imdb, roidb = combined_roidb(args.imdb_name)

进入位于 /py-faster-rcnn/tools/train_net.py，combined_roidb中：

def combined_roidb(imdb_names):
def get_roidb(imdb_name):
imdb = get_imdb(imdb_name)
print 'Loaded dataset {:s} for training'.format(imdb.name)
imdb.set_proposal_method(cfg.TRAIN.PROPOSAL_METHOD)
print 'Set proposal method: {

最新文章
热门文章

巴特西

FRCN文本检测（转）

[源码分析]Text-Detection-with-FRCN

最新文章

热门文章