CNN与图像高级应用

2024-10-21 07:28:57

一、图像识别与定位

　　思路1：视作回归

　　　　4个数字，用L2 loss/欧氏距离损失(x,y,w,h)这四个数都是连续值

　　思路2：借助图像窗口

二、物体识别

　　0.图像识别与定位：

　　　　(1)Classification:C个类别

　　　　(2)Input:Image

　　　　(3)Output:类别标签

　　　　(4)Evaluation metric:准确率

　　1.Localization:

　　　　(1)Input:Image

　　　　(2)Output:物体边界框(x,y,w,h)

　　　　(3)Evaluation metric:交并准则IOU

　　2.Classification+Localization:识别主体+定位(四元组完成)

　　3.边缘策略/选择性搜索=》R-CNN

　　4.R-CNN=>Fast R-CNN

　　5.Fast R-CNN=>Fast R-CNN

　　6.YOLO/SSD

　　7.ImageNet:(1)实际上有识别+定位 2个任务

　　　　(1)思路1：看做回归问题

　　　　　　　　最后的卷积层后

　　　　　　　　全连接层后

　　　　(2)能否对主题有更细致的识别？

　　　　　　　　提前规定好有K个组成部分

　　　　　　　　做成K个部分(关节)做回归预测=》收尾相接的线段

　　　　(3)思路2:图窗+识别与整合

　　　　　　类似刚才的classification+regression思路

　　　　　　选取不同的大小的框

　　　　　　让框出现在不同的位置上

　　　　　　判定得分

　　　　　　按照得分高低对“结果框”做抽取和合并

　　　　(4)实际应用的时候，会尝试各种大小的窗口，甚至在窗口上做一些回归的事情

　　　　(5)想办法克服一下过程中的“参数多”与“计算慢”

　　　　　　用多卷积核的卷积层替换全连接层

　　　　　　降低参数量

　　　　(6)测试/识别阶段的计算是可以复用的(小卷积)

　　　　　加速计算

三、图像分割

　　1.语义分割

　　2.反卷积

最新文章

热门文章