@TOC
最近参加2020年(第13届)中国大学生计算机设计大赛,选择了人工智能挑战赛的赛题二,基于 CT 影像的结直肠息肉检测。
赛题要求是,设计算法,判断图像中是否存在息肉,并实现息肉的准确检测,利用矩形方框将所检测出的息肉包含在检测框内。
乍一看,是一道标准的目标检测题,再看看官方给出的数据集标注,是YOLO格式的,那就直接用YOLOv3进行训练。最后再根据题目的需求,增加了一些功能。
我们这个版本,是在c语言的YOLOv3框架上进行修改的;网上还有很多基于pytorch、tensorflow构建的YOLOv3,以后有时间也写一下。

YOLOv3训练自己的数据集

标记数据

如果是训练自己的数据集,即还未对数据集进行标注,那么推荐使用LabelImg工具进行标注,可以得到适用于PascalVOC(xml)或者YOLO(txt)格式的标注。
因为官方给出的数据集已经是YOLO格式的标注,我们可以直接用。当然,考虑到后面某个功能使用了PascalVOC格式的标注,这里给出一个从YOLO(txt)格式转换成PascalVOC(xml)格式的代码txt2xml.py
此时,原始图像放在JPEGImages目录下,YOLO(txt)格式标注放在labels目录下,PascalVOC(xml)格式标注放在Annotations目录下。

制作 yolo 需要的txt文件

这一步需要制作四个文件:train.txt、val.txt、object_train.txt、object_val.txt。
train.txt、val.txt这两个文件保存了用于训练、验证图片的名字,每行一个名字(不带后缀.jpg)。这里参考了一个别人的代码img2train.py
object_train.txt、object_val.txt这两个文件保存了用于训练、验证图片的绝对路径,每行一个路径。这里参考了一个别人的代码voc_label.py。这个代码不仅可以划分文件,还可以将PascalVOC(xml)格式标注转换成YOLO(txt)格式标注。

制作 yolo 需要的配置文件

这一步需要制作三个文件:ct.names、ct.data、ct.cfg(ct是自己定义的,因为我用的是ct数据集,所以有此定义)。
ct.names包含数据集中的种类,每行一个。注意,这个顺序代表了之后预测时的种类顺序。
ct.data包含以下几个内容

classes= 1 # 类别数
train = data/object_train.txt # obj_train.txt 路径
valid = data/object_val.txt # obj_val.txt 路径
names = data/ct.names # ct.names 路径
backup = backup/ # 建一个 backup 文件夹用于存放 weights 结果

注意,这里放的是object_train.txt和object_val.txt,是写有绝对路径的txt文本。
ct.cfg包含的是与YOLOv3训练或测试相关的配置,有几个地方需要注意

1.注意文档开头training和testing的切换;
2.直接搜索‘classes’,修改三处对应位置:
[convolutional]
filters = 3*(classes + 5) #修改filters数量
[yolo]
classes=5 #修改类别数;
3.修改max_batches = 2000 * classes

训练

首先,下载预训练权重。

1
wget https://pjreddie.com/media/files/darknet53.conv.74

然后,执行训练命令。

1
./darknet detector train ./cfg/ct.data ./cfg/ct.cfg darknet53.conv.74

增加功能

在图像上添加置信度

YOLOv3单张图像检测的结果,默认设定只包含目标类别。我们可以通过修改src/image.c文件draw_detections()函数,添加目标置信度。修改片段如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
for(i = 0; i < num; ++i)
{
char labelstr[4096] = {0};
char s1[]={" "};// 为了name与置信度之间加空格
int class = -1;
char possible[5];// 存放检测的置信值
for(j = 0; j < classes; ++j)
{
sprintf(possible,"%.2f",dets[i].prob[j]);//置信值截取小数点后两位赋给possible
if (dets[i].prob[j] > thresh)
{
if (class < 0)
{
strcat(labelstr, names[j]);
strcat(labelstr, s1); //加空格
strcat(labelstr, possible);//标签中加入置信值
class = j;
}
else
{
strcat(labelstr, ", ");
strcat(labelstr, names[j]);
strcat(labelstr, s1);//加空格
strcat(labelstr, possible);//标签中加入置信值
}
printf("%s: %.0f%%\n", names[j], dets[i].prob[j]*100);
}
}
}

单张图像检测命令

1
./darknet detector test ./cfg/ct.data ./cfg/ct_test.cfg ct_final.weights test.jpg

批量检测图像

首先,修改example/detector.c文件,在开头添加一个获取图片名字的函数:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
char *GetFilename(char *p)
{
static char name[50]={""};
char *q = strrchr(p,'/') + 1;
int i = 0;
while(q[i] != '\0')
{
if(q[i] == '.') break;
i++;
}
strncpy(name,q,i);// i是图片名的长度
name[i] = '\0';
return name;

}

在这里,为了对不同长度的文件名能够兼容处理,设置name数组长度为50,可以根据需要修改。
然后,替换examples/detector.c 中的test_detector函数:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
void test_detector(char *datacfg, char *cfgfile, char *weightfile, char *filename, float thresh, float hier_thresh, char *outfile, int fullscreen)
{
list *options = read_data_cfg(datacfg);
char *name_list = option_find_str(options, "names", "data/names.list");
char **names = get_labels(name_list);

image **alphabet = load_alphabet();
network *net = load_network(cfgfile, weightfile, 0);
set_batch_network(net, 1);
srand(2222222);
double time;
char buff[256];
char *input = buff;
float nms=.45;
int i=0;
while(1){
if(filename){
strncpy(input, filename, 256);
image im = load_image_color(input,0,0);
image sized = letterbox_image(im, net->w, net->h);
layer l = net->layers[net->n-1];


float *X = sized.data;
time=what_time_is_it_now();
network_predict(net, X);
printf("%s: Predicted in %f seconds.\n", input, what_time_is_it_now()-time);
int nboxes = 0;
detection *dets = get_network_boxes(net, im.w, im.h, thresh, hier_thresh, 0, 1, &nboxes);
if (nms) do_nms_sort(dets, nboxes, l.classes, nms);
draw_detections(im, dets, nboxes, thresh, names, alphabet, l.classes);
free_detections(dets, nboxes);
if(outfile)
{
save_image(im, outfile);
}
else{
save_image(im, "predictions");
#ifdef OPENCV
cvNamedWindow("predictions", CV_WINDOW_NORMAL);
if(fullscreen){
cvSetWindowProperty("predictions", CV_WND_PROP_FULLSCREEN, CV_WINDOW_FULLSCREEN);
}
show_image(im, "predictions",0);
cvWaitKey(0);
cvDestroyAllWindows();
#endif
}
free_image(im);
free_image(sized);
if (filename) break;
}
else {
printf("Enter Image Path: ");
fflush(stdout);
input = fgets(input, 256, stdin);
if(!input) return;
strtok(input, "\n");

list *plist = get_paths(input);
char **paths = (char **)list_to_array(plist);
printf("Start Testing!\n");
int m = plist->size;
if(access("/home/lzm/data/test_folder/darknet/car_person/out",0)==-1)//"/homelzm/......"修改成自己要保存图片的的路径
{
if (mkdir("/home/lzm/data/test_folder/darknet/car_person/out",0777))//"/homelzm/......"修改成自己要保存图片的的路径
{
printf("creat folder failed!!!");
}
}
for(i = 0; i < m; ++i){
char *path = paths[i];
image im = load_image_color(path,0,0);
image sized = letterbox_image(im, net->w, net->h);
//image sized = resize_image(im, net->w, net->h);
//image sized2 = resize_max(im, net->w);
//image sized = crop_image(sized2, -((net->w - sized2.w)/2), -((net->h - sized2.h)/2), net->w, net->h);
//resize_network(net, sized.w, sized.h);
layer l = net->layers[net->n-1];


float *X = sized.data;
time=what_time_is_it_now();
network_predict(net, X);
printf("Try Very Hard:");
printf("%s: Predicted in %f seconds.\n", path, what_time_is_it_now()-time);
int nboxes = 0;
detection *dets = get_network_boxes(net, im.w, im.h, thresh, hier_thresh, 0, 1, &nboxes);
//printf("%d\n", nboxes);
//if (nms) do_nms_obj(boxes, probs, l.w*l.h*l.n, l.classes, nms);
if (nms) do_nms_sort(dets, nboxes, l.classes, nms);
draw_detections(im, dets, nboxes, thresh, names, alphabet, l.classes);
free_detections(dets, nboxes);
if(outfile){
save_image(im, outfile);
}
else{

char b[2048];
sprintf(b,"/home/lzm/data/test_folder/darknet/car_person/out/%s",GetFilename(path));//"/homelzm/......"修改成自己要保存图片的的路径

save_image(im, b);
printf("OJBK!\n",GetFilename(path));
#ifdef OPENCV
cvNamedWindow("predictions", CV_WINDOW_NORMAL);
if(fullscreen){
cvSetWindowProperty("predictions", CV_WND_PROP_FULLSCREEN, CV_WINDOW_FULLSCREEN);
}
show_image(im, "predictions",0);
cvWaitKey(0);
cvDestroyAllWindows();
#endif
}

free_image(im);
free_image(sized);
if (filename) break;
}
}
}
}

最后,在命令行输入make,更新文件。
批量检测命令,输入的路径为那些图片路径的txt。

1
./darknet detector test ./cfg/ct.data ./cfg/ct_test.cfg ct_final.weights

保存批量检测结果为txt文件

YOLOv3有自带的命令进行这个操作。

1
./darknet detector valid ./cfg/ct.data ./cfg/ct_test.cfg ct_final.weights results

计算recall

修改examples/detector.c的validate_detector_recall函数。
首先,将validate_detector_recall函数定义和调用修改如下:

void validate_detector_recall(char *datacfg, char *cfgfile, char *weightfile)
validate_detector_recall(datacfg, cfg, weights);

然后,将如下内容:

list *plist = get_paths(“data/coco_val_5k.list”);
char **paths = (char **)list_to_array(plist);

修改成

list *options = read_data_cfg(datacfg);
char *valid_images = option_find_str(options, “valid”, “data/train.list”);
list *plist = get_paths(valid_images);
char **paths = (char **)list_to_array(plist);

最后,记得make。
使用YOLOv3的命令调用方式。

1
./darknet detector recall ./cfg/ct.data ./cfg/ct_test.cfg ct_final.weights

计算mAP

需要用到PascalVOC(xml)格式的注释,可以用文章开始提到的代码txt2xml.py进行转换。
可以先借助py-faster-rcnn下的voc_eval.py计算出单个类别的AP,然后求平均得到mAP。
新建一个all_map.py文件用于计算mAP,这边提供了别的博主的一个例子。
如果需要重复计算mAP,需要删除生成的annots.pkl。

参考
YOLOv3:训练自己的数据(附优化与问题总结)
How to train YOLOv3 model
YOLO-V3实战(darknet)