皮皮网

【jchat 源码】【沙箱源码库】【人才招聘app源码】adboost源码

2024-11-18 22:22:24 来源:绝密攻击源码

1.如何用OpenCV训练自己的分类器
2.不会算法如何学习机器学习?
3.视觉机器学习20讲-MATLAB源码示例(20)-蚁群算法

adboost源码

如何用OpenCV训练自己的分类器

       ã€€ã€€ä¸€ã€ç®€ä»‹

       ã€€ã€€ç›®æ ‡æ£€æµ‹æ–¹æ³•æœ€åˆç”±Paul Viola [Viola]提出,并由Rainer Lienhart [Lienhart]对这一方法进行了改善。该方法的基本步骤为: 首先,利用样本(大约几百幅样本图片)的 harr 特征进行分类器训练,得到一个级联的boosted分类器。

       ã€€ã€€åˆ†ç±»å™¨ä¸­çš„"级联"是指最终的分类器是由几个简单分类器级联组成。在图像检测中,被检窗口依次通过每一级分类器, 这样在前面几层的检测中大部分的候选区域就被排除了,全部通过每一级分类器检测的区域即为目标区域。

       ã€€ã€€åˆ†ç±»å™¨è®­ç»ƒå®Œä»¥åŽï¼Œå°±å¯ä»¥åº”用于输入图像中的感兴趣区域的检测。检测到目标区域分类器输出为1,否则输出为0。为了检测整副图像,可以在图像中移动搜索窗口,检测每一个位置来确定可能的目标。 为了搜索不同大小的目标物体,分类器被设计为可以进行尺寸改变,这样比改变待检图像的尺寸大小更为有效。所以,为了在图像中检测未知大小的目标物体,扫描程序通常需要用不同比例大小的搜索窗口对图片进行几次扫描。

       ã€€ã€€ç›®å‰æ”¯æŒè¿™ç§åˆ†ç±»å™¨çš„boosting技术有四种: Discrete Adaboost, Real Adaboost, Gentle Adaboost and Logitboost。

       ã€€ã€€"boosted" 即指级联分类器的每一层都可以从中选取一个boosting算法(权重投票),并利用基础分类器的自我训练得到。

       ã€€ã€€æ ¹æ®ä¸Šé¢çš„分析,目标检测分为三个步骤:

       ã€€ã€€1、 样本的创建

       ã€€ã€€2、 训练分类器

       ã€€ã€€3、 利用训练好的分类器进行目标检测。

       ã€€ã€€äºŒã€æ ·æœ¬åˆ›å»º

       ã€€ã€€è®­ç»ƒæ ·æœ¬åˆ†ä¸ºæ­£ä¾‹æ ·æœ¬å’Œåä¾‹æ ·æœ¬ï¼Œå…¶ä¸­æ­£ä¾‹æ ·æœ¬æ˜¯æŒ‡å¾…检目标样本,反例样本指其它任意图片。

       ã€€ã€€è´Ÿæ ·æœ¬

       ã€€ã€€è´Ÿæ ·æœ¬å¯ä»¥æ¥è‡ªäºŽä»»æ„çš„图片,但这些图片不能包含目标特征。负样本由背景描述文件来描述。背景描述文件是一个文本文件,每一行包含了一个负样本图片的文件名(基于描述文件的相对路径)。该文件创建方法如下:

       ã€€ã€€é‡‡ç”¨Dos命令生成样本描述文件。具体方法是在Dos下的进入你的图片目录,比如我的图片放在D:\face\posdata下,则:

       ã€€ã€€æŒ‰Ctrl+R打开Windows运行程序,输入cmd打开DOS命令窗口,输入d:回车,再输入cd D:\face\negdata进入图片路径,再次输入dir /b > negdata.dat,则会图片路径下生成一个negdata.dat文件,打开该文件将最后一行的negdata.dat删除,这样就生成了负样本描述文件。dos命令窗口结果如下图:

       ã€€ã€€å¦‚何用OpenCV训练自己的分类器

       ã€€ã€€æ­£æ ·æœ¬

       ã€€ã€€å¯¹äºŽæ­£æ ·æœ¬ï¼Œé€šå¸¸çš„做法是先把所有正样本裁切好,并对尺寸做规整(即缩放至指定大小),如下图所示:

       ã€€ã€€å¦‚何用OpenCV训练自己的分类器

       ã€€ã€€ç”±äºŽHaarTraining训练时输入的正样本是vec文件,所以需要使用OpenCV自带的CreateSamples程序(在你所按照的opencv\bin下,如果没有需要编译opencv\apps\HaarTraining\make下的.dsw文件,注意要编译release版的)将准备好的正样本转换为vec文件。转换的步骤如下:

       ã€€ã€€1) 制作一个正样本描述文件,用于描述正样本文件名(包括绝对路径或相对路径),正样本数目以及各正样本在图片中的位置和大小。典型的正样本描述文件如下:

       ã€€ã€€posdata/1().bmp 1 1 1

       ã€€ã€€posdata/1().bmp 1 1 1

       ã€€ã€€posdata/1().bmp 1 1 1

       ã€€ã€€ä¸è¿‡ä½ å¯ä»¥æŠŠæè¿°æ–‡ä»¶æ”¾åœ¨ä½ çš„posdata路径(即正样本路径)下,这样你就不需要加前面的相对路径了。同样它的生成方式可以用负样本描述文件的生成方法,最后用txt的替换工具将“bmp”全部替换成“bmp 1 1 1

       ã€€ã€€â€å°±å¯ä»¥äº†ï¼Œå¦‚果你的样本图片多,用txt替换会导致程序未响应,你可以将内容拷到word下替换,然后再拷回来。bmp后面那五个数字分别表示图片个数,目标的起始位置及其宽高。这样就生成了正样本描述文件posdata.dat。

       ã€€ã€€2) 运行CreateSamples程序。如果直接在VC环境下运行,可以在Project\Settings\Debug属性页的Program arguments栏设置运行参数。下面是一个运行参数示例:

       ã€€ã€€-info D:\face\posdata\posdata.dat -vec D:\face\pos.vec -num -w -h

       ã€€ã€€è¡¨ç¤ºæœ‰ä¸ªæ ·æœ¬ï¼Œæ ·æœ¬å®½ï¼Œé«˜ï¼Œæ­£æ ·æœ¬æè¿°æ–‡ä»¶ä¸ºposdata.dat,结果输出到pos.vec。

       ã€€ã€€æˆ–者在dos下输入:

       ã€€ã€€"D:\Program Files\OpenCV\bin\createsamples.exe" -info "posdata\posdata.dat" -vec data\pos.vec -num -w -h

       ã€€ã€€è¿è¡Œå®Œäº†ä¼šd:\face\data下生成一个*.vec的文件。该文件包含正样本数目,宽高以及所有样本图像数据。结果入下图:

       ã€€ã€€å¦‚何用OpenCV训练自己的分类器

       ã€€ã€€Createsamples程序的命令行参数:

       ã€€ã€€å‘½ä»¤è¡Œå‚数:

       ã€€ã€€ï¼vec <vec_file_name>

       ã€€ã€€è®­ç»ƒå¥½çš„正样本的输出文件名。

       ã€€ã€€ï¼img<image_file_name>

       ã€€ã€€æºç›®æ ‡å›¾ç‰‡ï¼ˆä¾‹å¦‚:一个公司图标)

       ã€€ã€€ï¼bg<background_file_name>

       ã€€ã€€èƒŒæ™¯æè¿°æ–‡ä»¶ã€‚

       ã€€ã€€ï¼num<number_of_samples>

       ã€€ã€€è¦äº§ç”Ÿçš„正样本的数量,和正样本图片数目相同。

       ã€€ã€€ï¼bgcolor<background_color>

       ã€€ã€€èƒŒæ™¯è‰²ï¼ˆå‡å®šå½“前图片为灰度图)。背景色制定了透明色。对于压缩图片,颜色方差量由bgthresh参数来指定。则在bgcolor-bgthresh和bgcolor+bgthresh中间的像素被认为是透明的。

       ã€€ã€€ï¼bgthresh<background_color_threshold>

       ã€€ã€€ï¼inv

       ã€€ã€€å¦‚果指定,颜色会反色

       ã€€ã€€ï¼randinv

       ã€€ã€€å¦‚果指定,颜色会任意反色

       ã€€ã€€ï¼maxidev<max_intensity_deviation>

       ã€€ã€€èƒŒæ™¯è‰²æœ€å¤§çš„偏离度。

       ã€€ã€€ï¼maxangel<max_x_rotation_angle>

       ã€€ã€€ï¼maxangle<max_y_rotation_angle>,

       ã€€ã€€ï¼maxzangle<max_x_rotation_angle>

       ã€€ã€€æœ€å¤§æ—‹è½¬è§’度,以弧度为单位。

       ã€€ã€€ï¼show

       ã€€ã€€å¦‚果指定,每个样本会被显示出来,按下"esc"会关闭这一开关,即不显示样本图片,而创建过程继续。这是个有用的debug选项。

       ã€€ã€€ï¼w<sample_width>

       ã€€ã€€è¾“出样本的宽度(以像素为单位)

       ã€€ã€€ï¼h《sample_height》

       ã€€ã€€è¾“出样本的高度,以像素为单位。

       ã€€ã€€åˆ°æ­¤ç¬¬ä¸€æ­¥æ ·æœ¬è®­ç»ƒå°±å®Œæˆäº†ã€‚恭喜你,你已经学会训练分类器的五成功力了,我自己学这个的时候花了我一天的时间,估计你几分钟就学会了吧。

       ã€€ã€€ä¸‰ã€è®­ç»ƒåˆ†ç±»å™¨

       ã€€ã€€æ ·æœ¬åˆ›å»ºä¹‹åŽï¼ŒæŽ¥ä¸‹æ¥è¦è®­ç»ƒåˆ†ç±»å™¨ï¼Œè¿™ä¸ªè¿‡ç¨‹æ˜¯ç”±haartraining程序来实现的。该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。

       ã€€ã€€Haartraining的命令行参数如下:

       ã€€ã€€ï¼data<dir_name>

       ã€€ã€€å­˜æ”¾è®­ç»ƒå¥½çš„分类器的路径名。

       ã€€ã€€ï¼vec<vec_file_name>

       ã€€ã€€æ­£æ ·æœ¬æ–‡ä»¶åï¼ˆç”±trainingssamples程序或者由其他的方法创建的)

       ã€€ã€€ï¼bg<background_file_name>

       ã€€ã€€èƒŒæ™¯æè¿°æ–‡ä»¶ã€‚

       ã€€ã€€ï¼npos<number_of_positive_samples>,

       ã€€ã€€ï¼nneg<number_of_negative_samples>

       ã€€ã€€ç”¨æ¥è®­ç»ƒæ¯ä¸€ä¸ªåˆ†ç±»å™¨é˜¶æ®µçš„æ­£/负样本。合理的值是:nPos = ;nNeg =

       ã€€ã€€ï¼nstages<number_of_stages>

       ã€€ã€€è®­ç»ƒçš„阶段数。

       ã€€ã€€ï¼nsplits<number_of_splits>

       ã€€ã€€å†³å®šç”¨äºŽé˜¶æ®µåˆ†ç±»å™¨çš„弱分类器。如果1,则一个简单的stump classifier被使用。如果是2或者更多,则带有number_of_splits个内部节点的CART分类器被使用。

       ã€€ã€€ï¼mem<memory_in_MB>

       ã€€ã€€é¢„先计算的以MB为单位的可用内存。内存越大则训练的速度越快。

       ã€€ã€€ï¼sym(default)

       ã€€ã€€ï¼nonsym

       ã€€ã€€æŒ‡å®šè®­ç»ƒçš„目标对象是否垂直对称。垂直对称提高目标的训练速度。例如,正面部是垂直对称的。

       ã€€ã€€ï¼minhitrate《min_hit_rate》

       ã€€ã€€æ¯ä¸ªé˜¶æ®µåˆ†ç±»å™¨éœ€è¦çš„最小的命中率。总的命中率为min_hit_rate的number_of_stages次方。

       ã€€ã€€ï¼maxfalsealarm<max_false_alarm_rate>

       ã€€ã€€æ²¡æœ‰é˜¶æ®µåˆ†ç±»å™¨çš„最大错误报警率。总的错误警告率为max_false_alarm_rate的number_of_stages次方。

       ã€€ã€€ï¼weighttrimming<weight_trimming>

       ã€€ã€€æŒ‡å®šæ˜¯å¦ä½¿ç”¨æƒä¿®æ­£å’Œä½¿ç”¨å¤šå¤§çš„权修正。一个基本的选择是0.9

       ã€€ã€€ï¼eqw

       ã€€ã€€ï¼mode<basic(default)|core|all>

       ã€€ã€€é€‰æ‹©ç”¨æ¥è®­ç»ƒçš„haar特征集的种类。basic仅仅使用垂直特征。all使用垂直和度角旋转特征。

       ã€€ã€€ï¼w《sample_width》

       ã€€ã€€ï¼h《sample_height》

       ã€€ã€€è®­ç»ƒæ ·æœ¬çš„尺寸,(以像素为单位)。必须和训练样本创建的尺寸相同。

       ã€€ã€€ä¸€ä¸ªè®­ç»ƒåˆ†ç±»å™¨çš„例子:

       ã€€ã€€"D:\Program Files\OpenCV\bin\haartraining.exe" -data data\cascade -vec data\pos.vec -bg negdata\negdata.dat -npos -nneg -mem -mode ALL -w -h

       ã€€ã€€è®­ç»ƒç»“束后,会在目录data下生成一些子目录,即为训练好的分类器。

       ã€€ã€€è®­ç»ƒç»“果如下:

       ã€€ã€€å¦‚何用OpenCV训练自己的分类器

       ã€€ã€€

       ã€€ã€€æ­å–œä½ ï¼Œä½ å·²ç»å­¦ä¼šè®­ç»ƒåˆ†ç±»å™¨çš„九成功力了。

       ã€€ã€€å››ï¼šåˆ©ç”¨è®­ç»ƒå¥½çš„分类器进行目标检测。

       ã€€ã€€è¿™ä¸€æ­¥éœ€è¦ç”¨åˆ°performance.exe,该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。

       ã€€ã€€performance.exe -data data/cascade -info posdata/test.dat -w -h -rs

       ã€€ã€€performance的命令行参数如下:

       ã€€ã€€Usage: ./performance

       ã€€ã€€-data <classifier_directory_name>

       ã€€ã€€-info <collection_file_name>

       ã€€ã€€[-maxSizeDiff <max_size_difference = 1.>]

       ã€€ã€€[-maxPosDiff <max_position_difference = 0.>]

       ã€€ã€€[-sf <scale_factor = 1.>]

       ã€€ã€€[-ni]

       ã€€ã€€[-nos <number_of_stages = -1>]

       ã€€ã€€[-rs <roc_size = >]

       ã€€ã€€[-w <sample_width = >]

       ã€€ã€€[-h <sample_height = >]

       ã€€ã€€ä¹Ÿå¯ä»¥ç”¨opencv的cvHaarDetectObjects函数进行检测:

       ã€€ã€€CvSeq* faces = cvHaarDetectObjects( img, cascade, storage,

       ã€€ã€€1.1, 2, CV_HAAR_DO_CANNY_PRUNING,

       ã€€ã€€cvSize(, ) ); //3. 检测人脸

       ã€€ã€€æ³¨ï¼šOpenCv的某些版本可以将这些目录中的分类器直接转换成xml文件。但在实际的操作中,haartraining程序却好像永远不会停止,而且没有生成xml文件,后来在OpenCV的yahoo论坛上找到一个haarconv的程序,才将分类器转换为xml文件,其中的原因尚待研究。

不会算法如何学习机器学习?

       先看看相关的图书:要有好几本作为参考,最好是角度差异大、深浅程度不同,比如系统的导论式的、深入的有推导的、浅出的jchat 源码手把手的。它要充当不同学习过程中的工具书。

       网络教程:比如Andrew Ng的、各种专题的博客,有针对地找相应的教程,相对着看,网络资源比如cto学院的沙箱源码库课程跟书的表达方式毕竟是不一样的,也是很有益的信息源。

       paper:比如学CNN的时候,就搜一堆论文来,集中一段时间看一轮,一定要有针对性,带着很明确的问号去看。

       开源资源:很多很多东西,其实都有人做出来开源了,直接拿来用,一边用一边理解,甚至可以学习源码。人才招聘app源码

       关注这个领域:关注相关的会议期刊,关注大牛们(Hinton、Bengio、LeCun等)的动向,微博加一堆领域大牛每天看一眼他们分享什么上来。

       基础知识:线代、统计、概率、数学分析;信息论方面基本概念要理解,比如要知道相对熵是什么意思和怎么算;凸优化和最优估计相关内容,在各种各样问题中都会遇到,erlang游戏源码分析学好了可以帮大忙。

       机器学习主要就是找到目标函数并且做参数估计,虽然有很多现成工具,但是不熟悉优化问题的话,会很抓瞎。

       熟悉几个模型:神经网络(SAE、RBM、CNN等)、SVM、最大熵、CRF、安徽新源码头随机森林、GMM等等。了解不同应用场景下各种模型有什么优劣,挑一些自己以后可能常用到的多练习。

视觉机器学习讲-MATLAB源码示例()-蚁群算法

       蚁群算法是一种概率型优化算法,由Marco Dorigo在年提出,灵感来源于蚂蚁觅食路径的发现过程。该算法具备分布计算、信息正反馈和启发式搜索特性,是一种全局优化算法。在蚁群系统中,蚂蚁通过释放信息素进行信息传递,蚁群整体能够实现智能行为。经过一段时间后,蚁群会沿着最短路径到达食物源,这一过程体现了一种类似正反馈的机制。与其他优化算法相比,蚁群算法具有正反馈机制、个体间环境通讯、分布式计算和启发式搜索方式等特点,易于寻找到全局最优解。

       蚁群算法广泛应用于组合优化问题,如旅行商问题、指派问题、Job-shop调度问题、车辆路由问题、图着色问题和网络路由问题等。其在网络路由中的应用受到越来越多学者的关注,相较于传统路由算法,蚁群算法具有信息分布式性、动态性、随机性和异步性等特点,非常适合网络路由需求。

       深入学习蚁群算法的具体原理,请参考《机器学习讲》第二十讲内容。本系列文章涵盖了机器学习领域的多个方面,包括Kmeans聚类算法、KNN学习算法、回归学习算法、决策树学习算法、随机森林学习算法、贝叶斯学习算法、EM算法、Adaboost算法、SVM算法、增强学习算法、流形学习算法、RBF学习算法、稀疏表示算法、字典学习算法、BP学习算法、CNN学习算法、RBM学习算法、深度学习算法和蚁群算法。MATLAB仿真源码和相关数据已打包提供,欢迎查阅和使用。