皮皮网

皮皮网

【溯源码无损去掉】【gdb调试源码】【caffe ocr 源码】hmm源码

时间:2025-01-20 03:54:26 分类:百科

1.计算机视觉算法有哪些?CV算法
2.如何系统地学习量化交易?
3.jieba源码解析(一)——中文分词
4.VC+++++是什么?
5.Python 结巴分词(jieba)源码分析
6.jieba分词详解

hmm源码

计算机视觉算法有哪些?CV算法

       计算机视觉是深度学习领域内备受关注的分支,它汇聚了计算机科学、数学、工程、物理学以及心理学等多个学科的知识。关于计算机视觉算法有哪些,溯源码无损去掉业内专家给出了以下解答。

       早期算法包括:

       子空间(线性降维)

       PCA(主成分分析):旨在最大限度地保留原始数据的主要信息,同时降低冗余信息;

       LDA(线性判别分析):通过增大类间差距、减小类内差距来实现分类;

       非线性降维:流形学习、加入核函数等方法。

       ICA(独立成分分析):相较于PCA,ICA在处理光照、人脸表情、姿态等方面具有更好的效果,但其泛化能力有限。

       HMM(隐马尔可夫):相比其他算法,HMM在处理光照变化、表情和姿态变化等方面更加鲁棒。

       后期算法:通过loss函数优化模型结构,从而得到具有区分度的特征。

       常用算法总结:

       计算机视觉相关算法的源代码;

       计算机视觉常用算法博客。

       特征提取算法(寻找关键点):

       (1) SIFT(尺度不变特征变换):具有尺度不变性,能够在图像中检测到关键点;

       (2) SURF(加速稳健特征,SIFT加速版):通过构建Hessian矩阵,判断当前点是否为邻近区域中更亮或更暗的点,从而确定关键点位置;

       优:特征稳定;

       缺:对于边缘光滑的目标提取能力较弱。

       (3) ORB:结合Fast与Brief算法,为Fast特征点增加方向性,gdb调试源码实现旋转不变性,并提出金字塔方法解决尺度不变性问题;

       ORB算法速度是SIFT的倍,是SURF的倍。

       经观察,ORB算法在特征点标记时数量较少,如图所示。

       SIFT、SURF、ORB实现;

       (4) FAST角点检测:主要考虑像素点附近的圆形窗口上的个像素,通过比较像素强度,判断是否为角点;

       非极大值抑制:在存在多个关键点时,删除角响应度较小的特征点。

       (5) HOG(方向梯度直方图);

       (6) LBP(局部二值特征):论述了高维特征与验证性能的正相关关系,即人脸维度越高,验证的准确度就越高。

       (7) Haar:

如何系统地学习量化交易?

       有TB和matlab就基本足够了,实现的话c++比较好。当然要看自身的知识背景和技术水平。

       我的理解其实做量化交易很难有一个所谓的系统学习的过程,量化只是手段,交易的逻辑是多元化的,你可以通过形态描述、追踪市场不合理价差等手段切入,也可以把天体物理、小波分析、神经网络等复杂模型应用其中,你可以做的是K线结构上的策略,也可以做日线或每毫秒数据进行决策的caffe ocr 源码策略。

       所有的一切目的就是为了获利,所谓量化和程序化只是实现这一目的的手段。

       你可以通过各种手段了解做量化时注意的细节,比如如何避免使用未来函数、如何理解每一条数据的意义、测试与实盘之间的差异、不同测试软件的优缺点等等。但你没法去“学习”量化交易,因为不会有人把自己真正赚钱的东西拿出来,如何赚钱必须自己去挖掘

       首先从高频交易分类来说,您研究的期现套利只是其中一种,股指期货刚推出的时候和现货的期现套利收益率还不错,近两年低到有时甚至不到无风险收益率。国债期货和现货套利空间在推出后很快就消失了。以后推出了期权,可能会有一定机会,但应该风险很高。其实从国外来看,高频交易最大的用处是做市商交易,快进快出提供市场流动性,这种策略在中国订单驱动市场显然很难。然后就是后面答案中提到的趋势交易,利用KDJ,SAR,海龟法,割头皮法之类的策略判断市场方向进行交易,这也是国内期货公司和大部分量化私募的方向。不得不说,智慧树源码这种策略参数选择基于过去,可能会过度优化参数或者加入拍脑袋主观想法,有时候赚很多倍有时候很快赔光。一般的策略都回撤太高不适合投资。最后有一种,是目前我所了解的比较先进的方法, 隐含马尔可夫模型(HMM),这也是西蒙斯的文艺复兴在做的方法。具体策略我学识有限了解不深,这是一种随机过程的方法,《数学之美》里介绍过利用HMM来语音识别。因此,我建议题主如果真的有志于高频交易应该首先读一个数学或者计算物理的博士,编程能力并不是高频交易的核心竞争力,数学理论才是。当然,本人阅历能力有限,仅了解皮毛,随口一说,欢迎拍砖

jieba源码解析(一)——中文分词

       全模式解析:

       全模式下的中文分词通过构建字典树和DAG实现。首先加载字典,字典树中记录词频,例如词"不拘一格"在字典树中表示为{ "不" : 0, "不拘" : 0, "不拘一" : 0, "不拘一格" : freq}。接着构造DAG,表示连续词段的起始位置。例如句子'我来到北京清华大学',分词过程如下:

       1. '我':字典树中key=0,尝试'我来',opencart网站源码不在字典,结束位置0寻找可能的分词,DAG为 { 0:[0]}。

       2. '来':字典树中key=1,尝试'来到',在字典,继续尝试'来到北',不在字典,结束位置1寻找可能的分词,DAG为 { 0:[0], 1:[1]}。

       3. '到':字典树中key=2,尝试'来到北',不在字典,结束位置2寻找可能的分词,DAG为 { 0:[0], 1:[1], 2:[2]}。

       4. 以此类推,最终形成所有可能分词结果:我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学。

       全模式的关键代码涉及字典树和DAG的构建与使用。

       精确模式与HMM模式解析:

       精确模式与HMM模式对句子'我来到北京清华大学'的分词结果分别为:

       精确模式:'我'/'来到'/'北京'/'清华大学'

       HMM模式:'我'/'来到'/'了'/'北京'/'清华大学'

       HMM模式解决了发现新词的问题。解析过程分为三个步骤:

       1. 生成所有可能的分词。

       2. 生成每个key认为最好的分词。

       3. 按照步骤2的方式对每个key的结果从前面向后组合,注意判断单字与下个单字是否可以组成新词。

       最后,解析结果为:我/ 来到/ 北京/ 清华/ 清华大学

       HMM模式中的Viterbi算法在jieba中用于发现新词。算法通过统计和概率计算,实现新词的发现与分词。

       具体应用中,HMM模型包含五个元素:隐含状态、可观测状态、初始状态概率矩阵、隐含状态转移概率矩阵、观测状态转移概率矩阵。模型利用这些元素实现状态预测与概率计算,进而实现中文分词与新词发现。

       在Viterbi算法中,重要的是理解隐含状态、可观测状态、转移概率矩阵之间的关系,以及如何利用这些信息进行状态预测和概率计算。具体实现细节在代码中体现,包括字典树构建、DAG构造、概率矩阵应用等。

VC+++++是什么?

       VC++是微软公司开发的一个IDE(集成开发环境),换句话说,就是使用c++的一个开发平台.有些软件就是这个编出来的...另外还有VB,VF.只是使用不同语言...但是,

        vc++是Windows平台上的C++编程环境,学习VC要了解很多Windows平台的特性并且还要掌握MFC、ATL、COM等的知识,难度比较大。Windows下编程需要了解Windows的消息机制以及回调(callback)函数的原理;MFC是WinAPI的包装类,需要理解文档视图类的结构,窗口类的结构,消息流向等等;COM是代码共享的二进制标准,需要掌握其基本原理等等。

        VC作为一个主流的开发平台一直深受编程爱好者的喜爱,但是很多人却对它的入门感到难于上青天,究其原因主要是大家对他错误的认识造成的,严格的来说VC++不是门语言,虽然它和C++之间有密切的关系,如果形象点比喻的话,可以把C++看作为一种“工业标准”,而VC++则是某种操作系统平台下的“厂商标准”,而“厂商标准”是在遵循“工业标准”的前提下扩展而来的。

        VC++应用程序的开发主要有两种模式,一种是WIN API方式,另一种则是MFC方式,传统的WIN API开发方式比较繁琐,而MFC则是对WIN API再次封装,所以MFC相对于WIN API开发更具备效率优势,但为了对WINDOWS开发有一个较为全面细致的认识,笔者在这里还是以讲解WIN API的相关内容为主线。

        话说到这里可能更多人关心的是学习VC++需要具备什么条件,为什么对于这扇门屡攻不破呢?

        要想学习好VC必须具备良好的C/C++的基础,必要的英语阅读能力也是必不可少的,因为大量的技术文档多以英文形式发布。

       [编辑本段]VC++中播放声音的方法

        声音是多媒体的一个重要组成部分,在应用程序中加入声音可以使界面更友好。在VC++中可以根据不同的应用要求,用不同的方法实现声音的播放。

        一.播放声音文件的简单方法

        在VC++ 中的多媒体动态连接库中提供了一组与音频设备有关的函数。利用这些函数可以方便地播放声音。最简单的播放声音方法就是直接调用VC++中提供的声音播放函数BOOL sndPlaySound ( LPCSTR lpszSound,UINT fuSound ); 或BOOL PlaySound( LPCSTR lpszSound, HMODULE hmod, DWORD fuSound );其中参数lpszSound是需要播放声音的.WAV文件的路径和文件名, hmod在这里为NULL,fuSound是播放声音的标志,详细说明请参考VC++中的帮助。 例如播放C:soundmusic.wav可以用sndPlaySound ("c:\sound\music.wav",SND_ASYNC);或PlaySound("c:\sound\music.wav",NULL, SND_ASYNC|SND_NODEFAULT );如果没有找到music.wav文件,第一种格式将播放系统默认的声音,第二种格式不会播放系统默认的声音。

        二.将声音文件加入到程序中

        在VC++的程序设计中,可以利用各种标准的资源,如位图,菜单,对话框等。同时VC++也允许用户自定义资源,因此我们可以将声音文件作为用户自定义资源加入程序资源文件中,经过编译连接生成EXE文件,实现无.WAV文件的声音播放。

        要实现作为资源的声音文件的播放,首先要在资源管理器中加入待播放的声音文件(实现过程并不复杂,这里不在叙述)。假设生成的声音文件资源标识符为IDR_WAVE1。在播放时只需要调用下面的语句:

        PlaySound(MAKEINTRESOURCE(IDR_WAVE1),AfxGetResourceHandle(), SND_ASYNC|SND_RESOURCE|SND_NODEFAULT|SND_LOOP);

        其中MAKEINTRESOURCE()宏将整数资源标识符转变为字符串,AfxGetResourceHandle()函数返回包含资源的模块句柄,

        SND_RESOURCE是必须的标志。

        作为资源的声音文件的第二种播放方法是把资源读入内存后作为内存数据播放。具体步骤入下:

        1.获得包含资源的模块句柄:

        HMODULE hmod=AfxGetResourceHandle();

        2.检索资源块信息:

        HRSRC hSndResource=FindResource(hmod,MAKEINTRESOURCE(IDR_WAVE1),_T("WAVE"));

        3. 装载资源数据并加锁:

        HGLOBAL hGlobalMem=LoadResource(hmod,hSndResource);

        LPCTSTR lpMemSound=(LPCSTR)LockResource(hGlobalMem);

        4.播放声音文件:

        sndPlaySound(lpMemSound,SND_MEMORY));

        5.释放资源句柄:

        FreeResource(hGlobalMem);

        三.播放声音文件的高级方法

        在VC++中提供了一组对音频设备及多媒体文件直接进行操作的函数。利用这些函数可以灵活地对声音文件进行各种处理。

        首先介绍几个要用到的数据结构。WAVEFORMATEX结构定义了WAVE音频数据文件的格式。WAVEHDR结构定义了波形音频缓冲区。读出的数据首先要填充此缓冲区才能送音频设备播放。WAVEOUTCAPS结构描述了音频设备的性能。MMCKINFO结构包含了RIFF文件中一个块的信息。详细的说明请参考VC++中的帮助。

        下面给出程序流程简图及程序源代码清单,在VC++环境下可直接使用:

        源程序清单如下:

        LPSTR szFileName;//声音文件名

        MMCKINFO mmckinfoParent;

        MMCKINFO mmckinfoSubChunk;

        DWORD dwFmtSize;

        HMMIO m_hmmio;//音频文件句柄

        DWORD m_WaveLong;

        HPSTR lpData;//音频数据

        HANDLE m_hData;

        HANDLE m_hFormat;

        WAVEFORMATEX * lpFormat;

        DWORD m_dwDataOffset;

        DWORD m_dwDataSize;

        WAVEHDR pWaveOutHdr;

        WAVEOUTCAPS pwoc;

        HWAVEOUT hWaveOut;

        //打开波形文件

        if(!(m_hmmio=mmioOpen(szFileName,NULL,MMIO_READ|MMIO_ALLOCBUF)))

        {

        //File open Error

        Error("Failed to open the file.");//错误处理函数

        return false;

        }

        //检查打开文件是否是声音文件

        mmckinfoParent.fccType =mmioFOURCC(’W’,’A’,’V’,’E’);

        if(mmioDescend(m_hmmio,(LPMMCKINFO)&mmckinfoParent,NULL,MMIO_FINDRIFF))

        {

        //NOT WAVE FILE AND QUIT

        }

        //寻找 ’fmt’ 块

        mmckinfoSubChunk.ckid =mmioFOURCC(’f’,’m’,’t’,’ ’);

        if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCHUNK))

        {

        //Can’t find ’fmt’ chunk

        }

        //获得 ’fmt ’块的大小,申请内存

        dwFmtSize=mmckinfoSubChunk.cksize ;

        m_hFormat=LocalAlloc(LMEM_MOVEABLE,LOWORD(dwFmtSize));

        if(!m_hFormat)

        {

        //failed alloc memory

        }

        lpFormat=(WAVEFORMATEX*)LocalLock(m_hFormat);

        if(!lpFormat)

        {

        //failed to lock the memory

        }

        if((unsigned long)mmioRead(m_hmmio,(HPSTR)lpFormat,dwFmtSize)!=dwFmtSize)

        {

        //failed to read format chunk

        }

        //离开 fmt 块

        mmioAscend(m_hmmio,&mmckinfoSubChunk,0);

        //寻找 ’data’ 块

        mmckinfoSubChunk.ckid=mmioFOURCC(’d’,’a’,’t’,’a’);

        if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCHUNK))

        {

        //Can’t find ’data’ chunk

        }

        //获得 ’data’块的大小

        m_dwDataSize=mmckinfoSubChunk.cksize ;

        m_dwDataOffset =mmckinfoSubChunk.dwDataOffset ;

        if(m_dwDataSize==0L)

        {

        //no data in the ’data’ chunk

        }

        //为音频数据分配内存

        lpData=new char[m_dwDataSize];

        if(!lpData)

        {

        //faile

        }

        if(mmioSeek(m_hmmio,SoundOffset,SEEK_SET)<0)

        {

        //Failed to read the data chunk

        }

        m_WaveLong=mmioRead(m_hmmio,lpData,SoundLong);

        if(m_WaveLong<0)

        {

        //Failed to read the data chunk

        }

        //检查音频设备,返回音频输出设备的性能

        if(waveOutGetDeVCaps(WAVE_MAPPER,&pwoc,sizeof(WAVEOUTCAPS))!=0)

        {

        //Unable to allocate or lock memory

        }

        //检查音频输出设备是否能播放指定的音频文件

        if(waveOutOpen(&hWaveOut,DevsNum,lpFormat,NULL,NULL,CALLBACK_NULL)!=0)

        {

        //Failed to OPEN the wave out devices

        }

        //准备待播放的数据

        pWaveOutHdr.lpData =(HPSTR)lpData;

        pWaveOutHdr.dwBufferLength =m_WaveLong;

        pWaveOutHdr.dwFlags =0;

        if(waveOutPrepareHeader(hWaveOut,&pWaveOutHdr,sizeof(WAVEHDR))!=0)

        {

        //Failed to prepare the wave data buffer

        }

        //播放音频数据文件

        if(waveOutWrite(hWaveOut,&pWaveOutHdr,sizeof(WAVEHDR))!=0)

        {

        //Failed to write the wave data buffer

        }

        //关闭音频输出设备,释放内存

        waveOutReset(hWaveOut);

        waveOutClose(hWaveOut);

        LocalUnlock(m_hFormat);

        LocalFree(m_hFormat);

        delete [] lpData;

        说明:1)以上使用的音频设备和声音文件操作函数的声明包含在mmsystem.h头文件中,因此在程序中必须用#include "mmsystem.h"语句加入头文件。同时在编译时要加入动态连接导入库winmm.lib,具体实现方法是从Developer Studio的Project菜单中选择Settings,然后在Link选项卡上的Object/Library Modules控制中加入winmm.lib。2)在pWaveOutHdr.lpData中指定不同的数据,可以播放音频数据文件中任意指定位置的声音。3) 以上程序均在VC++6.0中调试通过,在文中省略了对错误及异常情况的处理,在实际应用中必须加入。

        四.结论

        在VC++中可以根据应用需要采用不同的方法播放声音文件。简单应用可以直接调用声音播放函数。第二种方法可以把声音作为资源加入可执行文件中。如果在播放之前要对声音数据进行处理,可用第三种方法。

Python 结巴分词(jieba)源码分析

       本文深入分析Python结巴分词(jieba)的源码,旨在揭示其算法实现细节与设计思路,以期对自然语言处理领域感兴趣的朋友提供有价值的参考。经过两周的细致研究,作者整理了分词算法、实现方案及关键文件结构的解析,以供读者深入理解结巴分词的底层逻辑。

       首先,分词算法涉及的核心技术包括基于Trie树结构的高效词图扫描、动态规划查找最大概率路径和基于HMM模型的未登录词处理。Trie树用于生成句子中所有可能成词情况的有向无环图(DAG),动态规划则帮助在词频基础上寻找到最优切分组合,而HMM模型则通过Viterbi算法处理未在词库中出现的词语,确保分词的准确性和全面性。

       在结巴分词的文件结构中,作者详细介绍了各个关键文件的功能与内容。dict.txt作为词库,记录着词频与词性信息;__init__.py则是核心功能的入口,提供了分词接口cut,支持全模式、精确模式以及结合最大概率路径与HMM模型的综合模式。全模式下,会生成所有可能的词组合;精确模式通过最大概率路径确定最优分词;综合模式则同时考虑概率与未登录词,以提高分词效果。

       实现细节方面,文章通过实例代码解释了全模式、精确模式及综合模式的分词逻辑。全模式直接输出所有词组合;精确模式基于词频和最大概率路径策略,高效识别最优分词;综合模式利用HMM模型处理未登录词,进一步提升分词准确度。通过生成的DAG图,直观展示了分词过程。

       结巴分词的代码实现简洁而高效,通过巧妙的算法设计和数据结构应用,展示了自然语言处理技术在实际应用中的强大能力。通过对分词算法的深入解析,不仅有助于理解结巴分词的功能实现,也为自然语言处理领域的研究与实践提供了宝贵的洞察。

jieba分词详解

        “结巴”分词是一个Python 中文分词组件,参见 /fxsjy/jieba

        可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。

        本文包括以下内容:

        1、jieba分词包的安装

        2、jieba分词的使用教程

        3、jieba分词的工作原理与工作流程

        4、jieba分词所涉及到的HMM、TextRank、TF-IDF等算法介绍

        可以直接使用pip来进行安装:

        sudo pip install jieba

        或者

        sudo pip3 install jieba

        关键词抽取有两种算法,基于TF-IDF和基于TextRank:

        jieba分词有三种不同的分词模式:精确模式、全模式和搜索引擎模式:

        对应的,函数前加l即是对应得到list结果的函数:

        精确模式是最常用的分词方法,全模式会将句子中所有可能的词都列举出来,搜索引擎模式则适用于搜索引擎使用。具体的差别可在下一节工作流程的分析中详述。

        在上述每个函数中,都有名为HMM的参数。这一项表示是否在分词过程中利用HMM进行新词发现。关于HMM,本文附录中将简述相关知识。

        另外分词支持自定义字典,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

        具体使用方法为:

        关键词抽取的两个函数的完整参数为:

        可以通过

        来打开或关闭并行分词功能。

        个人感觉一般用不到,大文件分词需要手动实现多进程并行,句子分词也不至于用这个。

        jieba分词主要通过词典来进行分词及词性标注,两者使用了一个相同的词典。正因如此,分词的结果优劣将很大程度上取决于词典,虽然使用了HMM来进行新词发现。

        jieba分词包整体的工作流程如下图所示:

        下面将根据源码详细地分析各个模块的工作流程。

        在之后几节中,我们在蓝色的方框中示范了关键步骤的输出样例或词典文件的格式样例。在本节中都采用类似的表示方式。

        jieba分词中,首先通过对照典生成句子的有向无环图,再根据选择的模式不同,根据词典寻找最短路径后对句子进行截取或直接对句子进行截取。对于未登陆词(不在词典中的词)使用HMM进行新词发现。

        词典的格式应为

        word1 freq1 word_type1

        word2 freq2 word_type2

        …

        其中自定义用户词典中词性word_type可以省略。

        词典在其他模块的流程中可能也会用到,为方便叙述,后续的流程图中将会省略词典的初始化部分。

        图b演示了搜索引擎模式的工作流程,它会在精确模式分词的基础上,将长词再次进行切分。

        在这里我们假定读者已经了解HMM相关知识,如果没有可先行阅读下一章内容中的HMM相关部分或者跳过本节。

        在jieba分词中,将字在词中的位置B、M、E、S作为隐藏状态,字是观测状态,使用了词典文件分别存储字之间的表现概率矩阵(finalseg/prob_emit.py)、初始概率向量(finalseg/prob_start.py)和转移概率矩阵(finalseg/prob_trans.py)。这就是一个标准的解码问题,根据概率再利用viterbi算法对最大可能的隐藏状态进行求解。

        词性分析部分与分词模块用了同一个基础的分词器,对于词典词的词性,将直接从词典中提取,但是对于新词,词性分析部分有一个专属的新词及其词性的发现模块。

        用于词性标注的HMM模型与用于分词的HMM模型相似,同样将文字序列视为可见状态,但是隐藏状态不再是单单的词的位置(B/E/M/S),而变成了词的位置与词性的组合,如(B,v)(B,n)(S,n)等等。因此其初始概率向量、转移概率矩阵和表现概率矩阵和上一节中所用的相比都要庞大的多,但是其本质以及运算步骤都没有变化。

        具体的工作流程如下图所示。

        jieba分词中有两种不同的用于关键词抽取的算法,分别为TextRank和TF-IDF。实现流程比较简单,其核心在于算法本身。下面简单地画出实现流程,具体的算法可以参阅下一章内容。

        TextRank方法默认筛选词性,而TF-IDF方法模型不进行词性筛选。

        在本章中,将会简单介绍相关的算法知识,主要包括用于新词发现的隐马尔科夫模型和维特比算法、用于关键词提取的TextRank和TF-IDF算法。

        HMM即隐马尔科夫模型,是一种基于马尔科夫假设的统计模型。之所以为“隐”,是因为相较于马尔科夫过程HMM有着未知的参数。在世界上,能看到的往往都是表象,而事物的真正状态往往都隐含在表象之下,并且与表象有一定的关联关系。

        其中,S、O分别表示状态序列与观测序列。

        如果读者还对这部分内容心存疑问,不妨先往下阅读,下面我们将以一个比较简单的例子对HMM及解码算法进行实际说明与演示,在读完下一小节之后再回来看这些式子,或许能够恍然大悟。

        下面以一个简单的例子来进行阐述:

        假设小明有一个网友小红,小红每天都会在朋友圈说明自己今天做了什么,并且假设其仅受当天天气的影响,而当天的天气也只受前一天天气的影响。

        于小明而言,小红每天做了什么是可见状态,而小红那里的天气如何就是隐藏状态,这就构成了一个HMM模型。一个HMM模型需要有五个要素:隐藏状态集、观测集、转移概率、观测概率和初始状态概率。

        即在第j个隐藏状态时,表现为i表现状态的概率。式中的n和m表示隐藏状态集和观测集中的数量。

        本例中在不同的天气下,小红要做不同事情的概率也不同,观测概率以表格的形式呈现如下:

        其中

        除此之外,还需要一个初始状态概率向量π,它表示了观测开始时,即t=0时,隐藏状态的概率值。本例中我们指定π={ 0,0,1}。

        至此,一个完整的隐马尔科夫模型已经定义完毕了。

        HMM一般由三类问题:

概率计算问题,即给定A,B,π和隐藏状态序列,计算观测序列的概率;

预测问题,也成解码问题,已知A,B,π和观测序列,求最优可能对应的状态序列;

学习问题,已知观测序列,估计模型的A,B,π参数,使得在该模型下观测序列的概率最大,即用极大似然估计的方法估计参数。

        在jieba分词中所用的是解码问题,所以此处对预测问题和学习问题不做深入探讨,在下一小节中我们将继续以本节中的例子为例,对解码问题进行求解。

        在jieba分词中,采用了HMM进行新词发现,它将每一个字表示为B/M/E/S分别代表出现在词头、词中、词尾以及单字成词。将B/M/E/S作为HMM的隐藏状态,而连续的各个单字作为观测状态,其任务即为利用观测状态预测隐藏状态,并且其模型的A,B,π概率已经给出在文件中,所以这是一个标准的解码问题。在jieba分词中采用了Viterbi算法来进行求解。

        Viterbi算法的基本思想是:如果最佳路径经过一个点,那么起始点到这个点的路径一定是最短路径,否则用起始点到这点更短的一条路径代替这段,就会得到更短的路径,这显然是矛盾的;从起始点到结束点的路径,必然要经过第n个时刻,假如第n个时刻有k个状态,那么最终路径一定经过起始点到时刻n中k个状态里最短路径的点。

        将时刻t隐藏状态为i所有可能的状态转移路径i1到i2的状态最大值记为

        下面我们继续以上一节中的例子来对viterbi算法进行阐述:

        小明不知道小红是哪里人,他只能通过小红每天的活动来推断那里的天气。

        假设连续三天,小红的活动依次为:“睡觉-打游戏-逛街”,我们将据此计算最有可能的天气情况。

        表示第一天为雨天能够使得第二天为晴天的概率最大(也就是说如果第二天是晴天在最短路径上的话,第一天是雨天也一定在最短路径上,参见上文中Viterbi算法的基本思想)

        此时已经到了最后的时刻,我们开始回溯。

        其计算过程示意图如下图所示。

        )的路径。

        TF-IDF(词频-逆文本频率)是一种用以评估字词在文档中重要程度的统计方法。它的核心思想是,如果某个词在一篇文章中出现的频率即TF高,并且在其他文档中出现的很少,则认为这个词有很好的类别区分能力。

        其中:

        TextRank是一种用以关键词提取的算法,因为是基于PageRank的,所以先介绍PageRank。

        PageRank通过互联网中的超链接关系确定一个网页的排名,其公式是通过一种投票的思想来设计的:如果我们计算网页A的PageRank值,那么我们需要知道哪些网页链接到A,即首先得到A的入链,然后通过入链给网页A进行投票来计算A的PR值。其公式为:

        其中:

        d为阻尼系数,取值范围为0-1,代表从一定点指向其他任意点的概率,一般取值0.。

        将上式多次迭代即可直到收敛即可得到结果。

        TextRank算法基于PageRank的思想,利用投票机制对文本中重要成分进行排序。如果两个词在一个固定大小的窗口内共同出现过,则认为两个词之间存在连线。

        公式与PageRank的基本相同。多次迭代直至收敛,即可得到结果。

在jieba分词中,TextRank设定的词窗口大小为5,将公式1迭代次的结果作为最终权重的结果,而不一定迭代至收敛。