【网校建站源码】【delphi考勤源码】【读秀源码】新词发现源码

【网校建站源码】【delphi考勤源码】【读秀源码】新词发现源码_新词发现算法ngram

时间:2024-11-25 01:00:56 来源：glide源码全

1.jiebaåè¯è¯¦è§£
2.jieba源码解析（一）——中文分词

新词发现源码_新词发现算法ngram

jiebaåè¯è¯¦è§£

âç»å·´âåè¯æ¯ä¸ä¸ªPython ä¸æåè¯ç»ä»¶ï¼åè§ /fxsjy/jieba

æ¬æåæ¬ä»¥ä¸åå®¹ï¼

1ãjiebaåè¯åçå®è£

2ãjiebaåè¯çä½¿ç¨æç¨

3ãjiebaåè¯çå·¥ä½åçä¸å·¥ä½æµç¨

4ãjiebaåè¯ææ¶åå°çHMMãTextRankãTF-IDFçç®æ³ä»ç»

å¯ä»¥ç´æ¥ä½¿ç¨pipæ¥è¿è¡å®è£ï¼

sudo pip install jieba

æè

sudo pip3 install jieba

å³é®è¯æ½åæä¸¤ç§ç®æ³ï¼åºäºTF-IDFååºäºTextRankï¼

å¯¹åºçï¼å½æ°åå lå³æ¯å¯¹åºå¾å°listç»æçå½æ°ï¼

å·ä½ä½¿ç¨æ¹æ³ä¸ºï¼

å³é®è¯æ½åçä¸¤ä¸ªå½æ°çå®æ´åæ°ä¸ºï¼

å¯ä»¥éè¿

æ¥æå¼æå³éå¹¶è¡åè¯åè½ã

jiebaåè¯åæ´ä½çå·¥ä½æµç¨å¦ä¸å¾æç¤ºï¼

ä¸é¢å°æ ¹æ®æºç è¯¦ç»å°åæåä¸ªæ¨¡åçå·¥ä½æµç¨ã

è¯å¸çæ ¼å¼åºä¸º

word1 freq1 word_type1

word2 freq2 word_type2

â¦

å¶ä¸èªå®ä¹ç¨æ·è¯å¸ä¸è¯æ§word_typeå¯ä»¥çç¥ã

å¨jiebaåè¯ä¸ï¼å°åå¨è¯ä¸çä½ç½®BãMãEãSä½ä¸ºéèç¶æï¼åæ¯è§æµç¶æï¼ä½¿ç¨äºè¯å¸æä»¶åå«åå¨åä¹é´çè¡¨ç°æ¦çç©éµï¼finalseg/prob_emit.pyï¼ãåå§æ¦çåé(finalseg/prob_start.py)åè½¬ç§»æ¦çç©éµ(finalseg/prob_trans.py)ãè¿å°±æ¯ä¸ä¸ªæ åçè§£ç é®é¢ï¼æ ¹æ®æ¦çåå©ç¨viterbiç®æ³å¯¹æå¤§å¯è½çéèç¶æè¿è¡æ±è§£ã

å·ä½çå·¥ä½æµç¨å¦ä¸å¾æç¤ºã

å¶ä¸ï¼SãOåå«è¡¨ç¤ºç¶æåºåä¸è§æµåºåã

ä¸é¢ä»¥ä¸ä¸ªç®åçä¾åæ¥è¿è¡éè¿°ï¼

å¶ä¸

HMMä¸è¬ç±ä¸ç±»é®é¢ï¼

æ¤æ¶å·²ç»å°äºæåçæ¶å»ï¼æä»¬å¼å§åæº¯ã

å¶è®¡ç®è¿ç¨ç¤ºæå¾å¦ä¸å¾æç¤ºã

ï¼çè·¯å¾ã

å¶ä¸ï¼

å¶ä¸ï¼

å°ä¸å¼å¤æ¬¡è¿ä»£å³å¯ç´å°æ¶æå³å¯å¾å°ç»æã

jieba源码解析（一）——中文分词

全模式解析：

全模式下的中文分词通过构建字典树和DAG实现。首先加载字典，发现发现字典树中记录词频，源码例如词"不拘一格"在字典树中表示为{ "不" : 0,算法 "不拘" : 0, "不拘一" : 0, "不拘一格" : freq}。接着构造DAG，新词新词表示连续词段的发现发现网校建站源码起始位置。例如句子'我来到北京清华大学'，源码分词过程如下：

1. '我'：字典树中key=0，算法尝试'我来'，新词新词不在字典，发现发现结束位置0寻找可能的源码分词，DAG为 { 0:[0]}。算法

2. '来'：字典树中key=1，新词新词delphi考勤源码尝试'来到'，发现发现在字典，源码继续尝试'来到北'，不在字典，结束位置1寻找可能的分词，DAG为 { 0:[0],读秀源码 1:[1]}。

3. '到'：字典树中key=2，尝试'来到北'，不在字典，结束位置2寻找可能的分词，DAG为 { 0:[0], 1:[1], 2:[2]}。

4. 以此类推，锄大地源码最终形成所有可能分词结果：我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学。

全模式的关键代码涉及字典树和DAG的构建与使用。

精确模式与HMM模式解析：

精确模式与HMM模式对句子'我来到北京清华大学'的分词结果分别为：

精确模式：'我'/'来到'/'北京'/'清华大学'

HMM模式：'我'/'来到'/'了'/'北京'/'清华大学'

HMM模式解决了发现新词的问题。解析过程分为三个步骤：

1. 生成所有可能的分词。

2. 生成每个key认为最好的分词。