青島網(wǎng)站優(yōu)化
    網(wǎng)站首頁公告信息項(xiàng)目報(bào)價(jià)網(wǎng)站優(yōu)化網(wǎng)站制作網(wǎng)絡(luò)營(yíng)銷經(jīng)典案例空間域名VI設(shè)計(jì)實(shí)用文章聯(lián)系我們
您的位置:網(wǎng)站首頁 > 網(wǎng)站優(yōu)化 > SEO基礎(chǔ)
SEO基礎(chǔ)
搜索引擎之中文分詞分析
作者: 日期:2010-4-28 21:43:14 人氣: 標(biāo)簽:

有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。

  1、歧義識(shí)別

  歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語就可以分成“表面的”和“表面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實(shí)就是因?yàn)榻徊嫫缌x引起的錯(cuò)誤。“化妝和服裝”可以分成“化妝和服裝”或者“化妝和服裝”。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。

  交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?

  如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。

  2、新詞識(shí)別

  新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?

  新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。

  中文分詞的應(yīng)用

  目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。因?yàn)橹形男枰衷~,可能會(huì)影響一些研究,但同時(shí)也為一些企業(yè)帶來機(jī)會(huì),因?yàn)閲?guó)外的計(jì)算機(jī)處理技術(shù)要想進(jìn)入中國(guó)市場(chǎng),首先也是要解決中文分詞問題。在中文研究方面,相比外國(guó)人來說,中國(guó)人有十分明顯的優(yōu)勢(shì)。

  分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。

上一篇:網(wǎng)站搜索引擎優(yōu)化分析
下一篇:門戶網(wǎng)站的搜索引擎優(yōu)化策略
共有條評(píng)論信息評(píng)論信息
欄目分類
版權(quán)所有:青島網(wǎng)站優(yōu)化|青島網(wǎng)站推廣|青島網(wǎng)絡(luò)營(yíng)銷|青島SEO|鑫宇科技 Powered By 青島鑫宇網(wǎng)絡(luò)科技有限公司
主站蜘蛛池模板: 富二代app免费下载安装ios二维码| 国产黑丝袜在线| 最近2018免费中文字幕视频 | 污网站在线免费看| 国产在视频线精品视频| chinese乱子伦xxxx视频播放| 日韩精品无码一区二区视频| 十九岁日本电影免费完整版观看 | 中文字幕理伦午夜福利片| 欧美日产国产亚洲综合图区一| 国产va免费精品高清在线观看 | 亚洲精品第五页中文字幕| 精品久久久无码中文字幕| 国产三级av在线播放| 2022国产成人福利精品视频| 成年午夜视频免费观看视频| 亚洲国产欧美日韩精品小说| 美女胸又www又黄网站| 国产真实乱子伦精品| sqy2wc厕所撒尿| 日本阿v视频在线观看高清 | 欧美另类xxx| 国产精品无码无在线观看| 久久久青草青青亚洲国产免观 | 99久久国产亚洲综合精品| 女同午夜三级在线观看| 久久精品亚洲日本波多野结衣| 老妇高潮潮喷到猛进猛出| 国产午夜福利精品一区二区三区 | 最近最好的中文字幕2019免费| 亚洲国产成人久久综合区| 秋霞免费一级毛片| 国产在线观看91精品不卡| 91制片厂在线播放| 成年丰满熟妇午夜免费视频| 久久久国产乱子伦精品| 日韩亚洲av无码一区二区三区| 亚洲校园春色另类激情| 精品国产一区二区三区无码| 国产熟睡乱子伦午夜视频| 99精品偷自拍|