日本好好热aⅴ|国产99视频精品免费观看|日本成人aV在线|久热香蕉国产在线

  • <cite id="ikgdy"><table id="ikgdy"></table></cite>
    1. 西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴的軟件下載站!
      軟件
      軟件
      文章
      搜索

      首頁(yè)編程開發(fā)其它知識(shí) → 學(xué)習(xí)Python語(yǔ)言中文怎么輸出

      學(xué)習(xí)Python語(yǔ)言中文怎么輸出

      相關(guān)軟件相關(guān)文章發(fā)表評(píng)論 來源:西西整理時(shí)間:2014/8/17 11:17:07字體大。A-A+

      作者:西西點(diǎn)擊:844次評(píng)論:0次標(biāo)簽: Python

      《派森》(Python)3.13 win32 英文安裝版
      • 類型:編程工具大小:21M語(yǔ)言:英文 評(píng)分:8.7
      • 標(biāo)簽:
      立即下載

      Python中文是蟒蛇,Python是著名的“龜叔”Guido van Rossum在1989年圣誕節(jié)期間,為了打發(fā)無聊的圣誕節(jié)而編寫的一個(gè)編程語(yǔ)言。比如,完成同一個(gè)任務(wù),C語(yǔ)言要寫1000行代碼,Java只需要寫100行,而Python可能只要20行。
      我發(fā)表這個(gè)貼子是想讓更多人去認(rèn)識(shí)Python。Python語(yǔ)言很好上手,語(yǔ)句簡(jiǎn)單明了,不像C++  .  VB等語(yǔ)言復(fù)雜。Python語(yǔ)言涉及到很多方面,比如3D游戲等。
      如果想計(jì)算50+100的結(jié)果是多少,C語(yǔ)言和VB語(yǔ)言等一大串的代碼,而Python計(jì)算50+100的代碼只需要這樣“50+100”
       
      如果不信的話,大家可以用Python試一試這段代碼。

      輸出的代碼
      print 后加引號(hào)輸出的文字
      例:print '基德逗逗'  (Python是 不允許加中文的,如果加中文的話請(qǐng)看一下教程)
       
      出現(xiàn)錯(cuò)誤提示,怎么回事,接著往下看

      print語(yǔ)句后也可以跟上多個(gè)字符串,使用的方法是用逗號(hào)隔開
      例:print '你是男人', '不用謝'    (Python是 不允許加中文的,如果加中文的話請(qǐng)看一下教程)            
       
      出現(xiàn)錯(cuò)誤提示,怎么回事,接著往下看

      中文的加法在前面寫入代碼:
      # encoding: utf-8
      print '你是男人', '不用謝'

      修改了代碼之后,還是錯(cuò)誤,最會(huì)得知原來標(biāo)點(diǎn)符號(hào)錯(cuò)了,'打成了‘
      這次代碼對(duì)了,很興奮,大概就是寫代碼的樂趣吧!
       

      使用nltk來處理中文資料

      nltk 怎么樣使用中文?這是個(gè)大問題。這么個(gè)工具目前只能比較好的處理英文和其他的一些拉丁語(yǔ)系,誰讓別人的單詞與單詞之間有個(gè)空格隔開呢!中文漢字一個(gè)挨一個(gè)的,nltk在分詞這一關(guān)就過不去了,分詞沒法分,剩下的就都做不了。唯一能做的, 就是對(duì)網(wǎng)上現(xiàn)有的中文語(yǔ)料進(jìn)行處理,這些語(yǔ)料都分好了詞,可以使用nltk進(jìn)行類似與英文的處理。

      python處理中文首先需要設(shè)置一下文本的編碼, 文件的首行加上: #coding utf-8 這個(gè)是給python解釋器識(shí)別的,然后文件保存的時(shí)候,還需要保存為utf-8的編碼。

      這些編碼設(shè)置完了, ntlk還是處理不了中文。

      nltk處理中文的第一步障礙就是中文資料不是分好詞的, 詞語(yǔ)與詞語(yǔ)之間沒有空格。要使用nltk對(duì)中文進(jìn)行處理, 首先的第一步就是中文分詞(臺(tái)灣叫中文斷詞)。

      目前python中文分詞的包,我推薦使用結(jié)巴分詞。 使用結(jié)巴分詞,之后,就可以對(duì)輸出文本使用nltk進(jìn)行相關(guān)處理。

      當(dāng)然中文分詞, 不應(yīng)該成為使用nltk的障礙,或許很多人認(rèn)為,既然用nltk,那么nltk就應(yīng)該支持中文。但是我們得認(rèn)清現(xiàn)實(shí),現(xiàn)實(shí)就是nltk就是不支持處理中文,因此,這個(gè)給國(guó)內(nèi)很多自然語(yǔ)言處理的研究人員有了研究的空間了,nltk既然沒做中文分詞,那么中國(guó)人就應(yīng)該自己做了這個(gè)。一個(gè)口碑比較好的中文分詞工具就是ICTCLAS中文分詞。

      當(dāng)然,我個(gè)人覺得中國(guó)人自己開發(fā)的純python實(shí)現(xiàn)的結(jié)巴分詞也不錯(cuò)。

      總的來說,nltk不提供中文分詞,不應(yīng)該糾結(jié)于此,并止步不前,我們完全可以使用其他的中文分詞工具,將需要處理的資料分好詞,然后再使用nltk進(jìn)行處理,因此,這里就不多說中文分詞的那點(diǎn)事了。如果你因?yàn)橹形姆衷~而分心,并轉(zhuǎn)向到中文分詞的研究之中,那么你就掉入了另外一個(gè)深坑之中。牢記本文的主題是nltk。當(dāng)然需要多啰嗦一點(diǎn)的就是,nltk的默認(rèn)詞性標(biāo)注集使用的是Penn Treebank 的詞性標(biāo)注集,因此,你選用中文分詞模塊的時(shí)候,最好能夠使用和penn詞性標(biāo)注集差不多的中文分詞工具,當(dāng)然,不一樣也沒事。

        相關(guān)評(píng)論

        閱讀本文后您有什么感想? 已有人給出評(píng)價(jià)!

        • 8 喜歡喜歡
        • 3 頂
        • 1 難過難過
        • 5 囧
        • 3 圍觀圍觀
        • 2 無聊無聊

        熱門評(píng)論

        最新評(píng)論

        發(fā)表評(píng)論 查看所有評(píng)論(0)

        昵稱:
        表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
        字?jǐn)?shù): 0/500 (您的評(píng)論需要經(jīng)過審核才能顯示)