[morogram-users] Fw: N-gramツール(morogram-0.7.1.exe)に関しての要望

Back to archive index

dune FZH01****@nifty*****
2009年 5月 11日 (月) 19:36:13 JST


dune <FZH01****@nifty*****>さんのメッセージを転送します。

アブドハリリさん、こんにちは。
共起頻度の数え方はどうすれば良いでしょうか?

[men uyghur bolimen]を分析する場合、
N-gram分析は (1) [men][uyghur][bolimen]それぞれに対して独立に行いま
すか? それとも (2) [men uyghur bolimen]に対して分析を行い、結果を
[men][uyghur][bolimen]に分けますか?

(1) の場合は
>[men]
>1       men     3
>1       en      2
>1       me      2
>1       e       1
>1       m       1
>1       n       1
>[uyghur]
>1       uyghur  6
>1       uyghu   5
>1       yghur   5
>1       ghur    4
>1       uygh    4
>1       yghu    4
>1       ghu     3
>1       hur     3
>1       uyg     3
>1       ygh     3
>1       gh      2
>1       hu      2
>1       ur      2
>1       uy      2
>1       yg      2
>1       g       1
>1       h       1
>1       r       1
>2       u       1
>1       y       1
>[bolimen]
>1       bolimen 7
>1       bolime  6
>1       olimen  6
>1       bolim   5
>1       limen   5
>1       olime   5
>1       boli    4
>1       imen    4
>1       lime    4
>1       olim    4
>1       bol     3
>1       ime     3
>1       lim     3
>1       men     3
>1       oli     3
>1       bo      2
>1       en      2
>1       im      2
>1       li      2
>1       me      2
>1       ol      2
>1       b       1
>1       e       1
>1       i       1
>1       l       1
>1       m       1
>1       n       1
>1       o       1
という結果になります。

(2)の場合は
>1       bolimen 7
>1       bolime  6
>1       olimen  6
>1       uyghur  6
>1       bolim   5
>1       limen   5
>1       olime   5
>1       uyghu   5
>1       yghur   5
>1       boli    4
>1       ghur    4
>1       imen    4
>1       lime    4
>1       olim    4
>1       uygh    4
>1       yghu    4
>1       bol     3
>1       ghu     3
>1       hur     3
>1       ime     3
>1       lim     3
>2       men     3
>1       oli     3
>1       uyg     3
>1       ygh     3
>1       bo      2
>2       en      2
>1       gh      2
>1       hu      2
>1       im      2
>1       li      2
>2       me      2
>1       ol      2
>1       ur      2
>1       uy      2
>1       yg      2
>1       b       1
>2       e       1
>1       g       1
>1       h       1
>1       i       1
>1       l       1
>2       m       1
>2       n       1
>1       o       1
>1       r       1
>2       u       1
>1       y       1
となります。

(1)は、内容が[men][uyghur][bolimen]という三つのファイルを分析した結
果です。一つの文章の中にmenという単語が出てくる度にN-gram分析するの
か。それよりは文章ではなく、単語集や辞書の見出しを分析したほうが効率
的?

(2)は、ファイルsample.txt の中身を[men-uyghur-bolimen]としてmorogram
で分析し、結果から-を含む部分を削除したものです。コマンドラインでは
以下のようにします。

morogram-0.7.1yCJKT.exe --f=1 --g=1 sample.txt | find /V "-"

結果は文章内の単語の並びと頻度両方に依存しているにも関わらず、単語の
並びを無視しています(頻度には依存している)。
-- 
安田敏博 FZH01****@nifty*****
http://www.jognote.com/?id=n%B3%C8%8F%FD_%E1%88
http://mixi.jp/show_friend.pl?id=19931031
http://hpcgi1.nifty.com/dune/gwiki.pl




morogram-users メーリングリストの案内
Back to archive index