Yoichiro AKIYAMA
akiya****@karit*****
2003年 10月 22日 (水) 20:27:13 JST
もろさま、山田さま、こんにちは。秋山です。 > 返す刀で「道具は自分で作らんとだめ!」とも説教されましたが… これは僕としても耳が痛いですね。(^ ^;ゞ これから少しずつ努力していくようにします。 という訳で、手始めにこのMLに参加させていただくことにしました。 どうぞ、お手柔らかによろしくお願いします。 > 千分率ですか。イメージが湧かないのであとで教えてください。私は同 > じ長さのベクトルとして正規化しました。これは、キーワードを使うや > つですが、先行研究があったので。 ご承知のように先秦古文献は『荀子』でも『韓非子』でも、通常、 複数の人物の著作の寄せ集めとされているため、篇単位での断代が 不可欠なんですが、一篇あたりの総字数がまちまちなため、出てきた 篇ごとの頻度データをそのまま比較する訳にはいきません。そこで、 個別の語句の甲篇内での使用頻度 ――――――――――――――― × 1000 = 1000字あたりの使用頻度 甲篇の総字数 という風に1000字あたりの使用頻度を出してから比較しています。 例えば.. ┌───────────┬────────┬────────┐ │ │『戦国策』秦策三│『戦国策』楚策三│ ├───────────┼────────┼────────┤ │篇内総字数 │ 6108│ 1668│ ├───────────┼────────┼────────┤ │「也」字の述べ使用回数│ 127│ 48│ ├───────────┼────────┼────────┤ │1000字あたりの使用頻度│ 20.792│ 28.777│ └───────────┴────────┴────────┘ といった感じでしょうか。(適宜、説明を補正して下さい。>山田さん) 計算式自体は単純なので、Excelなどから手動で出してますが、個人的 にこれを morogram のオプションとして実装できたら幸せなのですが、 いかがでしょうか?(^ ^;ゞ > 正規化の手段やノイズデータも含めてクラスター分析をするのではなく、 > 間に何らかのフィルターを入れる必要があるのではないか? という点 > でした。ここらへんって永遠に悩む点ですねえ。 「篇単位」と言ったばかりでそれを覆すのも何ですが、説話なら篇の 中の個別の章単位で作者が異なりますし、『論語』や『老子』に至って は文単位で違うケースもありますからね。変なフィルターをかけてし まうと、かえって故人のパーソナリティを葬り去ってしまったり、分析 結果に自分のパーソナリティが出現してしまったりしますから確かに 難しいところですね。(^ ^;) こういうデリケートなところが先秦文献の魅力なのかも知れませんけど。 > ┏━┓ ┏━┓ ┏━┓ > ┃秋┃┏━┓┃陽┃┏━┓┃郎┃ > ┗━┛┃山┃┗━┛┃一┃┗━┛ > ┗━┛ ┗━┛ akiya****@karit***** http://www.karitsu.org