Takahito Yamada
shuir****@akane*****
2003年 10月 20日 (月) 11:13:20 JST
もろさま、ども。山田です。 On Mon, 20 Oct 2003 00:18:37 +0900 Shigeki Moro <s-mor****@hanaz*****> wrote: >>morogram の現状に不満のある方 (^_^;; は是非手をあげてほし >>いな、と。 先日も、守岡さんとウィッテルンさんと「師さんは偉大だ〜!」という話をし ていました。返す刀で「道具は自分で作らんとだめ!」とも説教されましたが… どうも、世間的? な誤解として(というか自らの願望も含めて)、N-gramで 何でも出来る! 夢のツールだ! というのがあるみたいなので。 結局N-gramって、テキストの切り分けの手段にしか過ぎないわけですよねえ。 近藤みゆき先生がやられていたのが、N-gramの共起頻度の中から有為な用例を フィルタリングして、個別の短歌を見てゆくという手法でした。 私がやっているのは、N-gramのデータをクラスター分析にかけるという手法で す。 先日の京大の研究会で突っ込まれたのが、切り分けた手段をどう次のステップ に持って行くかという部分でした。その時は、単純に千分率でデータを正規化し たのですが、正規化の手段やノイズデータも含めてクラスター分析をするのでは なく、間に何らかのフィルターを入れる必要があるのではないか? という点で した。ここらへんって永遠に悩む点ですねえ。 後は、手法の正当性を示すために、著作者が明らかとなっている複数の漢字文 献をN-gram+クラスター分析を実行して、その傾向を見てゆく、で、その次に不 明なのをやってみるという事です。 ここで問題なのが、私がやろうとしている先秦文献では、作者が確定している ものが無いと言う点、また漢代以降となると、儒家の経書を中心とした先行著作 の引用を中心として文章を組み立てるというスタイルの関係上、どれだけクラス ターが分かれるのかが難しいという点があります。 この辺は試行錯誤をくり返していくしかないかなあ、という気もします。単に クラスターをかけるのではなくて、主成分分析や分散分析でおいしいところだけ を見てゆくという事も考えられますからねえ。 >>ということで、よろしくお願いします。 皆さんのお役に立てるかどうか解りませんが、こちらこそ宜しくお願いします。 それでは、失礼。 (^^)/~~ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ _/ _/ _/ 山田 崇仁(Takahito Yamada) _/ _/ tyv07****@lt***** _/ _/ http://www.ritsumei.ac.jp/kic/~tyv07679/ _/ _/ _/ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/