Welcome (morogram-users) - morogram

もろさま、ども。山田です。

On Mon, 20 Oct 2003 00:18:37 +0900
Shigeki Moro <s-mor****@hanaz*****> wrote:

>>morogram の現状に不満のある方 (^_^;; は是非手をあげてほし
>>いな、と。

　先日も、守岡さんとウィッテルンさんと「師さんは偉大だ〜！」という話をし
ていました。返す刀で「道具は自分で作らんとだめ！」とも説教されましたが…

　どうも、世間的？　な誤解として（というか自らの願望も含めて）、N-gramで
何でも出来る！　夢のツールだ！　というのがあるみたいなので。

　結局N-gramって、テキストの切り分けの手段にしか過ぎないわけですよねえ。

　近藤みゆき先生がやられていたのが、N-gramの共起頻度の中から有為な用例を
フィルタリングして、個別の短歌を見てゆくという手法でした。

　私がやっているのは、N-gramのデータをクラスター分析にかけるという手法で
す。

　先日の京大の研究会で突っ込まれたのが、切り分けた手段をどう次のステップ
に持って行くかという部分でした。その時は、単純に千分率でデータを正規化し
たのですが、正規化の手段やノイズデータも含めてクラスター分析をするのでは
なく、間に何らかのフィルターを入れる必要があるのではないか？　という点で
した。ここらへんって永遠に悩む点ですねえ。

　後は、手法の正当性を示すために、著作者が明らかとなっている複数の漢字文
献をN-gram＋クラスター分析を実行して、その傾向を見てゆく、で、その次に不
明なのをやってみるという事です。

　ここで問題なのが、私がやろうとしている先秦文献では、作者が確定している
ものが無いと言う点、また漢代以降となると、儒家の経書を中心とした先行著作
の引用を中心として文章を組み立てるというスタイルの関係上、どれだけクラス
ターが分かれるのかが難しいという点があります。

　この辺は試行錯誤をくり返していくしかないかなあ、という気もします。単に
クラスターをかけるのではなくて、主成分分析や分散分析でおいしいところだけ
を見てゆくという事も考えられますからねえ。

>>ということで、よろしくお願いします。

　皆さんのお役に立てるかどうか解りませんが、こちらこそ宜しくお願いします。

それでは、失礼。　(^^)/~~

　_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
　_/　　　　　　　　　　　　　　　　　　　　　　　_/
　_/　山田　崇仁（Takahito　Yamada）　　　　　　　_/
　_/　tyv07****@lt*****　　　　　　　　　_/
　_/　http://www.ritsumei.ac.jp/kic/~tyv07679/　　_/
　_/　　　　　　　　　　　　　　　　　　　　　　　_/
　_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/

morogram

[morogram-users] Welcome