[morogram-users] Welcome

Back to archive index

Takahito Yamada shuir****@akane*****
2003年 10月 20日 (月) 11:13:20 JST


もろさま、ども。山田です。

On Mon, 20 Oct 2003 00:18:37 +0900
Shigeki Moro <s-mor****@hanaz*****> wrote:

>>morogram の現状に不満のある方 (^_^;; は是非手をあげてほし
>>いな、と。

 先日も、守岡さんとウィッテルンさんと「師さんは偉大だ〜!」という話をし
ていました。返す刀で「道具は自分で作らんとだめ!」とも説教されましたが…

 どうも、世間的? な誤解として(というか自らの願望も含めて)、N-gramで
何でも出来る! 夢のツールだ! というのがあるみたいなので。

 結局N-gramって、テキストの切り分けの手段にしか過ぎないわけですよねえ。

 近藤みゆき先生がやられていたのが、N-gramの共起頻度の中から有為な用例を
フィルタリングして、個別の短歌を見てゆくという手法でした。

 私がやっているのは、N-gramのデータをクラスター分析にかけるという手法で
す。

 先日の京大の研究会で突っ込まれたのが、切り分けた手段をどう次のステップ
に持って行くかという部分でした。その時は、単純に千分率でデータを正規化し
たのですが、正規化の手段やノイズデータも含めてクラスター分析をするのでは
なく、間に何らかのフィルターを入れる必要があるのではないか? という点で
した。ここらへんって永遠に悩む点ですねえ。

 後は、手法の正当性を示すために、著作者が明らかとなっている複数の漢字文
献をN-gram+クラスター分析を実行して、その傾向を見てゆく、で、その次に不
明なのをやってみるという事です。

 ここで問題なのが、私がやろうとしている先秦文献では、作者が確定している
ものが無いと言う点、また漢代以降となると、儒家の経書を中心とした先行著作
の引用を中心として文章を組み立てるというスタイルの関係上、どれだけクラス
ターが分かれるのかが難しいという点があります。

 この辺は試行錯誤をくり返していくしかないかなあ、という気もします。単に
クラスターをかけるのではなくて、主成分分析や分散分析でおいしいところだけ
を見てゆくという事も考えられますからねえ。

>>ということで、よろしくお願いします。

 皆さんのお役に立てるかどうか解りませんが、こちらこそ宜しくお願いします。

それでは、失礼。 (^^)/~~

 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
 _/                       _/
 _/ 山田 崇仁(Takahito Yamada)       _/
 _/ tyv07****@lt*****         _/
 _/ http://www.ritsumei.ac.jp/kic/~tyv07679/  _/
 _/                       _/
 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/





morogram-users メーリングリストの案内
Back to archive index