長単位情報付きCabochaファイルのインポート

Cabocha形式に長単位情報を付加した形式で、https://github.com/masayu-a/UD_Japanese-GSDPUD-CaboCha にて定義されています。

具体的には、従来の"Mecab|Cabocha|UniDic2"形式に下記の拡張を施したものになります。

  • 形態素行(Mecabの出力)について、タブ区切りの3,4,5番目のフィールドを追加しています。
    • 1列目: 出現形: Mecabと同じです。
    • 2列目: カンマ区切りの短単位形態論情報: Mecab|UniDic2と同じです。
    • 3列目: 長単位書字形出現形: 本形式で追加されたフィールドです。
    • 4列目: カンマ区切りの長単位形態論情報: 本形式で追加されたフィールドです。
    • 5列目: 文節境界情報: 本形式で追加されたフィールドです。

ChaKi.NETでは、CreateCorpusツールでインポートするときに"Mecab|Cabocha|UniDic2|LUW"形式を選択するとこの形式が 認識され、短単位でアノテーションされたドキュメントがProject 0に、長単位でアノテーションされたドキュメントがProject 1に それぞれ自動インポートされます。

内部処理は2フェーズとなり、

  • フェーズ1では通常のMecab|Cabocha|UniDic2インポートを行い(3-5列目は無視されます)、短単位のドキュメントをProject=0として 生成します。
  • フェーズ2では、上記形式のファイルから長単位のCabochaファイルを一時的に生成し、今度はProject=1として追加読み込みを行います。

結果として、一つのドキュメントの2つのバージョン(短単位・長単位)が異なるProjectとしてDB内に出来上がります。

エクスポートする場合は、Project0, 1をそれぞれ選択して別のファイルにエクスポートしてください。