From studioarc @ gmail.com Tue Jan 5 01:23:40 2010
From: studioarc @ gmail.com (Atsushi YAMADA)
Date: Tue, 05 Jan 2010 01:23:40 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?GyRCIVobKEJHYWxhdGVhVGFsaw==?=
=?iso-2022-jp?b?GyRCIVsjWiRORkkkXyQsSlEhKRsoQg==?=
In-Reply-To: <4B3C69B5.8080303@petile.com>
References: <4B3C69B5.8080303@petile.com>
Message-ID: <4B42160C.4070907@gmail.com>
山田です。
半角・大文字「Z」がPRONタグに置き換わるのが
なぜかはよくわからないのですが,それ以外は,
UniDicの出力に起因するもののようです。
UniDicの解析結果がそれぞれ,
z
z
Z
Z
z
z
Z
Z
のようになっており,デフォルトで先頭のものが
選ばれるとご指摘のような結果になります。
国語研の人に聞いてみないとわかりませんが,
「ゼッド」の代表形が「ゼット」になっています
ので,これは誤りではなく,実際にコーパスにこ
のような例があったのではないかと思われます。
解決方法としては,本来ならば,語形選択ルーチ
ンが存在して,適切な発音形を選択すべきなので
すが,少なくともゼッドのような特殊なものが先
頭にこないようにできないか,UniDicプロジェク
トに打診してみます。
(2009/12/31 18:07), マーチン wrote:
> マーチンです。
>
> Zの読み上げ方が変です。
>
> 半角・小文字「z」は、「ゼット」ではなく「ゼッド」と読み上げる。
> 全角・小文字「z」は、「ゼット」ではなく「ゼッド」と読み上げる。
> 半角・大文字「Z」は、Zに置き換えられ、
> 「ゼット」と読み上げる。
> 全角・大文字「Z」は、読んでくれない。
> * Unknown KANA ... ズィ と表示される
>
> galatea4win-istc-2009-02.zip
> + chaone-win-1.3.2-091201.zip
> + DATE: NO TIME: NO
> + unidic-chasen1312_sjis
> で確認しています。
>
> _______________________________________________
> Galatea-users mailing list
> Galatea-users @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/galatea-users
>
From studioarc @ gmail.com Tue Jan 5 01:28:32 2010
From: studioarc @ gmail.com (Atsushi YAMADA)
Date: Tue, 05 Jan 2010 01:28:32 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?GyRCIVobKEJHYWxhdGVhVGFsaw==?=
=?iso-2022-jp?b?GyRCIVslPyUwJE5DZkwjJCw2dSROO34kSyEiGyhCZ3RhbGs=?=
=?iso-2022-jp?b?GyRCJCxNbiRBJGsbKEI=?=
In-Reply-To: <4B3C6A10.4050200@petile.com>
References: <4B3C6A10.4050200@petile.com>
Message-ID: <4B421730.2090704@gmail.com>
山田です。
> 「19577:gtalkでタグを正しく閉じていないと落ちる」
はXMLとして正しくないことが原因だったのに
対し,これは,gtalk内部のタグの処理の不具
合のようです。ソースの修正が必要だと思い
ます。
(2009/12/31 18:08), マーチン wrote:
> マーチンです。
>
> タグの正しい使い方ではないのですが、タグの中味が空の時に、gtalkが
> 落ちます。
>
> set Text = 私は、行きます。
> set Text = あいうえお
> <-- ここで落ちます
>
> 他には、
> VOLUME
> RATE
> PITCH
> VOICE
> タグでも同じ現象が起きます。
>
> 「19577:gtalkでタグを正しく閉じていないと落ちる」
> とちがって、loadXML error (error code 0) は表示されません。
>
> galatea4win-istc-2009-02.zip
> + chaone-win-1.3.2-091201.zip
> + DATE: NO TIME: NO
> + unidic-chasen1312_sjis
> で確認しています。
>
> _______________________________________________
> Galatea-users mailing list
> Galatea-users @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/galatea-users
>
From studioarc @ gmail.com Tue Jan 5 01:41:36 2010
From: studioarc @ gmail.com (Atsushi YAMADA)
Date: Tue, 05 Jan 2010 01:41:36 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?GyRCIVobKEJHYWxhdGVhVGFsaw==?=
=?iso-2022-jp?b?GyRCIVsbKEJQUk9OIBskQiRORmJNRiQsNS05ZiROPmw5ZyRLISIbKEI=?=
=?iso-2022-jp?b?GyRCQDUkNyQvRkkkXz5lJDIkSiQkGyhC?=
In-Reply-To: <4B3C6A83.8020908@petile.com>
References: <4B3C6A83.8020908@petile.com>
Message-ID: <4B421A40.2080604@gmail.com>
山田です。
これはアクセント処理との関係で起こっています。
以前に,「gtalkが受け付けるテキスト解析結果」
というタイトルで分析結果をお送りしましたが,
その中にAPのsilence属性 (NON, PAU, SILE) と
いうのがありました。そして,この属性値は,
'補助記号-読点','補助記号-括弧開','補助記
号-括弧閉'のときにPAU,'補助記号-句点'のとき
にSILEをとることになっています。これはChaOne
のaccent.xslの中でハードコーディングされてい
ます。
そして,gtalkはsilence属性の値がPAUないしSILE
のAPは読まずに無音区間を作るという仕様になっ
ているため,このようなことが起こります。
PRONタグがついている場合に品詞を無視するよう
にすれば,silence属性がPAUにならずにすむよう
に思いますが,他に副作用があるかもしれません。
(2009/12/31 18:10), マーチン wrote:
> マーチンです。
>
> ( を PRONタグを使って読ませようとすると、正しく読み上げないという
> 現象がありました。
>
> (abc ・・・ ×何も読み上げない。
> (但し ・・・ ×「但し」
> で(但し ・・・ ×「で 但し」
> あ(但し ・・・ ○「あ カッコ 但し」
> (あabc ・・・ ○「カッコ abc」
>
> 他にも、( の代わりに、! " { } [ ] の場合に同じような事がおきました。
>
> galatea4win-istc-2009-02.zip
> + chaone-win-1.3.2-091201.zip
> + DATE: NO TIME: NO
> + unidic-chasen1312_sjis
> で確認しています。
>
> _______________________________________________
> Galatea-users mailing list
> Galatea-users @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/galatea-users
>
From studioarc @ gmail.com Tue Jan 5 01:47:07 2010
From: studioarc @ gmail.com (Atsushi YAMADA)
Date: Tue, 05 Jan 2010 01:47:07 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?GyRCIVobKEJHYWxhdGVhVGFsaw==?=
=?iso-2022-jp?b?GyRCIVsbKEJQUk9OIBskQiRORkkkXyROQ2YkS0g+M1ElOSVaITwbKEI=?=
=?iso-2022-jp?b?GyRCJTkkLEZ+JEMkRiQkJGskSBsoQmd0YWxrGyRCJCxNbiRBJGsbKEI=?=
In-Reply-To: <4B3C6AE6.3080606@petile.com>
References: <4B3C6AE6.3080606@petile.com>
Message-ID: <4B421B8B.7060009@gmail.com>
山田です。
これはgtalk内のPRONタグの処理の問題ですが,
gtalkに手を加えずに解決する方法として,
gtalkに渡す前にChaOneで,PRONのSYM属性の
値からカタカナ以外の文字を落としてしまう
という方法が考えられます。
これをすべきでしょうか。
(2009/12/31 18:12), マーチン wrote:
> マーチンです。
>
> これも、タグの正しい使い方ではないのですが、PRON の読みの中に
> 半角スペースが入っていると、すぐにgtalkが落ちます。
>
> √
> √
>
> galatea4win-istc-2009-02.zip
> + chaone-win-1.3.2-091201.zip
> + DATE: NO TIME: NO
> + unidic-chasen1312_sjis
> で確認しています。
>
> _______________________________________________
> Galatea-users mailing list
> Galatea-users @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/galatea-users
>
From studioarc @ gmail.com Tue Jan 5 02:03:05 2010
From: studioarc @ gmail.com (Atsushi YAMADA)
Date: Tue, 05 Jan 2010 02:03:05 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?GyRCIVobKEJHYWxhdGVhVGFsaw==?=
=?iso-2022-jp?b?GyRCIVsbKEJQUk9OIBskQiRHRkkkYSRKJCRZOTI7JCwkIiRrGyhC?=
In-Reply-To: <4B3C6C00.30103@petile.com>
References: <4B3C6C00.30103@petile.com>
Message-ID: <4B421F49.8020500@gmail.com>
山田です。
gtalkで読み上げることができる発音表記は
pronunciation_sjis/eucjp.h
に一覧があります。これを見ると「ヮ」は
ありませんが,ァィゥェォはあります。た
だし,「クァ」のような表記になるとどう
もだめのようですね。
これを子音+母音で表そうとすると,新たな
音素モデルが必要になります。
本質的な解決方法ではありませんが,「ク
ア」のように子音+母音+母音でよければ,
前処理で,クァ->クアのような変換をして
やれば,一応読み上げることはできると思
います。
これも,そのような方法をとるべきかどう
かですね。
(2009/12/31 18:16), マーチン wrote:
> マーチンです。
>
> 拗音のァィゥェォヮを含む文字を、PRONタグで指定すると、
> 読み上げない組み合わせがあります。
>
> バグではなく要望でしょうけど。。。。
>
> quiet
> quick
> ‘
> sweet
> 搨菜
>
> Unknown KANA ... クァ
> Unknown KANA ... クィ
> Unknown KANA ... クォ
> Unknown KANA ... スィ
> Unknown KANA ... タァ
> のように表示されます。
>
> もちろん、以下のように指定すれば読み上げます。
> クワイエット クイック バッククオート スイート タアサイ
> どれも、日本語では使わない表現かもしれませんが、外来語では使う場合
> もあります。
>
> galatea4win-istc-2009-02.zip
> + chaone-win-1.3.2-091201.zip
> + DATE: NO TIME: NO
> + unidic-chasen1312_sjis
> で確認しています。
>
> _______________________________________________
> Galatea-users mailing list
> Galatea-users @ lists.sourceforge.jp
> http://lists.sourceforge.jp/mailman/listinfo/galatea-users
>
From nishimotz @ gmail.com Thu Jan 14 12:53:20 2010
From: nishimotz @ gmail.com (Takuya Nishimoto)
Date: Thu, 14 Jan 2010 12:53:20 +0900
Subject: [Galatea-users] =?iso-2022-jp?b?T3Blbi1KVGFsaxskQiRIRXZMTCROGyhC?=
=?iso-2022-jp?b?GyRCM2hGMBsoQg==?=
Message-ID: <7a8ca8f21001131953n48478004r383f0ddb24979126@mail.gmail.com>
西本です。
昨年末にリリースされた新しいオープンソースTTSを評価中です。
http://ja.nishimotz.com/open-jtalk
リリースされたばかりの最初のバージョンでもあり、
いろいろ GalateaTalk と違う部分があります。
バッチ処理を前提としたエンジンで API が整備されていない、
オーディオデバイスの制御を含んでいない、
話者モデルが1つしかない、
JEITA のマークアップに対応していない、
などなど。。
Windows で動くかどうか、これもやってみないと分かりません。
まず cygwin か mingw でコンパイルがとおるかどうか、
これから試すつもりです。
簡単に GalateaTalk から Open-JTalk に乗り換えられる状況ではないのですが、
Galatea プロジェクトは、特定のエンジンに依存しない、という建前です。
Galatea の SSM を Open-JTalk で置き換えるラッパースクリプトは書けそうです。
私が実装している部分についても、
GalateaTalk に依存する処理と、そうでない部分を、
もっとうまく分離できるように、整理を進めたいと考えています。
ついでに、最近考えていることをいくつか書いてみます:
(1)
私が Galatea Dialog Studio の実装において Ruby 言語を使っている箇所が
いくつかあるのですが、よりメジャーな言語だと思われる Python も
積極的に使っていこうと思っています。
(Ubuntu はシステムで Python を使っていますが Ruby はオプション)
また、VoiceXML によるアプリケーション開発例の執筆も、
Ruby on Rails ですすめてきたのですが、
並行して Python や PHP も検討しているところです。
PHP については、立命館大学の方がアプリケーションの開発に取り組んでおられて、
いろいろ貴重なご意見をいただいています。
(2)
Google の Chrome OS などが話題になっていますが、
Galatea 技術を動かすデバイスのイメージとして、
音声対話に特化した Galatea OS のようなものを考えています。
昨年夏の ISTC 講習会で Ubuntu の独自カスタマイズを紹介しましたが、
そういう方向性が気になっているからです。
そして最近「Android で動きますか?」という声がかかりました。。
(3)
私宛に個別に問い合わせや要望をいただくことも多いのですが、
差し支えのない範囲で、MLの場を使っていただけると嬉しいです。
特定の要望にどの程度の方が賛同されているのか、といった情報もお聞きしたいです。
(といっても現時点でこのMLのメンバーは10人です。。)
今後は sourceforge のメンバー募集などの機能も積極的に使っていきたいと思います。
バグ報告等についても、皆様にチケットの登録までお手伝いいただけると助かります。
すでにリリースやレビューを使うと Twitter に情報が流れていますが、
これはプロジェクトの設定と無関係に勝手に行われているようです。。
プロジェクトのライセンスと整合できる範囲で、扱うツールも増やしていければと思います。
リリースをお手伝いいただけるという方や、
git や mercurial のリポジトリを利用されたい方もお気軽にお知らせください。
ユーザとして使っていただくだけでなく、中身をいじりたい、という方を
お手伝いすることが必要だと認識しています。
今後ともよろしくお願いします。
--
Takuya Nishimoto
nishi @ hil.t.u-tokyo.ac.jp