以下のワークフローに従って変換を行います。

XML ダンプの取得

各 Wiki サイトが公開している XML ダンプをダウンロードするか、WikixWikiteam 等のツールを使用して取得します。

Wikimedia 財団は運営している Wiki の XML ダンプを公開しており、下記のリンクからダウンロード可能です。他言語のファイルはリンクの "jawiki" を変更することで入手可能です。例えば、英語版は "enwiki" です。

Wikipedia 日本語版WikiBooks 日本語版Wikinews 日本語版Wikiquote 日本語版Wikisource 日本語版Wiktionary 日本語版Wikiversity 日本語版WikispeciesWikidata

Uncyclopedia 日本語版は https://download.uncyc.org/ja-wiki.zip からダウンロード可能です。ダウンロード可能な全ファイルを表示する場合は https://download.uncyc.org/ にアクセスします。ただし、2019 年以降データが破損しています。

ダウンロードしたファイルが圧縮されている場合は、7-Zip 等を用いて解凍します。

変換

変換は MkXTBWikiplexus の build.unix フォルダ内で行います。ここではこの build.unix フォルダを BUILD と表現します。コマンド等は環境に合わせて置き換えてください。

ダウンロードした XML ファイルを BUILD フォルダに移動します。その後以下のコマンドを実行してください。PC の性能や Wiki の規模によりますが、変換には数十分から数時間かかります。

  1. cd BUILD
  2. ./MkXTBWikiplexus-bin -o [output name] < [xml file name]

"output name" には出力するファイルの名前を指定します。下記の規則を参考に入力します。

Wiki名-変換日.xtbdict
Wiki名は "言語 + Wiki 省略名" となります。
例えば、Wikipedia 日本語版は jawiki、Uncyclopedia 英語版は enunwiki、Wiktionary 日本語版は jawiktionary となります。
変換日は YYYYMMDD の 8 桁です。
例えば、2023 年 1 月 1 日は "20230101" となります。
よって、2023 年 1 月 1 日の Wikipedia 日本語版を変換する場合は "jawiki-20230101.xtbdict" と入力します。

つまり、2023 年 1 月 1 日の Wikipedia 日本語版を変換する場合は以下のようなコマンドとなります。
$ ./MkXTBWikiplexus-bin -o jawiki-20230101.xtbdict < jawiki-latest-pages-articles.xml

なお、このコマンドでは大量の出力が出ます。これを表示させないようにするには、コマンド末尾に

  1. 2> /dev/null
を追加します。ただし、これを使うとエラーも表示されなくなるので注意が必要です。

完了したら次のコマンドを実行します。以降、コマンドの先頭に付けるドットが 2 つになる (../) ので注意してください。これも数十分から数時間かかります。

  1. cd [output name]
  2. ../YomiGenesis-bin < BaseNames.csv > Yomi.txt

完了したら以下のコマンドを実行します。

  1. ../MkXTBIndexDB-bin -o Search Yomi.txt

任意: 圧縮

変換によって作成された Articles.db は XTBook 専用の rax ファイルに圧縮可能です。rax は透過的圧縮であるため、解凍することなくそのまま辞書として使用できます。Articles.db を rax 形式に圧縮するには次のコマンドを実行します。圧縮後は元の Articles.db は削除しても構いません。

  1. ../MkRax-bin -o Articles.db.rax < Articles.db

なお、パイプを用いて MkXTBWikiplexus-bin と圧縮を同時に行うこともできます。Articles.db ファイルを介さない分、ストレージ使用量と変換速度の向上が期待できます。

  1. ../MkXTBWikiplexus-bin -o [output name] -s < [xml file name] 2> /dev/null | ../MkRax-bin -o Articles.db.rax

Info.plist ファイルの作成

最後に辞書ファイルの情報を記述したファイルを作成します。BOM なし UTF-8 を指定可能なテキストエディタを用意してください。最新の Windows 10/11 を使っているならメモ帳でも構いません。

例として Wikipedia 日本語版で使用している Info.plist ファイルです。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
	<key>XTBDictionaryIdentifier</key>
	<string>com.nexhawks.XTBook.Wikipedia.ja</string>
	<key>XTBDictionaryScheme</key>
	<string>jawiki</string>
	<key>XTBDictionaryTypeIdentifier</key>
	<string>com.nexhawks.XTBook.Wikiplexus</string>
	<key>XTBWikiplexusArticlesFile</key>
	<string>Articles</string>
	<key>XTBWikiplexusTemplatesFile</key>
	<string>Templates</string>
	<key>XTBWikiplexusSiteInfoFile</key>
	<string>SiteInfo.plist</string>
	<key>XTBWikiplexusSearchFile</key>
	<string>Search</string>
	<key>XTBWikiplexusSchemeForImages</key>
	<string>jawikiimg</string>
	<key>XTBDictionaryDisplayName</key>
	<string>ウィキペディア 日本語版</string>
</dict>
</plist>

色がついている部分を辞書ごとに書き換えます。緑色の部分は Wikipedia 日本語版であれば com.nexhawks.XTBook.Wikipedia.ja、Uncyclopedia 日本語版は com.nexhawks.XTBook.Uncyclopedia.ja となります。水色の部分は output name を決めたときの Wiki 名 (jawiki や jawiktionary) となり、黄色の部分はそれに img を付け足したものとなります。赤色の部分は表示される辞書名を入力します。書き換えが完了したら文字コードを UTF-8 にして、ファイル名 Info.plist で Articles.db (圧縮した場合は Articles.db.rax) 等のファイルがあるフォルダに保存します。

これで辞書ファイルの作成は完了です。