事前学習済みモデル

Litsea は models/ ディレクトリに複数の事前学習済みモデルを同梱しています。

モデルカタログ

japanese.model

プロパティ	値
言語	日本語
学習コーパス	UD Japanese-GSD
正解率	94.15%
適合率	95.57%
再現率	94.36%
ファイルサイズ	約 2.9 KB

korean.model

プロパティ	値
言語	韓国語
学習コーパス	UD Korean-GSD
正解率	85.08%
ファイルサイズ	約 1.8 KB

chinese.model

プロパティ	値
言語	中国語（簡体字・繁体字）
学習コーパス	UD Chinese-GSD
正解率	80.72%
ファイルサイズ	約 1.3 KB

RWCP.model

プロパティ	値
言語	日本語
ソース	オリジナルの TinySegmenter から抽出
ライセンス	BSD 3-Clause (Taku Kudo)
ファイルサイズ	約 22 KB

JEITA_Genpaku_ChaSen_IPAdic.model

プロパティ	値
言語	日本語
学習コーパス	JEITA プロジェクト杉田玄白コーパス
トークナイザ	ChaSen with IPAdic
ファイルサイズ	約 17 KB

品詞推定モデル

japanese_pos.model

プロパティ	値
言語	日本語
アルゴリズム	Averaged Perceptron
学習コーパス	UD Japanese-GSD（7,050 文）
エポック数	10
正解率	98.34%
マクロ適合率	97.87%
マクロ再現率	91.67%
ファイルサイズ	約 11 MB

chinese_pos.model

プロパティ	値
言語	中国語（簡体字・繁体字）
アルゴリズム	Averaged Perceptron
学習コーパス	UD Chinese-GSD（3,997 文）
エポック数	10
正解率	97.09%
マクロ適合率	97.31%
マクロ再現率	96.23%
ファイルサイズ	約 19 MB

korean_pos.model

プロパティ	値
言語	韓国語
アルゴリズム	Averaged Perceptron
学習コーパス	UD Korean-GSD（4,400 文）
エポック数	10
正解率	95.33%
マクロ適合率	95.30%
マクロ再現率	87.69%
ファイルサイズ	約 8.4 MB

使用方法

echo "これはテストです。" | litsea segment --pos -l japanese models/japanese_pos.model

出力:

これ/PRON は/ADP テスト/NOUN です/AUX 。/PUNCT

モデルの選択

日本語には、最高精度を求める場合は japanese.model を、オリジナルの TinySegmenter との互換性を重視する場合は RWCP.model を使用
中国語には chinese.model を使用
韓国語には korean.model を使用
品詞推定には、対応する *_pos.model（japanese_pos.model、chinese_pos.model、korean_pos.model）を使用して単語分割と品詞推定を同時実行
ドメイン固有の用途には、独自モデルの学習または既存モデルの再学習を検討

サンプルデータ

resources/ ディレクトリには以下も含まれています:

bocchan.txt – 夏目漱石の小説「坊っちゃん」のサンプル日本語コーパス（約 307 KB）。ベンチマークに使用されます。