日本語
日本語はLitseaのデフォルト言語です。
文字タイプ
| Code | Name | Pattern | Examples |
|---|---|---|---|
| M | 漢数字 | [一二三四五六七八九十百千万億兆] | 一, 三, 千, 億 |
| H | 漢字 / CJK | [一-龠々〆ヵヶ] | 漢, 字, 学, 々 |
| I | ひらがな | [ぁ-ん] | あ, い, う, を |
| K | カタカナ | [ァ-ヴーア-ン゙゚] | ア, カ, ー, ハ |
| P | 句読点 | CJK記号 + 全角 | 。, 、, 「, 」 |
| A | ASCII/ラテン文字 | [a-zA-Za-zA-Z] | A, z, B |
| N | 数字 | [0-90-9] | 0, 5, 5 |
| O | その他 | フォールバック | @, #, $ |
パターンの優先順位
パターンは順番に評価されます。特に注意すべき点は以下の通りです。
- MはHより先に評価: 一や百などの文字は、汎用的な「漢字」(H)ではなく「漢数字」(M)に分類されます
- この区別により、モデルは数字特有の境界パターンを学習できます
学習済みモデル
japanese.model
- 学習コーパス: UD Japanese-GSD
- 精度(Accuracy): 94.15%
- 適合率(Precision): 95.57%
- 再現率(Recall): 94.36%
RWCP.model
- 出典: オリジナルのTinySegmenterから抽出
- ライセンス: BSD 3-Clause(工藤拓)
- サイズ: 約22 KB
JEITA_Genpaku_ChaSen_IPAdic.model
- 学習コーパス: JEITA杉田玄白プロジェクトのコーパス
- トークナイザ: ChaSen(IPAdic辞書使用)
- サイズ: 約17 KB
使用例
echo "LitseaはTinySegmenterを参考に開発された、Rustで実装された極めてコンパクトな単語分割ソフトウェアです。" \
| litsea segment -l japanese ./models/japanese.model
出力:
Litsea は TinySegmenter を 参考 に 開発 さ れ た 、 Rust で 実装 さ れ た 極めて コンパクト な 単語 分割 ソフトウェア です 。