Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

日本語

日本語はLitseaのデフォルト言語です。

文字タイプ

CodeNamePatternExamples
M漢数字[一二三四五六七八九十百千万億兆]一, 三, 千, 億
H漢字 / CJK[一-龠々〆ヵヶ]漢, 字, 学, 々
Iひらがな[ぁ-ん]あ, い, う, を
Kカタカナ[ァ-ヴーア-ン゙゚]ア, カ, ー, ハ
P句読点CJK記号 + 全角。, 、, 「, 」
AASCII/ラテン文字[a-zA-Za-zA-Z]A, z, B
N数字[0-90-9]0, 5, 5
Oその他フォールバック@, #, $

パターンの優先順位

パターンは順番に評価されます。特に注意すべき点は以下の通りです。

  • MはHより先に評価: 一や百などの文字は、汎用的な「漢字」(H)ではなく「漢数字」(M)に分類されます
  • この区別により、モデルは数字特有の境界パターンを学習できます

学習済みモデル

japanese.model

  • 学習コーパス: UD Japanese-GSD
  • 精度(Accuracy): 94.15%
  • 適合率(Precision): 95.57%
  • 再現率(Recall): 94.36%

RWCP.model

  • 出典: オリジナルのTinySegmenterから抽出
  • ライセンス: BSD 3-Clause(工藤拓)
  • サイズ: 約22 KB

JEITA_Genpaku_ChaSen_IPAdic.model

  • 学習コーパス: JEITA杉田玄白プロジェクトのコーパス
  • トークナイザ: ChaSen(IPAdic辞書使用)
  • サイズ: 約17 KB

使用例

echo "LitseaはTinySegmenterを参考に開発された、Rustで実装された極めてコンパクトな単語分割ソフトウェアです。" \
  | litsea segment -l japanese ./models/japanese.model

出力:

Litsea は TinySegmenter を 参考 に 開発 さ れ た 、 Rust で 実装 さ れ た 極めて コンパクト な 単語 分割 ソフトウェア です 。