日本語

日本語はLitseaのデフォルト言語です。

文字タイプ

Code	Name	Pattern	Examples
M	漢数字	`[一二三四五六七八九十百千万億兆]`	一, 三, 千, 億
H	漢字 / CJK	`[一-龠々〆ヵヶ]`	漢, 字, 学, 々
I	ひらがな	`[ぁ-ん]`	あ, い, う, を
K	カタカナ	`[ァ-ヴーｱ-ﾝﾞﾟ]`	ア, カ, ー, ﾊ
P	句読点	CJK記号 + 全角	。, 、, 「, 」
A	ASCII/ラテン文字	`[a-zA-Zａ-ｚＡ-Ｚ]`	A, z, Ｂ
N	数字	`[0-9０-９]`	0, 5, ５
O	その他	フォールバック	@, #, $

パターンは順番に評価されます。特に注意すべき点は以下の通りです。

echo "LitseaはTinySegmenterを参考に開発された、Rustで実装された極めてコンパクトな単語分割ソフトウェアです。" \
  | litsea segment -l japanese ./models/japanese.model

出力:

Litsea は TinySegmenter を 参考 に 開発 さ れ た 、 Rust で 実装 さ れ た 極めて コンパクト な 単語 分割 ソフトウェア です 。