韓国語

学習コーパス: UD Korean-GSD
精度（Accuracy）: 85.08%

Litseaは、ハングル文字タイプの特殊な検出機能を備えた韓国語の単語分割をサポートしています。

文字タイプ

Code	Name	Pattern	Examples
E	助詞/語尾	`[은는을를의에]`	은, 는, 을, 를, 의, 에
SN	ハングル（받침なし）	コードポイント演算	가, 나, 하, 모
SF	ハングル（받침あり）	コードポイント演算	한, 글, 각, 붙
J	ハングル字母	U+1100–U+11FF	個別の子音/母音
G	互換字母	U+3130–U+318F	ㄱ, ㅏ, ㅎ
H	漢字	U+4E00–U+9FFF	CJK統合漢字
P	句読点	CJK記号 + 全角	。, ，
A	ASCII/ラテン文字	`[a-zA-Zａ-ｚＡ-Ｚ]`	A, z
N	数字	`[0-9０-９]`	0, 5, ５
O	その他	フォールバック	@, #, $

「E」タイプは、6つの高頻度文法助詞を捉えます。

これらの助詞は語境界に頻繁に出現するため、分割精度を向上させるために独自のタイプコードが割り当てられています。

韓国語では、SNとSFタイプに正規表現ではなくクロージャベースのマッチングを使用します。これはUnicodeハングルエンコーディングの体系的な構造を活用しています。

받침（終声子音）の有無の区別は言語学的に重要であり、助詞が語にどのように接続するか、また境界がどこに生じるかに影響します。

韓国語ではWC（単語＋文字タイプ）特徴量を使用しません。ほとんどのハングル音節はSNとSFの2つのタイプにしか分類されないため、WC特徴量は低エントロピーでノイズの多い組み合わせを生成し、モデルの精度を低下させます。

echo "한국어 단어 분할 테스트입니다." | litsea segment -l korean ./models/korean.model