Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

韓国語

Litseaは、ハングル文字タイプの特殊な検出機能を備えた韓国語の単語分割をサポートしています。

文字タイプ

CodeNamePatternExamples
E助詞/語尾[은는을를의에]은, 는, 을, 를, 의, 에
SNハングル(받침なし)コードポイント演算가, 나, 하, 모
SFハングル(받침あり)コードポイント演算한, 글, 각, 붙
Jハングル字母U+1100–U+11FF個別の子音/母音
G互換字母U+3130–U+318Fㄱ, ㅏ, ㅎ
H漢字U+4E00–U+9FFFCJK統合漢字
P句読点CJK記号 + 全角。, ,
AASCII/ラテン文字[a-zA-Za-zA-Z]A, z
N数字[0-90-9]0, 5, 5
Oその他フォールバック@, #, $

韓国語の助詞(조사)

「E」タイプは、6つの高頻度文法助詞を捉えます。

CharacterRoleName
은/는主題マーカー주격 조사
을/를目的語マーカー목적격 조사
所有格관형격 조사
場所格부사격 조사

これらの助詞は語境界に頻繁に出現するため、分割精度を向上させるために独自のタイプコードが割り当てられています。

ハングル音節構造(받침検出)

韓国語では、SNとSFタイプに正規表現ではなくクロージャベースのマッチングを使用します。これはUnicodeハングルエンコーディングの体系的な構造を活用しています。

  • ハングル音節: U+AC00–U+D7AF(11,172音節)
  • 各音節 = (初声 * 21 + 中声) * 28 + 終声 + 0xAC00
  • SN(받침なし): (codepoint - 0xAC00) % 28 == 0
  • SF(받침あり): (codepoint - 0xAC00) % 28 != 0

받침(終声子音)の有無の区別は言語学的に重要であり、助詞が語にどのように接続するか、また境界がどこに生じるかに影響します。

WC特徴量なし

韓国語ではWC(単語+文字タイプ)特徴量を使用しません。ほとんどのハングル音節はSNとSFの2つのタイプにしか分類されないため、WC特徴量は低エントロピーでノイズの多い組み合わせを生成し、モデルの精度を低下させます。

学習済みモデル

korean.model

  • 学習コーパス: UD Korean-GSD
  • 精度(Accuracy): 85.08%

使用例

echo "한국어 단어 분할 테스트입니다." | litsea segment -l korean ./models/korean.model