韓国語
Litseaは、ハングル文字タイプの特殊な検出機能を備えた韓国語の単語分割をサポートしています。
文字タイプ
| Code | Name | Pattern | Examples |
|---|---|---|---|
| E | 助詞/語尾 | [은는을를의에] | 은, 는, 을, 를, 의, 에 |
| SN | ハングル(받침なし) | コードポイント演算 | 가, 나, 하, 모 |
| SF | ハングル(받침あり) | コードポイント演算 | 한, 글, 각, 붙 |
| J | ハングル字母 | U+1100–U+11FF | 個別の子音/母音 |
| G | 互換字母 | U+3130–U+318F | ㄱ, ㅏ, ㅎ |
| H | 漢字 | U+4E00–U+9FFF | CJK統合漢字 |
| P | 句読点 | CJK記号 + 全角 | 。, , |
| A | ASCII/ラテン文字 | [a-zA-Za-zA-Z] | A, z |
| N | 数字 | [0-90-9] | 0, 5, 5 |
| O | その他 | フォールバック | @, #, $ |
韓国語の助詞(조사)
「E」タイプは、6つの高頻度文法助詞を捉えます。
| Character | Role | Name |
|---|---|---|
| 은/는 | 主題マーカー | 주격 조사 |
| 을/를 | 目的語マーカー | 목적격 조사 |
| 의 | 所有格 | 관형격 조사 |
| 에 | 場所格 | 부사격 조사 |
これらの助詞は語境界に頻繁に出現するため、分割精度を向上させるために独自のタイプコードが割り当てられています。
ハングル音節構造(받침検出)
韓国語では、SNとSFタイプに正規表現ではなくクロージャベースのマッチングを使用します。これはUnicodeハングルエンコーディングの体系的な構造を活用しています。
- ハングル音節: U+AC00–U+D7AF(11,172音節)
- 各音節 =
(初声 * 21 + 中声) * 28 + 終声 + 0xAC00 - SN(받침なし):
(codepoint - 0xAC00) % 28 == 0 - SF(받침あり):
(codepoint - 0xAC00) % 28 != 0
받침(終声子音)の有無の区別は言語学的に重要であり、助詞が語にどのように接続するか、また境界がどこに生じるかに影響します。
WC特徴量なし
韓国語ではWC(単語+文字タイプ)特徴量を使用しません。ほとんどのハングル音節はSNとSFの2つのタイプにしか分類されないため、WC特徴量は低エントロピーでノイズの多い組み合わせを生成し、モデルの精度を低下させます。
学習済みモデル
korean.model
- 学習コーパス: UD Korean-GSD
- 精度(Accuracy): 85.08%
使用例
echo "한국어 단어 분할 테스트입니다." | litsea segment -l korean ./models/korean.model