Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

モデルファイル形式

Litsea のモデルは、シンプルなプレーンテキストファイルとして保存されます。

形式の仕様

<feature_name>\t<weight>
<feature_name>\t<weight>
...
<bias>
  • 最終行を除く各行は、タブ文字で区切られた特徴量名重みを含む
  • 重みがゼロの特徴量は、ファイルをコンパクトに保つために省略される
  • 最終行はバイアス項を単一の数値として含む

BC1:IK	0.3456
BC2:KI	-0.1234
UW4:は	0.5678
UC4:I	0.2345
...
-0.0891

バイアスの復元

モデルの読み込み時に、バイアスは以下の式で復元されます:

bias_bucket_weight = -bias_value * 2 - sum(all_feature_weights)

予測時:

bias = -sum(all_model_weights) / 2.0
score = bias + sum(model[feature] for feature in input_attributes)

ファイルサイズ

モデルファイルは非常にコンパクトです:

モデルサイズ特徴量
japanese.model約 2.9 KBWikipedia で学習
korean.model約 1.8 KBWikipedia で学習
chinese.model約 1.3 KBWikipedia で学習
RWCP.model約 22 KBオリジナルの TinySegmenter
JEITA_Genpaku_ChaSen_IPAdic.model約 17 KBJEITA コーパス

コンパクトなサイズは Litsea の主要な利点の一つです。モデルはアプリケーションに直接埋め込んだり、最小限のオーバーヘッドで HTTP 経由で配信したりできます。

互換性

  • モデルファイルはエンコーディング非依存です(特徴量名はそのまま保存されます)
  • 形式は決定的です(特徴量は BTreeMap により整列されます)
  • モデルは前方互換性があります。入力に含まれるがモデルにない新しい特徴量は、予測時に単純に無視されます