モデルファイル形式

Litsea のモデルは、シンプルなプレーンテキストファイルとして保存されます。

形式の仕様

<feature_name>\t<weight>
<feature_name>\t<weight>
...
<bias>

BC1:IK	0.3456
BC2:KI	-0.1234
UW4:は	0.5678
UC4:I	0.2345
...
-0.0891

モデルの読み込み時に、バイアスは以下の式で復元されます:

bias_bucket_weight = -bias_value * 2 - sum(all_feature_weights)

予測時:

bias = -sum(all_model_weights) / 2.0
score = bias + sum(model[feature] for feature in input_attributes)

モデルファイルは非常にコンパクトです:

モデル	サイズ	特徴量
japanese.model	約 2.9 KB	Wikipedia で学習
korean.model	約 1.8 KB	Wikipedia で学習
chinese.model	約 1.3 KB	Wikipedia で学習
RWCP.model	約 22 KB	オリジナルの TinySegmenter
JEITA_Genpaku_ChaSen_IPAdic.model	約 17 KB	JEITA コーパス

コンパクトなサイズは Litsea の主要な利点の一つです。モデルはアプリケーションに直接埋め込んだり、最小限のオーバーヘッドで HTTP 経由で配信したりできます。