Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

CLI 使用例

基本的な抽出

Wikipedia ダンプからテキストをデフォルトの text/ ディレクトリに抽出:

wicket simplewiki-latest-pages-articles.xml.bz2

カスタム出力ディレクトリ

wicket dump.xml.bz2 -o output/

標準出力に書き出し

パイプで他のコマンドに直接出力:

wicket dump.xml.bz2 -o - -q | wc -l

JSON 出力 + 圧縮

wicket dump.xml.bz2 -o output/ --json -c

トークページの抽出

名前空間 1(トークページ)を 8 ワーカーで抽出:

wicket dump.xml.bz2 -o output/ --namespaces 1 --processes 8

複数の名前空間

メイン記事とユーザーページを抽出:

wicket dump.xml.bz2 -o output/ --namespaces 0,2

小さいファイルに分割

出力を 500 KB ファイルに分割:

wicket dump.xml.bz2 -o output/ -b 500K

1記事1ファイル

wicket dump.xml.bz2 -o output/ -b 0

出力ディレクトリ構造

抽出後の出力ディレクトリ:

output/
  AA/
    wiki_00
    wiki_01
    ...
    wiki_99
  AB/
    wiki_00
    ...

--compress 使用時:

output/
  AA/
    wiki_00.bz2
    wiki_01.bz2
    ...