CLI Examples

Basic Extraction

Extract text from a Wikipedia dump into the default text/ directory:

wicket simplewiki-latest-pages-articles.xml.bz2

wicket dump.xml.bz2 -o output/

Pipe output directly to another command:

wicket dump.xml.bz2 -o - -q | wc -l

wicket dump.xml.bz2 -o output/ --json -c

Extract namespace 1 (talk pages) with 8 workers:

wicket dump.xml.bz2 -o output/ --namespaces 1 --processes 8

Extract main articles and user pages:

wicket dump.xml.bz2 -o output/ --namespaces 0,2

Split output into 500 KB files:

wicket dump.xml.bz2 -o output/ -b 500K

wicket dump.xml.bz2 -o output/ -b 0

After extraction, the output directory looks like:

output/
  AA/
    wiki_00
    wiki_01
    ...
    wiki_99
  AB/
    wiki_00
    ...

With --compress:

output/
  AA/
    wiki_00.bz2
    wiki_01.bz2
    ...