tokenizer分词是分为一个词还是字