LLM Tokenizer
- digram coding / Byte-pair encoding / BPE tokeniser
- dqbd/tiktoken
- zurawiki/tiktoken-rs
- MIT, Rust
- openai/tiktoken
- https://platform.openai.com/tokenizer
ChatGPT 特殊 Token
<|endoftext|>
<|endofprompt|>
<|eos|>
<|pad|>
<|bos|>
<|eol|>
<|math|>
<|doc|>
<|im_start|>
<|im_end|>
<|im_sep|>
<|fim_prefix|>
<|fim_middle|>
<|fim_suffix|>