靚麗時尚館

位置:首頁 > 健康生活 > 心理

bpe分詞

心理2.61W
bpe分詞

BPE分詞演算法的流程

BPE演算法的核心主要分成三個部分:

詞表構建

語料編碼

語料解碼

詞表構建是BPE演算法的核心,其是「根據訓練語料」來構建BPE演算法的詞表。演算法的整體步驟如下所示:

準備模型的訓練語料

確定「期望的詞表大小」

將訓練語料中的所有單詞拆分為字元序列,利用這些字元序列構建初始的詞表

統計訓練語料中每一個連續位元組對出現的頻率,「選擇出現頻率最高的位元組對合併成新的subword,並更新詞表」

重複第4步,直到詞表大小達到我們設定的期望或者剩下的位元組對出現頻率最高為1

標籤:分詞 bpe