全國咨詢/投訴熱線:400-618-4000

BERT的MLM任務中為什么采用了80%, 10%, 10%的策略?

更新時間:2020年09月21日14時52分 來源:黑馬程序員 瀏覽次數:

1、首先, 如果所有參與訓練的token被100%的[MASK], 那么在fine-tunning的時候所有單詞都是已知的, 不存在[MASK], 那么模型就只能根據其他token的信息和語序結構來預測當前詞, 而無法利用到這個詞本身的信息, 因為它們從未出現在訓練過程中, 等于模型從未接觸到它們的信息, 等于整個語義空間損失了部分信息. 采用80%的概率下應用[MASK], 既可以讓模型去學著預測這些單詞, 又以20%的概率保留了語義信息展示給模型。

2、保留下來的信息如果全部使用原始token, 那么模型在預訓練的時候可能會偷懶, 直接照抄當前token信息. 采用10%概率下random token來隨機替換當前token, 會讓模型不能去死記硬背當前的token, 而去盡力學習單詞周邊的語義表達和遠距離的信息依賴, 嘗試建模完整的語言信息.

3、最后再以10%的概率保留原始的token, 意義就是保留語言本來的面貌, 讓信息不至于完全被遮掩, 使得模型可以"看清"真實的語言面貌。


下面是傳智播客公開的幾套人工智能視頻教程,如果感興趣可以下載學習。






极速十一选五app 5元以下的股票推荐 湖南赛车今日开奖结果 炒股配资介 快三平台 福彩 官网 广西快3计划 秒速时时彩走势图 黑龙江十一选五现场开奖走势图 股票推荐买入 股票经验 广东快乐十分是正规的网站吗