meta ai台語的問題,透過圖書和論文來找解法和答案更準確安心。 我們找到附近那裡買和營業時間的推薦產品

國立中央大學 資訊工程學系在職專班 蔡宗翰所指導 呂昕恩的 基於台語與華語之語碼混合資料集與翻譯模型 (2021),提出meta ai台語關鍵因素是什麼,來自於語碼混合、機器翻譯、損失函數重構、低資源語言。

接下來讓我們看這些論文和書籍都說些什麼吧:

除了meta ai台語,大家也想知道這些:

基於台語與華語之語碼混合資料集與翻譯模型

為了解決meta ai台語的問題,作者呂昕恩 這樣論述:

台語與中文語碼混合在台灣是一個常見的口語現象,然而台灣遲至 21 世紀才開始建立官方書寫系統。缺少官方書寫系統,不僅代表著我們在 NLP 領域面臨資源不足的問題,導致我們在方言代碼混合任務上難以取得突破性研究,更意味著我們面臨著語言傳承的困難。基於上述問題,本研究將從簡要介紹台語的歷史以及台灣語碼混合現象著手,討論台灣語碼混合的語言比例組成與文法結構,建立基於台文字的台語語華語之語碼混合資料集,並介紹可應用於台文的現有斷詞工具。同時我們將在本研究介紹台語語言模型的訓練方法,同時使用我們提出的資料集,利用 XLM 開發台語語碼混合翻譯模型。為適用於語碼混合的情境,我們提出自動化語言標注(DLI

)機制,並使用遷移學習提升翻譯模型表現。最後我們根據交叉熵(Cross-entropy, CE)的問題,提出三種利用詞彙詞相似度來重構損失函數。我們提出 WBI 機制,解決詞彙資訊與字符集預訓練模型不相容的問題,並引入 WordNet 知識在模型中。與標準 CE 相比,在單語和語碼混資料集的實驗結果表明,我們的最佳損失函數在單語和 CM 在 BLEU 上,分別進步 2.42分(62.11 到 64.53)和 0.7(62.86 到 63.56)分。我們的實驗證明即使是使用基於字符訓練的語言模型,我們可以將辭彙的資訊攜帶到下游任務中。