第89章吴辰帮的第一个成员

⚡ 自动翻页 打开后读到底，自动翻到下一次心动

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;第89章吴辰帮的第一个成员

&emsp;&emsp;閔欣柔对这个技术並不陌生。

&emsp;&emsp;她立即举手道：“老师，基於词典和隱马尔可夫模型的分词吗？”

&emsp;&emsp;这是2008年的主流做法，比如ictclas（中科院分词）系统就是这么干的。

&emsp;&emsp;吴辰摇摇头。

&emsp;&emsp;“不是，我们要用一种叫做bpe，也就是字节对编码的算法。”

&emsp;&emsp;“它的原理大致是这样，不要预设字典，而是通过统计字符组合的频率，將最常见的字对合併成一个新的单位————”

&emsp;&emsp;听完吴辰的讲解后，閔欣柔立即意识到这种算法完全顛覆了传统。

&emsp;&emsp;就像word2vec让机器学会了自己翻译语言，这个bpe算法，让人类与机器的距离又靠近了一步！

&emsp;&emsp;她兴奋道：“吴老师，那我们要从哪一部分开始呢，是先写统计脚本，还是先构建词表？”

&emsp;&emsp;吴辰理解她的兴奋，同时惊嘆她的敏锐。

&emsp;&emsp;bpe算法，是未来大语言模型的一大重要支柱。

&emsp;&emsp;“从数据標註开始。”

&emsp;&emsp;“那我的任务呢？”

&emsp;&emsp;“去刷天涯论坛，然后在假期结束前完成5000条数据的標註，对一个帖子，你需要分辨出里面的好话、反话和脏话，並且標註情感正负向。”

第89章 吴辰帮的第一个成员