第89章 吴辰帮的第一个成员
⚡ 自动翻页
打开后读到底,自动翻到下一次心动
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  第89章 吴辰帮的第一个成员
  閔欣柔对这个技术並不陌生。
  她立即举手道:“老师,基於词典和隱马尔可夫模型的分词吗?”
  这是2008年的主流做法,比如ictclas(中科院分词)系统就是这么干的。
  吴辰摇摇头。
  “不是,我们要用一种叫做bpe,也就是字节对编码的算法。”
  “它的原理大致是这样,不要预设字典,而是通过统计字符组合的频率,將最常见的字对合併成一个新的单位————”
  听完吴辰的讲解后,閔欣柔立即意识到这种算法完全顛覆了传统。
  就像word2vec让机器学会了自己翻译语言,这个bpe算法,让人类与机器的距离又靠近了一步!
  她兴奋道:“吴老师,那我们要从哪一部分开始呢,是先写统计脚本,还是先构建词表?”
  吴辰理解她的兴奋,同时惊嘆她的敏锐。
  bpe算法,是未来大语言模型的一大重要支柱。
  “从数据標註开始。”
  “那我的任务呢?”
  “去刷天涯论坛,然后在假期结束前完成5000条数据的標註,对一个帖子,你需要分辨出里面的好话、反话和脏话,並且標註情感正负向。”