“你们难道没有注意过这篇论文吗?”领队的男生皱着眉头,他们嬉闹的声音就停止了,斯嘉丽·约翰逊念着她的戏码,领队把电脑转过来给我们看,“这么重要的点都能漏?”
那几个男生看了眼论文,声音很轻地笑着搪塞:“怪了,之前没查到这篇论文过啊,发表时间好近哦。”
我顺着从小米的肩膀上瞟了一眼,那篇论文的确是最近才发表的,刚才他们起哄期间领队的男生一直在翻论文集,其中一个男生仔细看了一遍之后问:“哥,我们几个都是软件方向的,只有你是做机器深度学习的,这个论文看不懂啊,这个‘正则化是啥意思?”
领队像是要发火但又把气压下去了,接着他开始解释:“机器学习最终的目的是快速拟合降低损失率,这是所有回型AI运算最核心的公式,正则化就是在这个公式后面再加一个正则项,用正则项来约束拟合函数,防止模型欠拟合或过拟合。”
“这个我好像听说过。”那个叫阿冉的男生说话的语气总是有的虚的,“我记得正则项好像分为两类,L1和L2。”
“你记的是对的。”领队开了一罐啤酒,看来他已经找到方向了,“L1和L2是两种不同的正则类型,具体来说L1正则是先验为拉普拉斯分布的正则项,L2正则是先验为高斯分布的正则项。”
他喝了一口酒后把面朝向我们:“我来做一下通俗解释,简单来说,我们现在没法很好地约束模型的泛化,可以理解成是AI对语言的理解和转化能力不够,但换一个角度看,能够让AI直接理解语言指令当然是最理想的情况吧,但如果不通过tag而是通过另一种方式让模型在一开始就知道要朝着什么方向拟合,虽然麻烦了点,但是不是同样可以达成最终的效果?”
“我明白你的意思了。”阿冉向前探身说,“只要在训练集中再加一个正则化的集,然后在拟合公式中添加负面正则项,就可以限制模型在可控集合范围内不生成包含负面正则集合在内的内容。”
电影的声音兀自播放着,大概是注意到我和小米都没有说话,他又转过身朝向我们解释道:“其实也就是说,我们在训练前在创建一个类型相似但要避免出现的集,通过排除法,AI也能够理解要生成的类型并且要避免生成负面正则集中的内容,这样就能绕开负面tag的语言理解算力不足的问题了。不过话说回来,我们用一晚上改算法来得及吗?而且评委应该要我们提供模型范例吧,一晚上的时间也不足够训炼吧?”
他将目光投向领队,而领队早已开始检索:“当然不够,但我想到了别的办法。”屏幕上,他已经把论文的英语原文中的一长串名词截取输入到GitHub中检索,GitHub简单来书哦是一个开源代码的网站,阿冉凑近问道:“这是架构吗?”
“算法架构。”领队的男生点点头,“当然还有模型架构。算法改起来是快的,重要的是模型的范例,我们来不及训炼,也没有那个算力去训炼。”
这时阿冉又转头为我们解释:“架构的命名一般会采用创造者的名字来命名,也会用图灵、特斯拉这类名人的名字作为致敬来命名,我们现在就在根据那篇文章的作者名来查他有没有在GitHub上开源他的代码。不过之前我们那样系统性的搜集论文,真没见过这篇文章,像是突然冒出来的一样,恐怕不好找吧……”
“放什么屁。”领队两手一摊,“这不是吗?得,模型应该也有,不过这一批作者的人数真多啊,得一个个找了。”