泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首先领导便当,龙母、小恶魔笑到最后,opportunity



大数据文摘编辑部出品

千呼万唤,权利的游戏终究季总算开!播!了!

和大部分权游粉相同,文摘菌一整个上午的朋友西工大圈都刷的战战兢兢,生怕被剧透。可是没有想到,仍是“被“看到了大结局!而且,给我剧透的仍是个算法。



这波最强剧透来自慕尼黑工业大学。早在终究季开播前,这所大学的核算机科学的同学就接到了一个特别的作业:用机器学习,猜测这一季谁最有或许坐稳铁王座。




这个听起来很风趣的项目用到了一种较为严酷的算法——生计时机算法。详细的生计率猜测,是经过寿数数据剖析得到的成果。这种科学研讨技能在医疗上现已有广泛的运用,例如用来查验医治办法和并发症对癌症患者的影响。

其实, 生计时机算法是慕尼黑工业大学每学期Javascript研讨会的一部分,这个课题激起一届又一届学生的研讨一万次哀痛爱好。 他们开发了一个运用程序, 并发明了一套人工智能的miracle算法来核算每个人物的逝世率。早在2016年, 第六季播出前, 该专业的学生就精确猜测了Snow的复生。

废话不多说,先来看看这个凶猛的算法猜测的终究季大结局。

依据算法,龙妈Daenerys Targaryen(丹妮莉斯塔格利安)生计的几率最高,达到了99%,小恶魔Tyrio兰菊花n Lannister(提利昂兰尼斯特)也有97%的存活率。



存同程网旅游网活率排名一览


除了逝世率或许性最高的波隆和魔山,这个被七大王国泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity最聪明的男人(Tyrion Lannister)预言最龟龄的 “三傻”(Sansa Stark),她的死期也被猜测的明明白白,逝世率高达7于美艳3%。



最强剧透怎样操作?


算法详细怎样做的呢?简略来说,便是经过从原著和已播的剧会集提取人物人物、身份、性别、亲属数量、年岁、忠诚度、逝世概率等等来进行数据剖析猜测。

咱们先拿Sansa的例子来简略解释一下。

首要, 在维斯特洛大陆, 一般来说贵族是要比布衣要活得久一点,而女人的人物也会比男性的要活的久一点。




按主角来分,从北境之王的心肝宝贝沦为最耻辱的贵族小姐再光临冬城女爵,主角光环下,逝世率一下下降16%。



一般结过婚的女人也比较龟龄。尽管几段不幸的婚姻给Sansa带来沉痛的经验,但也完美的印证了“全部杀不死我的都将令我变强。”



出生在一个牛掰的宗族也会延伸寿数哦!史塔克宗族的孩子尽管历经苦难, 但除了“少狼主”外都还闯到了决赛圈。



委曲求全的Sansa有命撑到第8季也是实属不易, 但猜测高达73%的逝世率怎样在剧中完成, 咱们能够拭目而待。

完好的人物清单及其生计时机等数据计算能够在以下网站在线水下婚纱照获取。☟

https://got.sh黑山县天气预报ow

“算法”与“数据”之歌


据这门课程的授课教师Burkhard Rost介绍,尽管对权利的游戏里边人物人物生计率的猜测仅仅来“梦想”数据,可是这种研讨问题的办法早已被用于实际国际,而且对咱们的日常日子产生了强壮影响。相似的算法也能够在金融和医疗范畴发挥作用。



“权利的游戏”国际互动地图的截图


数据提取

考虑实际情况,数据的最好来历是关于《权利游戏》的一系列泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity维基百科介绍。在维基百科上根本包括了5本书以及8季电视剧的内容,总计大约2000位人物的信息。除了提取人物的生计状况,即是否逝世,还需求其他的人物特征信息。

有了描绘每一个人物特征的数据集,下一步是寻觅能够判别人物是否逝世的特搜集。

贝叶斯生计剖析

模型的首要方针是运用贝叶斯揣度相关办法来判别人物不同特征日姐妹与存活率联系。模型假定,每一个都有必定的逝世概率。关于一切人物来说,“根本风险”到来的逝世概率都是相同的。艺人之所以领盒饭,必定他演的人物有“作死”特性。

例如,男人逝世babyface酒吧概率为60%,而呆在兰尼斯特家里或许会下降50%。归纳考虑这两个要素之后,就能够树立一个生计函数。

这个生计函数详细描绘的是:在某个时刻点泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity,人物存活率。例如它或许通知咱们,乔恩雪诺(Jon Snow)活到60岁的概率是45%,或许杰米兰尼斯特( Jamie Lannister)被认为有60%的几率能活到第八季。

运用带有pymc3封装的MCMC仿真来练习这个模型。挑选下列几个特征进行剖析:

  • 家庭(House)
  • 爱人(Lovers)
  • 婚姻(Marriage)
  • 位置(Titles)
  • 主角/副角(Major/Minor character)
  • 男性(Male)
  • 神经网络(Neural Network)


Keras树立模型

慕尼黑的同学运用了Python的Keras来树立模型。根本上是最简略的神经网络架构之一——前馈技能。这意味着,输入泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity值是具有恣意数量的实值维深圳机场度的向量,然后经过“躲藏层”进行处理,终究输出也是数字向量。此外,这类神经网络由许多参数组成,参数会在练习过程中主动更改,因而网络输出也能尽或许挨近给定的输入 - 输出联系。

有必要考虑怎样将与人物相关的杂乱信息转换为矢量。某些信息是标量信息,例如维基百科中人物的排名或其联系数。

其他信息或许是一组预界说的值,例如人物呈现的剧集。因而,需求创立一个与剧集维度相同的向量,假如人物呈现在相应的剧会集则将维度设置为1.0,否则为0.0。黄金时代这样,能够将不同品种的信息转换为矢量,而且这些矢量仅相互影响。终究,有1561个书本数据的输入维度和411个显现数据。以下是运用的数据类型☟

  • 原著:性别、页叶江年数多少、亲属数量、年岁、文明、房子、房子区域、忠诚度、人物所属的作品、地址、标题
  • 剧集:性别、内容多少、亲属数量、年岁、忠诚度、人物呈现的剧集、标题


一般来说,“年岁巨细”依然是导致人物逝世最重要的要素; 究竟,年岁越大,之前所遭受的风险就越大! 这便是为什么人物的当时年岁(如伤官配印前所述的单热矢量)也是神经网络输入的一部分。 由于神经本田艾力绅网络输出仅仅将“存活百分比”确定为0和1之间的数字,所以能够为一路向西电影单个人物创立大约90个不同的输入向量,例如或许的年岁就会有一个。 假如该人物在该年岁依然存活,则神经网络将为该输入向量猜测1.0,否则为0.泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity0。

总结一下,让咱们看一妖亦非妖下有关猜测和神经网络的计算数据。 首要,权游原著维基百科共包括484个可用的人物,其间188个用于练习(即现已逝世),剩余的296个还活着的人物创立了猜测。 终究,练习精确率达到了88.回力75%,而终究验证精确率为89.92%。 相似地,能够从剧集维基百科提取1泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity46个可用人物,82个用于练习,64个用泰坦尼克号主题曲,机器学习“剧透”的大结局:三傻瓜首要领导便利,龙母、小恶魔笑到终究,opportunity于猜测。 重生之盛世科技帝国这儿的终究练习精确率为79.64%,终究验证精确率为85.69%。

评论(0)