如何看待羞羞的铁拳全网首播水军

网络水军公司0元起_腾讯视频
三倍流畅播放
1080P蓝光画质
新剧提前看
1080P蓝光画质
纯净式无框播放器
三倍流畅播放
扫一扫 手机继续看
下载需先安装客户端
{clientText}
客户端特权:
3倍流畅播放
当前播放至 {time}
扫一扫 手机继续看
402135867419.0万469128.6万566117118177.3万9622.6万933842.9万74345665302353羞羞的铁拳或超20亿 豆瓣长评疑似“水军”-热门影视-金投热点网-金投网
日,《羞羞的铁拳》上映首日斩获逾1.3亿,票房占比44.8%。10月5日1.7亿票房占比达51.7%。
(http://news.cngold.org/)10月08日讯,【羞羞的铁拳或超20亿 豆瓣长评疑似“水军”】日,《羞羞的铁拳》上映首日斩获逾1.3亿,票房占比44.8%。10月5日1.7亿票房占比达51.7%。上映6天总票房突破10亿,看来不等长假结束,《夏洛特烦恼》就会被超越。估计羞拳最终票房将达20亿以上,成为2017年仅次于《》的赢家。
“麻花模式”再显威力
开心麻花从现场演出起家,愿景是“成为最有影响力的喜剧公司”。
2010年以来,开心麻花以北京为“根据地”,陆续在华南、华东、东北、西北等地中心城市设立子公司进行区域管理,拧出本地化的“开心小麻花”。
截止日,共完成创编话剧21部,累计演出3000多场、观众150多万。2016年,借助新三板挂牌的声势及数亿融资,开心麻花演出业务场次达1628场,演出收入达2.63亿、同比增长42.6%,平均每场收入16.2万。
以演出地域之广、场次及观众之多,开心麻花已基本现实了自己的愿景,成为中国最有影响力的喜剧品牌。
麻花系电影是舞台演出的副产品。千百次地面对观众,编剧、导演可能根据现场反馈不断打磨作品,演员更是练就控制观众喜怒哀乐的“硬功夫”。
通过近5000场演出,开心麻花培养、锻炼出一批优秀演员,代表人物有沈腾、马丽、艾伦、黄才伦、陈昊明、韩云云等。
2015年以来,开心麻花拿出3个成熟IP拍摄电影,陆续推出《夏洛特烦恼》、《驴得水》、《羞羞的铁拳》三部喜剧电影。
     
编辑:linlihua
10月5日,开心麻花出品的第三部电影《羞羞的铁拳》票房突破10亿元大关,在国庆档一骑绝尘,《英伦对决》《追龙》位居第二、三位。
<font class="visited
近日,美国电影艺术与科学学院公布本届奥斯卡最佳外语片参选片单,今年代表中国内地“申奥”的是刷新中国电影票房纪录的《战狼2》。
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;
<font class="visited
《好莱坞报道者》5日称,今年有92个国家/地区报名参选明年奥斯卡外语片角逐,创历史新高。其中《战狼2》将代表中国内地出征。
<font class="visited
“如果你因为我之前的作品失望过愤怒过,请最后一次信任我。”电影《缝纫机乐队》上映4天票房未能过亿,在国庆档表现欠佳,大鹏凌晨发朋友圈“求信任”。
<font class="visited
拥挤的国庆档已经拉开帷幕了,作为唯一一部军事题材的类型片,《空天猎》也迎来了它的观众。
&#160;&#160;&#160;&#160;&#160;
<font class="visited
【十月新规即将落地】“十一”国庆节和中秋...
【全国铁路迎大调图】今起,全国铁路将实行...
【2017毕业生起薪平均4854元】2017年,全国...
【2017胡润财富报告】5日,《2017胡润财富报...
免责声明金投网发布此信息目的在于传播更多信息,与本站立场无关。部分内容来自互联网,不保证该信息(包括但不限于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如无意中侵犯媒体或个人知识产权,请及时来电或致函告之,本站将在第一时间内给予删除处理。若是未经证实的信息仅供参考,不做任何投资和交易根据,据此操作,风险自担。
金投网下载《羞羞的铁拳》好不好看 8万观众说了算——文本情感分析(机器学习)2 months ago赞赏1 人赞赏77收藏分享举报文章被以下专栏收录用数据说话,换一个角度,换一个世界!!!欢迎各位喜欢优达的学习者们,在这里你可以分享所学。公众号同名,Python中文开发者的精神部落{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[{&sourceColumn&:{&lastUpdated&:,&description&:&数据真的会讲故事哦~~&,&permission&:&COLUMN_PUBLIC&,&memberId&:3245703,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&用数据说话,换一个角度,换一个世界!!!&,&urlToken&:&shujugushihui&,&id&:64224,&imagePath&:&v2-8b57deee0ac4aaaeefbcb7.png&,&slug&:&shujugushihui&,&applyReason&:&0&,&name&:&数据故事会~&,&title&:&数据故事会~&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fshujugushihui&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:92,&avatar&:{&id&:&v2-8b57deee0ac4aaaeefbcb7&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-8b57deee0ac4aaaeefbcb7_l.jpg&,&articlesCount&:2},&state&:&accepted&,&targetPost&:{&titleImage&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&lastUpdated&:,&imagePath&:&v2-ac3fbe2edfcd.jpg&,&permission&:&ARTICLE_PUBLIC&,&topics&:[68,],&summary&:&\u003Cb\u003E\u003Ci\u003E本文为 Part 2~~~~\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E\u003Ci\u003EPart 1 在此:\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E〇、 写在前面\u003C\u002Fb\u003E在上一篇\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E 中我们对数据进行了一个初步的探索,完成了一个EDA的流程。那么接下来,在Part 2中呢,我们就要正式开始用\u003Cb\u003E…\u003C\u002Fb\u003E&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T19:05:27+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:4502760,&withContent&:false,&slug&:,&bigTitleImage&:false,&title&:&《羞羞的铁拳》好不好看 8万观众说了算——文本情感分析(机器学习)&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:0,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&author&:{&bio&:&当好数据分析师~~讲好每一个小故事~~&,&isFollowing&:false,&hash&:&50ae83bc42b31c16b794&,&uid&:12,&isOrg&:false,&slug&:&hao-wei-nan&,&isFollowed&:false,&description&:&那个,点个赞关注下呗~万一以后我成大V了,封你做大将军好不好~~\n我已加入“维权骑士”(rightknights.com)的版权保护计划。&,&name&:&伟楠&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fhao-wei-nan&,&avatar&:{&id&:&v2-e489ebfceff0&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:3245703,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:908024},{&sourceColumn&:{&lastUpdated&:,&description&:&&,&permission&:&COLUMN_PUBLIC&,&memberId&:,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&欢迎各位喜欢优达的学习者们,在这里你可以分享所学。&,&urlToken&:&youdanote&,&id&:29322,&imagePath&:&v2-f72c1dfba409fa.jpg&,&slug&:&youdanote&,&applyReason&:&0&,&name&:&Udacity | 优达学习笔记&,&title&:&Udacity | 优达学习笔记&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fyoudanote&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:1706,&avatar&:{&id&:&v2-f72c1dfba409fa&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-f72c1dfba409fa_l.jpg&,&articlesCount&:55},&state&:&accepted&,&targetPost&:{&titleImage&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&lastUpdated&:,&imagePath&:&v2-ac3fbe2edfcd.jpg&,&permission&:&ARTICLE_PUBLIC&,&topics&:[68,],&summary&:&\u003Cb\u003E\u003Ci\u003E本文为 Part 2~~~~\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E\u003Ci\u003EPart 1 在此:\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E〇、 写在前面\u003C\u002Fb\u003E在上一篇\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E 中我们对数据进行了一个初步的探索,完成了一个EDA的流程。那么接下来,在Part 2中呢,我们就要正式开始用\u003Cb\u003E…\u003C\u002Fb\u003E&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T19:05:27+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:4502760,&withContent&:false,&slug&:,&bigTitleImage&:false,&title&:&《羞羞的铁拳》好不好看 8万观众说了算——文本情感分析(机器学习)&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:0,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&author&:{&bio&:&当好数据分析师~~讲好每一个小故事~~&,&isFollowing&:false,&hash&:&50ae83bc42b31c16b794&,&uid&:12,&isOrg&:false,&slug&:&hao-wei-nan&,&isFollowed&:false,&description&:&那个,点个赞关注下呗~万一以后我成大V了,封你做大将军好不好~~\n我已加入“维权骑士”(rightknights.com)的版权保护计划。&,&name&:&伟楠&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fhao-wei-nan&,&avatar&:{&id&:&v2-e489ebfceff0&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:3245703,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:914129},{&sourceColumn&:{&lastUpdated&:,&description&:&Python中文开发者的精神部落。会员来自全球十多个国家和地区,拥有金融科技、量化交易、数据分析、网络爬虫、自然语言处理、树莓派、智能硬件、游戏开发、云计算、区块链与数字货币、自动化运维、Web开发、网络安全攻防等线上线下技术社群。&,&permission&:&COLUMN_PUBLIC&,&memberId&:711380,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&公众号同名,Python中文开发者的精神部落&,&urlToken&:&zimei&,&id&:17558,&imagePath&:&v2-29d994e518953cade86704e66aef3701.jpg&,&slug&:&zimei&,&applyReason&:&0&,&name&:&Python中文社区&,&title&:&Python中文社区&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fzimei&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:35508,&avatar&:{&id&:&v2-29d994e518953cade86704e66aef3701&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-29d994e518953cade86704e66aef3701_l.jpg&,&articlesCount&:243},&state&:&accepted&,&targetPost&:{&titleImage&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&lastUpdated&:,&imagePath&:&v2-ac3fbe2edfcd.jpg&,&permission&:&ARTICLE_PUBLIC&,&topics&:[68,],&summary&:&\u003Cb\u003E\u003Ci\u003E本文为 Part 2~~~~\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E\u003Ci\u003EPart 1 在此:\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E〇、 写在前面\u003C\u002Fb\u003E在上一篇\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E 中我们对数据进行了一个初步的探索,完成了一个EDA的流程。那么接下来,在Part 2中呢,我们就要正式开始用\u003Cb\u003E…\u003C\u002Fb\u003E&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T19:05:27+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:4502760,&withContent&:false,&slug&:,&bigTitleImage&:false,&title&:&《羞羞的铁拳》好不好看 8万观众说了算——文本情感分析(机器学习)&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:0,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&author&:{&bio&:&当好数据分析师~~讲好每一个小故事~~&,&isFollowing&:false,&hash&:&50ae83bc42b31c16b794&,&uid&:12,&isOrg&:false,&slug&:&hao-wei-nan&,&isFollowed&:false,&description&:&那个,点个赞关注下呗~万一以后我成大V了,封你做大将军好不好~~\n我已加入“维权骑士”(rightknights.com)的版权保护计划。&,&name&:&伟楠&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fhao-wei-nan&,&avatar&:{&id&:&v2-e489ebfceff0&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:3245703,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:914132}],&title&:&《羞羞的铁拳》好不好看 8万观众说了算——文本情感分析(机器学习)&,&author&:&hao-wei-nan&,&content&:&\u003Cblockquote\u003E\u003Cb\u003E\u003Ci\u003E本文为 Part 2~~~~\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003Cb\u003E\u003Ci\u003EPart 1 在此:\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\& class=\&internal\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E\u003C\u002Fi\u003E\u003C\u002Fb\u003E \u003C\u002Fblockquote\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E〇、 写在前面\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E在上一篇\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\& class=\&internal\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E 中我们对数据进行了一个初步的探索,完成了一个EDA的流程。那么接下来,在Part 2中呢,我们就要正式开始用\u003Cb\u003E机器学习做情感分类\u003C\u002Fb\u003E了。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E一、 场景应用\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E那首先我们先来看看情感分类有什么用。情感分析呢,也成为\u003Cb\u003E观点挖掘\u003C\u002Fb\u003E,是目前NLP领域一个非常热门的分支。它主要是通过分析\u003Cb\u003E文本的情感倾向\u003C\u002Fb\u003E,结合业务来做一些改进等。\u003C\u002Fp\u003E\u003Cp\u003E目前在电商领域情感分析应用的比较广泛,比如马上就双十一了,大家经常逛淘宝可能会在买东西前先看一看普遍的评论怎么样。这时候不知道大家有没有留意到,在评论的最上面经常会出现一些关键词,并用红色或绿色标明了大家觉得这个商品好不好。那么究竟怎么判断一天评论是红色还是绿色呢,这就是通过训练好的情感分类模型来进行判别了。\u003Ci\u003E\u003Cb\u003E当然淘宝这个还涉及到了文本聚类,关键词提取等等,这些就不在我们本文范围之内了(报告老师 这些超纲了),等以后在来搞这一块吧。\u003C\u002Fb\u003E\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-010f79d43a55eeed4e8d_b.jpg\& data-rawwidth=\&787\& data-rawheight=\&136\& class=\&origin_image zh-lightbox-thumb\& width=\&787\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-010f79d43a55eeed4e8d_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;787&#x27;%20height=&#x27;136&#x27;&&\u002Fsvg&\& data-rawwidth=\&787\& data-rawheight=\&136\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&787\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-010f79d43a55eeed4e8d_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-010f79d43a55eeed4e8d_b.jpg\&\u003E\u003Cfigcaption\u003E淘宝评论\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E那么电商有这样的应用,可在电影领域呢?毕竟我们这次的数据集是豆瓣影评呀。嗯,我设想出来了三个应用场景(拍脑瓜想的,没有严谨的思考哈):\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E用于社交平台的舆论分析\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E对预告片评论分类\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E利用好评-差评比结合票房建模,预测舆论对于票房的影响情况\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E社交平台的舆论分析主要是可以用来判断某个社交平台的用户对于本片的态度,大家知道不同的社交平台其\u003Cb\u003E目标人群\u003C\u002Fb\u003E是不同,自然\u003Cb\u003E价值观\u003C\u002Fb\u003E也是不同的(例如知乎、快手、微博的用户群体都是不同的)。那么当一部电影需要公关的时候,它可以根据不同平台的倾向性,更好的调配自己的资源(水军???)。比如某某明星出事了,可能微博上都是他的粉丝,大家都很支持他,而知乎上都是分析骂他的人,这个时候公关就应该把精力更多的放在知乎上来为明星洗地。而微博则可以不用投入太多资源,因为就算你不洗,粉丝都是支持他的。\u003C\u002Fp\u003E\u003Cp\u003E预告片评论的话,可以分析出大家对于这部影片的期待程度。可以为上映前的宣传策略做指导,进行精准营销。同时也可以给影院排片比例做指导。\u003C\u002Fp\u003E\u003Cp\u003E票房这点的话,主要是想着了解舆论对于票房的影响程度,通过舆论也可以对票房做一个预测,同样是给影院在决定拍片比例以及档期时间提供一定的指导。毕竟《逐梦演艺圈》的毕导都说了,\u003Cb\u003E“一个青年导演花十二年心血认认真真给中国拍电影,被豆瓣一天毁了”\u003C\u002Fb\u003E,可见舆论多厉害啊。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E二、 数据预处理\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E词袋模型(bag-of-words model)\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E我们使用《夏洛特》和《驴得水》合并来的数据进行建模,之后在铁拳上看看效果如何。但在此之前,先给大家介绍下一个非常有用的模型——\u003Cb\u003E词袋模型\u003C\u002Fb\u003E。\u003C\u002Fp\u003E\u003Cp\u003E首先对于NLP领域来说,\u003Cb\u003E词袋模型(bag-of-words model)\u003C\u002Fb\u003E是文本挖掘中一个非常成熟的模型。它将文本以数值特征向量的形式来表示出来,简单的描述下: \u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003E我们在整个文档中为每个词汇创建唯一标记,如单词。 \u003C\u002Fli\u003E\u003Cli\u003E为每个文档构建一个包含每个单词在此文档中出现次数的特征向量。 \u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E具体的网上有很多文章讲得很详细,大家感兴趣的话可以自己去看看。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E简单说下词袋后,我们要接着对我们的数据进行一些处理,首先就是要\u003Cb\u003E去除停用词\u003C\u002Fb\u003E。\u003C\u002Fp\u003E\u003Cp\u003E什么是停用词呢?就是类似于\u003Cb\u003E“的”“哦”“啊”“是”\u003C\u002Fb\u003E这些没有太多\u003Cb\u003E信息量\u003C\u002Fb\u003E的介词、助词等。因为这些词不带有多少\u003Cb\u003E信息量\u003C\u002Fb\u003E,而且会对我们的模型造成干扰,也会增加我们的计算成本,所以我们在一开始就要先把他们去掉。网上有很多中文的停用词集合,我也自己整理收集了一份感觉是目前最全的停用词表,大家如果有需要的话,我发给大家。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-3e1adda411c8c391e4ef4_b.jpg\& data-rawwidth=\&632\& data-rawheight=\&399\& class=\&origin_image zh-lightbox-thumb\& width=\&632\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-3e1adda411c8c391e4ef4_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;632&#x27;%20height=&#x27;399&#x27;&&\u002Fsvg&\& data-rawwidth=\&632\& data-rawheight=\&399\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&632\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-3e1adda411c8c391e4ef4_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-3e1adda411c8c391e4ef4_b.jpg\&\u003E\u003Cfigcaption\u003E部分停用词\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E这之后呢,中文NLP跟英文NLP最大的不同就是中文要先进行\u003Cb\u003E分词处理\u003C\u002Fb\u003E,而英文则不用。那什么是分词,说白了就是小学语文经常考的断句。例如:\u003Cb\u003E“今天天气真好”\u003C\u002Fb\u003E,我们正常人会把它断句成:\u003Cb\u003E“今天\u002F天气\u002F真\u002F好”\u003C\u002Fb\u003E,相信不会有人断成:\u003Cb\u003E“今\u002F天天气\u002F真好”\u003C\u002Fb\u003E吧。\u003C\u002Fp\u003E\u003Cp\u003E至于为什么中文要分词,英文却不用呢?其实大家想想\u003Cb\u003E“what a nice day today”\u003C\u002Fb\u003E,我们会怎么断句呢?没错当然是通过\u003Cb\u003E空格\u003C\u002Fb\u003E了,英语天生就有空格来作为它的分词符,而中文是没有的,所以对于中文我们先要进行分词。分词的好坏直接决定了后面文本分析的准确与否。\u003C\u002Fp\u003E\u003Cp\u003E那如何实现中文分词呢?大致可分为 \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E机械分词、\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E统计分词、\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E机器学习分词 \u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E而机器学习分词比较常见的方法是\u003Cb\u003E隐马尔可夫模型(Hidden Markov Model,HMM)\u003C\u002Fb\u003E和\u003Cb\u003E条件随机场(Conditional Random Field,CRF)\u003C\u002Fb\u003E,具体的就不展开说了,超出我们这篇文章的范畴了,感兴趣的同学可以自己找一下相关的论文来看哈。\u003C\u002Fp\u003E\u003Cp\u003E目前中文分词系统有开源的\u003Cb\u003E结巴分词、中科院的ICTCLAS、哈工大的ltp\u003C\u002Fb\u003E等,这里我们选择用结巴分词,结巴分词也是基于\u003Cb\u003EHMM的Viterbi算法\u003C\u002Fb\u003E实现的。\u003C\u002Fp\u003E\u003Cp\u003E我们先写好几个方法,用了分词及去除停用词。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-e6aa359f3caff05123bf_b.jpg\& data-caption=\&\& data-rawwidth=\&828\& data-rawheight=\&488\& class=\&origin_image zh-lightbox-thumb\& width=\&828\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-e6aa359f3caff05123bf_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;828&#x27;%20height=&#x27;488&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&828\& data-rawheight=\&488\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&828\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-e6aa359f3caff05123bf_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-e6aa359f3caff05123bf_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E然而对于一些\u003Cb\u003E特殊的词或者人名\u003C\u002Fb\u003E什么的,可能结巴分词不能很好的正确划分出来,最好自己先提前添加一个\u003Cb\u003E自定义的用户词典\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-1d56040efdfd230ae645de_b.jpg\& data-caption=\&\& data-rawwidth=\&565\& data-rawheight=\&69\& class=\&origin_image zh-lightbox-thumb\& width=\&565\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-1d56040efdfd230ae645de_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;565&#x27;%20height=&#x27;69&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&565\& data-rawheight=\&69\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&565\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-1d56040efdfd230ae645de_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-1d56040efdfd230ae645de_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E构建标签\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E我们说了情感分类是一个\u003Cb\u003E有监督的分类问题\u003C\u002Fb\u003E,所以我们还要构建我们的\u003Cb\u003E标签\u003C\u002Fb\u003E。这也就是选择豆瓣的好处,因为豆瓣上每个评论都会带有观众对于这部电影的打分,而这些打分反应出了观众对于这部电影的情感。\u003C\u002Fp\u003E\u003Cp\u003E我们取\u003Cb\u003E4星及以上\u003C\u002Fb\u003E的作为\u003Cb\u003E标签“1”\u003C\u002Fb\u003E,\u003Cb\u003E3星及以下\u003C\u002Fb\u003E的为\u003Cb\u003E标签“0”\u003C\u002Fb\u003E,构造\u003Cb\u003Esentiment列\u003C\u002Fb\u003E。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-3f49c8aa2b32a04c68ad42ffcc36d6ce_b.jpg\& data-caption=\&\& data-rawwidth=\&586\& data-rawheight=\&319\& class=\&origin_image zh-lightbox-thumb\& width=\&586\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-3f49c8aa2b32a04c68ad42ffcc36d6ce_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;586&#x27;%20height=&#x27;319&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&586\& data-rawheight=\&319\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&586\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-3f49c8aa2b32a04c68ad42ffcc36d6ce_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-3f49c8aa2b32a04c68ad42ffcc36d6ce_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E现在就可以将我们的评论数据进行分词了。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-23da5c3df134_b.jpg\& data-caption=\&\& data-rawwidth=\&503\& data-rawheight=\&123\& class=\&origin_image zh-lightbox-thumb\& width=\&503\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-23da5c3df134_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;503&#x27;%20height=&#x27;123&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&503\& data-rawheight=\&123\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&503\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-23da5c3df134_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-23da5c3df134_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E之后按照惯例将数据划分为\u003Cb\u003E训练集和测试集\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-d6a599f6ab_b.jpg\& data-caption=\&\& data-rawwidth=\&974\& data-rawheight=\&97\& class=\&origin_image zh-lightbox-thumb\& width=\&974\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-d6a599f6ab_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;974&#x27;%20height=&#x27;97&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&974\& data-rawheight=\&97\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&974\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-d6a599f6ab_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-d6a599f6ab_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E至此我们对于数据的初步处理就完成了,接下来可以将数据扔进模型里跑一跑了。处理好的数据大致如下:\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-457d8a29e1_b.jpg\& data-caption=\&\& data-rawwidth=\&1093\& data-rawheight=\&404\& class=\&origin_image zh-lightbox-thumb\& width=\&1093\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-457d8a29e1_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;1093&#x27;%20height=&#x27;404&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&1093\& data-rawheight=\&404\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1093\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-457d8a29e1_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-457d8a29e1_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Ch2\u003E\u003Cb\u003E三、 tf-idf\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E等等,我刚刚好像说\u003Ci\u003E“可以将数据扔进模型里跑一跑了”\u003C\u002Fi\u003E,然而实际上大家尝试下就会发现还不行,模型不认这些文本啊。这就要涉及到将文本数据转换成为\u003Cb\u003E数值格式\u003C\u002Fb\u003E了。\u003C\u002Fp\u003E\u003Cp\u003E该怎么做呢?我们可以使用\u003Cb\u003Esklearn中的Count-Vectorizer\u003C\u002Fb\u003E来实现,它以文本数据作为输入,返回的便是我们需要的词袋模型。不过这里我们暂时先不使用这个方法,因为....我懒,我要走捷径。至于什么捷径呢,先按下不表。\u003C\u002Fp\u003E\u003Cp\u003E在此之前我先给大家再介绍一个文本挖掘领域用到烂的不能再烂的方法了,但是确实又十分方便好用。这个...招不在新,管用就行嘛。我们隆重欢迎 \u003Cb\u003Etf-idf(词频-逆文档频率)\u003C\u002Fb\u003E 闪亮登场。\u003C\u002Fp\u003E\u003Cp\u003E什么是tf-idf呢,顾名思义,大家光看名字也能猜到些些了,其实很容易理解。\u003Cb\u003Etf就是词频\u003C\u002Fb\u003E,表示一个词在文档中出现的频率。这里有一个假设,就是如果一个词在文章中出现的次数越多,说明它越能代表这篇文章。这么说是有道理的,然而实际操作中就会发现,出现最多的基本上都是类似于“的”、“是”、“哦”等没有实际信息量的词汇。\u003C\u002Fp\u003E\u003Cp\u003E这时候该怎么办呢,就要派我们的idf出场了。\u003Cb\u003E逆文档频率\u003C\u002Fb\u003E,意为文档的总数与包含某词汇的文档数量的比值。通俗点说也就是一个词在越多的文档中出现就意味着这个词越不重要,你就是个大众货。这样就能有效降低像“的”、“是”等词的权重。\u003C\u002Fp\u003E\u003Cp\u003E而\u003Cb\u003Etf-idf就是将两项相乘\u003C\u002Fb\u003E,找出最能代表一篇文章的词。大家可以想想是不是基本上每篇文章都会出现大量的“的”“是”等词,虽然他们出现的频率很高但是他们完全没法代表一篇文章的内容。而像我这段描述中,‘tf’&#x27;idf&#x27;等词在这段中出现的次数虽然不是最多但还算可以,可是在别的段落中基本上却没有出现过,所以就可以认为最能代表我这段话内容的词应该就是‘tf’&#x27;idf&#x27;了。 这么说大家应该明白了吧~\u003C\u002Fp\u003E\u003Cp\u003E这里还有一篇阮一峰老师写的文章,讲解的很透彻大家可以学习下~\u003Cu\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.ruanyifeng.com\u002Fblog\u002F\u002Ftf-idf.html\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eruanyifeng.com\u002Fblog\u002F201\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E3\u002F03\u002Ftf-idf.html\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E嗯,那么回到刚刚说的捷径上来,sklearn提供了一个很方便的工具来将文本转换为tf-idf矩阵——\u003Cb\u003ETfidfVectorizer\u003C\u002Fb\u003E。它可以直接将文本转换成tf-idf矩阵,而不用先通过Count-Vectorizer转换为特征向量,再用TfidfTransformer转换成tf-idf矩阵这么麻烦\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-9fd5eeb76cd8c62075b6_b.jpg\& data-caption=\&\& data-rawwidth=\&1123\& data-rawheight=\&171\& class=\&origin_image zh-lightbox-thumb\& width=\&1123\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-9fd5eeb76cd8c62075b6_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;1123&#x27;%20height=&#x27;171&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&1123\& data-rawheight=\&171\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&1123\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-9fd5eeb76cd8c62075b6_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-9fd5eeb76cd8c62075b6_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E现在将我们的评论数据转换成tf-idf矩阵。这里还要在提一下\u003Cb\u003Engram_range\u003C\u002Fb\u003E这个参数。它是用来设定\u003Cb\u003En元祖(n_gram)模型\u003C\u002Fb\u003E的n。n_gram是什么意思呢,直接举个例子大家就明白了。\u003C\u002Fp\u003E\u003Cp\u003E这有一句话:What a nice day today. \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E1-gram:\&what\&,\&a\&,\&nice\&,\&day\&,\&today\& \u003C\u002Fli\u003E\u003Cli\u003E2-gram:\&what a\&,\&a nice\&,\&nice day\&,\&day today\&\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E那么做完这些工作后,此时我们的文本数据就已经被转换成了tf-idf矩阵了,这是一个\u003Cb\u003E异常稀疏\u003C\u002Fb\u003E的矩阵,因为每个文档中出现的单词数量都只是整个词袋中的一个很小很小的子集,所以特征向量中的绝大部分元素都是0。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-eb9cff76c5aca9c3e181f88_b.jpg\& data-caption=\&\& data-rawwidth=\&372\& data-rawheight=\&70\& class=\&content_image\& width=\&372\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;372&#x27;%20height=&#x27;70&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&372\& data-rawheight=\&70\& class=\&content_image lazy\& width=\&372\& data-actualsrc=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-eb9cff76c5aca9c3e181f88_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E四、 特征选择\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E我们将文本转换成特征向量后,会发现其特征具有\u003Cb\u003E非常高的维度\u003C\u002Fb\u003E。这么多的特征要如何筛选呢。我见到很多人是直接用tfidf的值来进行特征筛选的,个人感觉这样是不太好的,应该通过\u003Cb\u003E卡方检验\u003C\u002Fb\u003E或者\u003Cb\u003E信息增益\u003C\u002Fb\u003E等方法来选择特征。至于为什么,这里有一篇文章阐述的比较清楚,我就不另外解释了。\u003Cu\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.blogjava.net\u002Fzhenandaci\u002Farchive\u002F\u002F19\u002F266388.html\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eblogjava.net\u002Fzhenandaci\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002Farchive\u002F\u002F19\u002F266388.html\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003C\u002Fp\u003E\u003Cp\u003E在这里我使用\u003Cb\u003E卡方检验\u003C\u002Fb\u003E结合 feature_selection 中的 \u003Cb\u003ESelectKBest\u003C\u002Fb\u003E 来做特征选择。我们将k的取值画出来,可以看到当k等于40000万左右的时候效果最好\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-1451cede68eff05a254247_b.jpg\& data-caption=\&\& data-rawwidth=\&762\& data-rawheight=\&542\& class=\&origin_image zh-lightbox-thumb\& width=\&762\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-1451cede68eff05a254247_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;762&#x27;%20height=&#x27;542&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&762\& data-rawheight=\&542\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&762\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-1451cede68eff05a254247_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-1451cede68eff05a254247_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-87c85dec2b75f9d78e191_b.jpg\& data-caption=\&\& data-rawwidth=\&535\& data-rawheight=\&302\& class=\&origin_image zh-lightbox-thumb\& width=\&535\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-87c85dec2b75f9d78e191_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;535&#x27;%20height=&#x27;302&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&535\& data-rawheight=\&302\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&535\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-87c85dec2b75f9d78e191_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-87c85dec2b75f9d78e191_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E所以就让我们愉快的利用卡方检验取前40000个特征作为我们最终的训练集吧。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-0b7b8dabf3ee22e6271bc1bedac32ff5_b.jpg\& data-caption=\&\& data-rawwidth=\&517\& data-rawheight=\&92\& class=\&origin_image zh-lightbox-thumb\& width=\&517\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-0b7b8dabf3ee22e6271bc1bedac32ff5_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;517&#x27;%20height=&#x27;92&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&517\& data-rawheight=\&92\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&517\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-0b7b8dabf3ee22e6271bc1bedac32ff5_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-0b7b8dabf3ee22e6271bc1bedac32ff5_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E可以看到这是一个 (00)的矩阵,共有1472109个元素,可以说是\u003Cb\u003E非常稀疏\u003C\u002Fb\u003E了\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-f767bce4da2aa6c628f5e0023fff61f6_b.jpg\& data-caption=\&\& data-rawwidth=\&598\& data-rawheight=\&81\& class=\&origin_image zh-lightbox-thumb\& width=\&598\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-f767bce4da2aa6c628f5e0023fff61f6_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;598&#x27;%20height=&#x27;81&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&598\& data-rawheight=\&81\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&598\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-f767bce4da2aa6c628f5e0023fff61f6_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-f767bce4da2aa6c628f5e0023fff61f6_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E当然,特征工程的方法非常多,这是一门非常高深的学问。毕竟我们常说\u003Cb\u003E“特征决定模型的上限,调参只是无限逼近这个上限”\u003C\u002Fb\u003E。选择特征的方法也要根据不同的场景做变化。利用\u003Cb\u003E随机森林\u003C\u002Fb\u003E跑一遍模型看\u003Cb\u003E特征重要性\u003C\u002Fb\u003E也是一个非常好的方法~~\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E五、 真·训练模型\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E这回真的真的可以直接把数据丢进模型跑跑了,不骗你们。【流下了激动的泪水】\u003C\u002Fp\u003E\u003Cp\u003E有了训练数据,有了标签,那我们现在的任务就可以转换成一个\u003Cb\u003E有监督的二分类任务\u003C\u002Fb\u003E了。进行情感分类的时候,我们将观众的影评分为\u003Cb\u003E正向\u003C\u002Fb\u003E和\u003Cb\u003E负向\u003C\u002Fb\u003E的情感。这里我们使用\u003Cb\u003E朴素贝叶斯\u003C\u002Fb\u003E和\u003Cb\u003E逻辑斯蒂回归\u003C\u002Fb\u003E两个模型来做分类,对比下效果。通常情况下,朴素贝叶斯对于文本数据的效果一般都很不错。我们将筛选好的tfidf特征作为训练输入数据,将对应的情感值作为标签,进行训练。\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E朴素贝叶斯\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E先用\u003Cb\u003E朴素贝叶斯\u003C\u002Fb\u003E看看效果,调参我用了GridSearchCV网格搜索自动调参,交叉验证cv取10折,scoring为‘roc_auc’。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-a9f2c7a7e7d6db1ed31c13_b.jpg\& data-caption=\&\& data-rawwidth=\&695\& data-rawheight=\&262\& class=\&origin_image zh-lightbox-thumb\& width=\&695\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-a9f2c7a7e7d6db1ed31c13_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;695&#x27;%20height=&#x27;262&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&695\& data-rawheight=\&262\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&695\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-a9f2c7a7e7d6db1ed31c13_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-a9f2c7a7e7d6db1ed31c13_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E在训练集上得分0.88,看起来效果还行吧,那么在看看测试集上的表现如何咧。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-a8dbf419d764a_b.jpg\& data-caption=\&\& data-rawwidth=\&543\& data-rawheight=\&94\& class=\&origin_image zh-lightbox-thumb\& width=\&543\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-a8dbf419d764a_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;543&#x27;%20height=&#x27;94&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&543\& data-rawheight=\&94\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&543\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-a8dbf419d764a_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-a8dbf419d764a_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E测试集0.806,也还好,可以接受。那我们生成\u003Cb\u003E混淆矩阵\u003C\u002Fb\u003E看看recall、Precision和f1-score吧\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-670f6e946c712527acdfe3d4e8f49a32_b.jpg\& data-caption=\&\& data-rawwidth=\&690\& data-rawheight=\&363\& class=\&origin_image zh-lightbox-thumb\& width=\&690\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-670f6e946c712527acdfe3d4e8f49a32_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;690&#x27;%20height=&#x27;363&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&690\& data-rawheight=\&363\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&690\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-670f6e946c712527acdfe3d4e8f49a32_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-670f6e946c712527acdfe3d4e8f49a32_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E在测试集上正例的recall有0.92,precision也有0.83,f1为0.87,看起来还行。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-3ff2cd5e44e42bf113db97_b.jpg\& data-caption=\&\& data-rawwidth=\&482\& data-rawheight=\&134\& class=\&origin_image zh-lightbox-thumb\& width=\&482\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-3ff2cd5e44e42bf113db97_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;482&#x27;%20height=&#x27;134&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&482\& data-rawheight=\&134\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&482\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-3ff2cd5e44e42bf113db97_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-3ff2cd5e44e42bf113db97_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-79daa9e264a401b7d618c63_b.jpg\& data-caption=\&\& data-rawwidth=\&437\& data-rawheight=\&347\& class=\&origin_image zh-lightbox-thumb\& width=\&437\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-79daa9e264a401b7d618c63_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;437&#x27;%20height=&#x27;347&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&437\& data-rawheight=\&347\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&437\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-79daa9e264a401b7d618c63_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-79daa9e264a401b7d618c63_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E那在看看\u003Cb\u003EROC曲线\u003C\u002Fb\u003E吧\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-98b034a3f755fe65c13ab8db8b8686e7_b.jpg\& data-caption=\&\& data-rawwidth=\&527\& data-rawheight=\&337\& class=\&origin_image zh-lightbox-thumb\& width=\&527\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-98b034a3f755fe65c13ab8db8b8686e7_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;527&#x27;%20height=&#x27;337&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&527\& data-rawheight=\&337\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&527\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-98b034a3f755fe65c13ab8db8b8686e7_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-98b034a3f755fe65c13ab8db8b8686e7_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E逻辑斯蒂回归\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E接下来看看LogisticRegression的效果,同样采用GridSearchCV自动调参,交叉验证取10,scoring=‘roc_auc’\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-dac62a5a9fa9633bdb4b6673_b.jpg\& data-caption=\&\& data-rawwidth=\&585\& data-rawheight=\&286\& class=\&origin_image zh-lightbox-thumb\& width=\&585\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-dac62a5a9fa9633bdb4b6673_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;585&#x27;%20height=&#x27;286&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&585\& data-rawheight=\&286\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&585\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-dac62a5a9fa9633bdb4b6673_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-dac62a5a9fa9633bdb4b6673_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E训练集上得分0.87,稍弱于贝叶斯童鞋。再来看看测试集上\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8b2a0ee9990afc674685_b.jpg\& data-caption=\&\& data-rawwidth=\&556\& data-rawheight=\&92\& class=\&origin_image zh-lightbox-thumb\& width=\&556\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8b2a0ee9990afc674685_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;556&#x27;%20height=&#x27;92&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&556\& data-rawheight=\&92\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&556\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8b2a0ee9990afc674685_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8b2a0ee9990afc674685_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E测试集得分0.81,要比贝叶斯来的好一点。\u003C\u002Fp\u003E\u003Cp\u003E同样接下来看看\u003Cb\u003E混淆矩阵\u003C\u002Fb\u003E,在测试集上正例的recall有0.92,precision也有0.84,f1为0.88,略微好于朴素贝叶斯。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-c6640dc6cff0d1ea2edbdc_b.jpg\& data-caption=\&\& data-rawwidth=\&555\& data-rawheight=\&153\& class=\&origin_image zh-lightbox-thumb\& width=\&555\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-c6640dc6cff0d1ea2edbdc_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;555&#x27;%20height=&#x27;153&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&555\& data-rawheight=\&153\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&555\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-c6640dc6cff0d1ea2edbdc_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-c6640dc6cff0d1ea2edbdc_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-4e72fea4b0f6_b.jpg\& data-caption=\&\& data-rawwidth=\&461\& data-rawheight=\&366\& class=\&origin_image zh-lightbox-thumb\& width=\&461\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-4e72fea4b0f6_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;461&#x27;%20height=&#x27;366&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&461\& data-rawheight=\&366\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&461\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-4e72fea4b0f6_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-4e72fea4b0f6_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cb\u003EROC曲线\u003C\u002Fb\u003E如下:\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-fc9b06b6d03b2b6ce71c9a_b.jpg\& data-caption=\&\& data-rawwidth=\&527\& data-rawheight=\&318\& class=\&origin_image zh-lightbox-thumb\& width=\&527\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-fc9b06b6d03b2b6ce71c9a_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;527&#x27;%20height=&#x27;318&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&527\& data-rawheight=\&318\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&527\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-fc9b06b6d03b2b6ce71c9a_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-fc9b06b6d03b2b6ce71c9a_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E花费了那么长时间来训练模型,如果不把模型保存下来留着以后再用的话,就太对不起家里的电费了,是吧~\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-8b699a5f50cee34d1cc31bc0f29146b6_b.jpg\& data-caption=\&\& data-rawwidth=\&426\& data-rawheight=\&163\& class=\&origin_image zh-lightbox-thumb\& width=\&426\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-8b699a5f50cee34d1cc31bc0f29146b6_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;426&#x27;%20height=&#x27;163&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&426\& data-rawheight=\&163\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&426\& data-original=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-8b699a5f50cee34d1cc31bc0f29146b6_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-8b699a5f50cee34d1cc31bc0f29146b6_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cb\u003E六、 在《羞羞的铁拳》上测试效果\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E将我们已经训练好的模型,在实际中测试下看看效果如何。用了我们上篇探索了半天的《羞羞的铁拳》来测试吧。\u003C\u002Fp\u003E\u003Cp\u003E首先别忘了要先\u003Cb\u003Etransform\u003C\u002Fb\u003E下:\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8ae6cd62c1a_b.jpg\& data-caption=\&\& data-rawwidth=\&454\& data-rawheight=\&81\& class=\&origin_image zh-lightbox-thumb\& width=\&454\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8ae6cd62c1a_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;454&#x27;%20height=&#x27;81&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&454\& data-rawheight=\&81\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&454\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8ae6cd62c1a_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-8ae6cd62c1a_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E朴素贝叶斯\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E朴素贝叶斯的话,得分0.77。唔,不是特别的好,估计是\u003Cb\u003E训练样本太小\u003C\u002Fb\u003E了,毕竟才只拿了两部电影的数据来做训练。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-eda5bb9da0dd_b.jpg\& data-caption=\&\& data-rawwidth=\&363\& data-rawheight=\&112\& class=\&content_image\& width=\&363\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;363&#x27;%20height=&#x27;112&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&363\& data-rawheight=\&112\& class=\&content_image lazy\& width=\&363\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-eda5bb9da0dd_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E混淆矩阵和ROC在这,随便看看吧 哈哈哈\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-fabdb8bc8_b.jpg\& data-caption=\&\& data-rawwidth=\&499\& data-rawheight=\&125\& class=\&origin_image zh-lightbox-thumb\& width=\&499\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-fabdb8bc8_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;499&#x27;%20height=&#x27;125&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&499\& data-rawheight=\&125\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&499\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-fabdb8bc8_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-fabdb8bc8_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-16bf3a4ac_b.jpg\& data-rawwidth=\&419\& data-rawheight=\&353\& class=\&content_image\& width=\&419\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;419&#x27;%20height=&#x27;353&#x27;&&\u002Fsvg&\& data-rawwidth=\&419\& data-rawheight=\&353\& class=\&content_image lazy\& width=\&419\& data-actualsrc=\&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-16bf3a4ac_b.jpg\&\u003E\u003Cfigcaption\u003E混淆矩阵\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-ed36cdbe_b.jpg\& data-rawwidth=\&486\& data-rawheight=\&328\& class=\&origin_image zh-lightbox-thumb\& width=\&486\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-ed36cdbe_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;486&#x27;%20height=&#x27;328&#x27;&&\u002Fsvg&\& data-rawwidth=\&486\& data-rawheight=\&328\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&486\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-ed36cdbe_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-ed36cdbe_b.jpg\&\u003E\u003Cfigcaption\u003EROC\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E逻辑斯蒂回归\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003ELR效果也差不多,还是训练数据太少了。\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-36f6db0de73af172c8ecb4_b.jpg\& data-caption=\&\& data-rawwidth=\&342\& data-rawheight=\&102\& class=\&content_image\& width=\&342\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;342&#x27;%20height=&#x27;102&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&342\& data-rawheight=\&102\& class=\&content_image lazy\& width=\&342\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-36f6db0de73af172c8ecb4_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E附上混淆矩阵和ROC吧\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-2f0ccf8dfeccca85a4fd8b_b.jpg\& data-caption=\&\& data-rawwidth=\&482\& data-rawheight=\&140\& class=\&origin_image zh-lightbox-thumb\& width=\&482\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-2f0ccf8dfeccca85a4fd8b_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;482&#x27;%20height=&#x27;140&#x27;&&\u002Fsvg&\& data-caption=\&\& data-rawwidth=\&482\& data-rawheight=\&140\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&482\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-2f0ccf8dfeccca85a4fd8b_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-2f0ccf8dfeccca85a4fd8b_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-2d6abce239afbdcc310ba3c_b.jpg\& data-rawwidth=\&434\& data-rawheight=\&362\& class=\&origin_image zh-lightbox-thumb\& width=\&434\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-2d6abce239afbdcc310ba3c_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;434&#x27;%20height=&#x27;362&#x27;&&\u002Fsvg&\& data-rawwidth=\&434\& data-rawheight=\&362\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&434\& data-original=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-2d6abce239afbdcc310ba3c_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-2d6abce239afbdcc310ba3c_b.jpg\&\u003E\u003Cfigcaption\u003E混淆矩阵\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-5082cbdf59bb_b.jpg\& data-rawwidth=\&495\& data-rawheight=\&321\& class=\&origin_image zh-lightbox-thumb\& width=\&495\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-5082cbdf59bb_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns=&#x27;http:\u002F\u002Fwww.w3.org\u002FFsvg&#x27;%20width=&#x27;495&#x27;%20height=&#x27;321&#x27;&&\u002Fsvg&\& data-rawwidth=\&495\& data-rawheight=\&321\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&495\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-5082cbdf59bb_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-5082cbdf59bb_b.jpg\&\u003E\u003Cfigcaption\u003EROC\u003C\u002Ffigcaption\u003E\u003C\u002Ffigure\u003E\u003Ch2\u003E\u003Cb\u003E七、 总结\u003C\u002Fb\u003E\u003C\u002Fh2\u003E\u003Cp\u003E这次分析到此就结束了,总共分为两个部分:\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003EEDA\u003C\u002Fli\u003E\u003Cli\u003E文本情感分析\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E在\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\& class=\&internal\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E中,对数据进行了初步的探索,看了下各星级的人数分布、电影热度随时间变化、各星级词云等,算是对数据有个整体的认知吧。\u003C\u002Fp\u003E\u003Cp\u003E在本部分中则针对如何建立一个文本情感分类器的流程做了一个演示,主要为以下几点:\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003E数据处理(分词、去停止词)\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E构建tf-idf矩阵\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E卡方检验筛选特征\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E建立模型\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003E模型调优、评估\u003C\u002Fb\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E最后\u003Cb\u003E朴素贝叶斯模型\u003C\u002Fb\u003E在训练集上accuracy为0.88,测试集上0.806,在实际预测《羞羞的铁拳》中为0.77。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E逻辑斯蒂回归模型\u003C\u002Fb\u003E在训练集上accuracy为0.87,测试集上0.81,在实际预测《羞羞的铁拳》中为0.75。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E说下自己觉得今后还可以改进的地方,\u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003E首先,在实际数据中跑出来的效果并不是特别的好,这个我在前面也提到了,跟\u003Cb\u003E采集的数据太少了\u003C\u002Fb\u003E有关。毕竟总共只采集了两部电影来做训练集,这肯定是远远不够的。而且我还是别有心机的选择了同为开心麻花的电影来做测试,毕竟同样导演同样风格的电影,预测的会更准一些。如果换一部电影,比如说《战狼2》估计最后的得分会更低。所以如果在真实项目中的话,这个原始数据肯定要采集的多很多倍才行了。\u003C\u002Fli\u003E\u003Cli\u003E其实词袋模型虽然非常经典但是也还是有缺陷的,比如说它忽略了\u003Cb\u003E词与词之间的关系\u003C\u002Fb\u003E,把每个词都拆分成了单独的存在。可以使用\u003Cb\u003ELDA主题模型(隐含狄利克雷分布)\u003C\u002Fb\u003E来一定程度上解决此问题,LDA主题模型就是用来\u003Cb\u003E挖掘出意义相关的语句\u003C\u002Fb\u003E的。需要注意的是这里的\u003Cb\u003ELDA是隐含狄利克雷分布(Latent Dieichlet Allocaion,LDA)\u003C\u002Fb\u003E而非我们常用来降维的\u003Cb\u003E线性判别分析LDA(Linear Discriminant Analysis,LDA)\u003C\u002Fb\u003E,大家千万不要搞混了。我之前见到有人把这两个混为一谈了,可真真是贻笑大方啊~~~\u003C\u002Fli\u003E\u003Cli\u003E像本篇使用的是经典的文本分析方法,现在深度学习的流行,让使用深度学习进行文本分析变得非常热门,比如\u003Cb\u003EGoogle开源\u003C\u002Fb\u003E的\u003Cb\u003EWord2Vec\u003C\u002Fb\u003E。以后有机会的话,可以再尝试写一篇深度学习用于文本分析的。非常羡慕大神们用\u003Cb\u003ERNN\u003C\u002Fb\u003E等搞出来的各种各种让人惊艳的作品啊,比如续写冰与火的那个~~感觉好有意思~看来未来的道路还很长啊~~~\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E广告时间:欢迎大家看看我以前的文章哈,顺便关注下专栏,点个赞呗~\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\& class=\&internal\&\u003E值得一去的饭店在哪里?——让数据分析告诉你\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\& class=\&internal\&\u003E《羞羞的铁拳》好不好看 8万观众说了算——EDA\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E专栏:\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fshujugushihui\& class=\&internal\&\u003E数据故事会~\u003C\u002Fa\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T11:05:27.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:18,&collapsedCount&:0,&likeCount&:77,&state&:&published&,&isLiked&:false,&slug&:&&,&lastestTipjarors&:[{&isFollowed&:false,&name&:&周亮亮&,&headline&:&&,&avatarUrl&:&https:\u002F\u002Fpic1.zhimg.com\u002Faba88b3e6_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&zhou-liang-liang&,&bio&:&市场营销&,&hash&:&adcd81f42d6ff0c87c90de5f53bbde69&,&uid&:32,&isOrg&:false,&description&:&&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhou-liang-liang&,&avatar&:{&id&:&aba88b3e6&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-ac3fbe2edfcd_r.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&电影&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&自然语言处理&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&数据分析&}],&adminClosedComment&:false,&titleImageSize&:{&width&:339,&height&:236},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&tipjarState&:&activated&,&tipjarTagLine&:&千万别给钱 叔叔阿姨我不要 真的 点赞就好&,&sourceUrl&:&&,&pageCommentsCount&:18,&tipjarorCount&:1,&annotationAction&:[],&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T19:05:27+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:&电影\u002F橄榄球\u002F旅行&,&isFollowing&:false,&hash&:&7f7c08e5edb699e6f798d9&,&uid&:80,&isOrg&:false,&slug&:&zhang-ren-jie-64&,&isFollowed&:false,&description&:&&,&name&:&张仁杰Allen&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzhang-ren-jie-64&,&avatar&:{&id&:&fc3a32ae172bf13a07da&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:null,&isFollowing&:false,&hash&:&9c2ae6c1fddf4d07682cd5c&,&uid&:447000,&isOrg&:false,&slug&:&fu-kua-70-89&,&isFollowed&:false,&description&:&&,&name&:&浮夸&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ffu-kua-70-89&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&ECNU本科在读,成为一个有趣的人(??ω??)&,&isFollowing&:false,&hash&:&350c1de307af4bd945de28a&,&uid&:148700,&isOrg&:false,&slug&:&xie-wen-jia-2&,&isFollowed&:false,&description&:&&,&name&:&咩羊羊&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fxie-wen-jia-2&,&avatar&:{&id&:&3b5c10acac7f&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&&,&isFollowing&:false,&hash&:&9c1cbeef68c&,&uid&:051300,&isOrg&:false,&slug&:&1genross&,&isFollowed&:false,&description&:&&,&name&:&1GenRoss&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002F1genross&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&凤凰于飞,其鸣锵锵&,&isFollowing&:false,&hash&:&fa83ae09d0e440bc3b32&,&uid&:519100,&isOrg&:false,&slug&:&xie-chen-ming-37&,&isFollowed&:false,&description&:&&,&name&:&小谢&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fxie-chen-ming-37&,&avatar&:{&id&:&v2-03f8dad3bb1cff66f228&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&\u003Cimg src=\&http:\u002F\u002Fpic2.zhimg.com\u002Fv2-010f79d43a55eeed4e8d_200x112.jpg\& data-ca}

我要回帖

更多关于 羞羞的铁拳图片大全 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信