《《韩国电影厨房》超高清4碍在线观看-喜剧-星辰影院》剧情介绍:下面给大家展示几张同样出现品牌的试卷《韩国电影厨房》超高清4碍在线观看-喜剧-星辰影院(图表注:贾妃(2)是我们假设元春比贾珠小是王夫人的第二胎;
《《韩国电影厨房》超高清4碍在线观看-喜剧-星辰影院》视频说明:潘平欲言又止罗隐唐末诗人代表作有《蜂》、《自遣》、《牡丹花》等名篇留下了采得百花成蜜后为谁辛苦为谁甜、今朝有酒今朝醉明日愁来明日愁、若教解语应倾国任是无情亦动人、时来天地皆同力运去英雄不自由等千古名句听懂用户们在说什么——UGC文本分析怎么做2022-07-15 17:35·人人都是产物经理编辑导语:文本分析对于用户研究来说十分重要本文作者分享了UGC文本分析的具体方法逻辑从获取评论数据、预处理评论数据、分析评论数据、主题分析展开阐述感兴趣的一起来学习一下吧希望对你有帮助如果你的评论区仅有10条用户评论你可以很轻松地了解他们对这个产物/商品的态度如何以及表达了什么想法但是如果是100条是不是需要稍微花点时间变得吃力了如果是1000条恐怕需要附上一些数据筛选的方式一条一条看就不太适合了即使1000条可以勉强人力处理但问题是如果评论的数量扩大到了10000条别说读懂了就连翻页都得好长时间人力就捉襟见肘了这时候你需要运用一些文本分析的方法来帮助你读懂海量的评论文本究竟在表达什么一、获取评论数据最朴实无华的方式当然是Crtl C+Crtl V将每一条数据手动复制到Excel表格当中但正如上文所言人力是有上限的请让我结合自身经验来分享一下高效点的方法1. 如果你想通过编程的方法在大家都是技术大佬的内网我不敢班门弄斧只简单地推荐一下学习路径、科普一下相关概念做网络爬虫最易用的语言应该非python莫属因为上手的门槛很低在掌握了一系列基本语法会定义函数后就可以安装beautiful soup库来开始爬虫之旅网络上的免费课程非常地多让人眼花缭乱如果你自制力足够学习能力够强其实随便一搜python的基础语法对你来说一定不算难但如果你学习的时候需要一些交互趣味对你来说是必要的话我会推荐你选择风变编程的课程在线编程即学即反馈是它的最大优点学习时间上来看30小时是足够了的2. 如果你想通过无代码的方法市面上越来越多的不用使用代码就可以实现网络爬取的工具让本懒人很是快乐1)八爪鱼采集器八爪鱼应该是目前中文互联网曝光度最高的网络抓取工具优点:具有一定数量现成的采集模版有专门的问题解决qq群缺点:自定义采集做得并不是很好用具有一定的上手门槛2)后羿采集器很低调但是很好用的一款网络爬虫工具优点:智能采集很智能识别准确度高同时自定义流程上手也较为简单缺点:价格昂贵免费版的网速实在令人汗颜3)集搜客优点:集文本分析的部分功能于一体可以一站式实现较多需求;缺点:爬虫功能实在不好用远不如后裔采集器如果你的爬取要求不是很复杂的那种个人推荐使用后羿采集器来爬取慢就慢点大不了开着电脑给它挂一晚上二、预处理评论数据1. 评论内容分词与去词1)分词是什么为什么这样做Why我爬取下来了咋还要分词「分词」又是个什么东东速速听我说来我们都知道计算机和人脑的区别在于理性与感性计算机为了更高效地处理数据需要做出一些更符合计算机运行逻辑的加工分词就是其中一种举个栗子:我今天驾驶宝马的汽车前往商场了经过分词处理后:我/今天/驾驶/宝马/的/汽车/前往/商场/了就是这样经过了分词的文本将更利于计算机来进行统计分析在分词系统的推荐上我认为NLPIR-ICTCLAS汉语分词系统会比较好使这是它的官网有下载地址以及简单的功能介绍2)去词呢与分词同一步调的是「去词」去词一般来说是去除停用词(Stopwords)意指可以忽略的词在文本分析中一些特定的词语或字不提供信息价值(或提供很少)而为了提高效率产出更可直接用于解读的分析结果我们会选择在正式的文本分析前将它们去除掉同样举个栗子这里经过分词的句子:我/今天/驾驶/宝马/的/汽车/前往/商场/了经过去除停用词后它变成了:我/今天/驾驶/宝马/汽车/前往/商场(一些停用词表中「我」以及「今天」都在其列为了方便理解举的例子并未去除这两个词)就是这样去除停用词的目的在于提高信息密度提高计算机分析产生结果的效率以及方便人为解读结果去词一般不会成为一项专门的流程而是被混在分词过程中停用词表是需要额外准备(一般分词的系统中也会自带停用词表)百度一搜会有很多的停用词表csdn和github上也可以随意下载不做赘述三、分析评论数据做完评论文本数据的预处理后就进入到具体的分析阶段了文本分析的方法与目的是高度相关的因此难以全部囊括就简单聊几个通用的、容易上手的注:下文几个分析方法并不存在直接的次序关系1. 情感分析「情感分析」顾名思义是用来判断文本情感倾向的一般来说会分为积极、中性与消极情感也可以根据打分的高低分一分极端积极/消极的情况但是如果想要细化到喜怒哀惧悲嗔爱就难以通过简单的三方工具做到了需要自己构建词库暂且不提菜鸟本人也在修炼ing用一些工具/平台来实现情感分析那么精度只能说差强人意而已不能做到尽善尽美简单推荐罢首先是很古老的一个软件rost cm6是由武汉大学在很久之前编写的据我所知往后的(十)几年里并没有进行任何更新上文提到的可以用于网络爬取的集搜客也可以进行情感分析而且据它介绍自己的情感分析准度要比rost cm6高上不少以期获得用户的青睐好用的软件只推荐这两个因为市面上能直接拿来用的工具实在太少但是如果加一步调用api的话其实百度开放平台/讯飞开放平台/腾讯云智以及一些大神们都有很成熟的解决方案想必精度也会更高2. 词频分析讲道理词频分析很难称得上什么高大上的分析方法只是把词语出现的频率直白地展现出来而已一段文本在经历过去除停用词、分词之后便都是落单的词语了数数数出来就行上文提到的NLPIR分词系统、rost cm6、集搜客都能很轻松地做到额外提一嘴在这个过程中词频分析的精度取决于分词的精度如果你发现词频分析的结果不是很让人满意不妨多试试几套分词系统然后也可以自定义一下词库避免特定的词语被分开举个栗子:「夏日泳池」「冬日泳池」作为某个酒店专门的两个泳池我们会更期待他们以组合的形式而非「夏日」「冬日」以及「泳池」的形式出现至于如何让词频分析可视化一点好看一点自然是做一张大家都熟悉的词云图这里推荐Wordarthttps://wordart.com/create纯净免费无广告便民实用3. 网络语义共现「语义网络共现」的目的在于可视化的展现词语与词语之间的关系而生成一个语义网络共现图的的基础在于建立起词语的共现矩阵行文至此感受到不动用编程手段的话能使用的工具越发寥寥对于语义网络共现仍然需要祭出rost cm6它有一个很方便的功能可以一键式生成语义网络一键生成的语义网络会有两个问题:一是精度不够好因为rost cm6本身的分词做得不是很好自然影响到后续的共现矩阵的构建可以导入已经分好词的文件代替它可以做到一定程度上的优化;第二个是图片不够美观这个问题的优化措施是将rost cm6生成的共现矩阵导出再将这个表格导入到Gephi软件中生成语义网络共现图会好看很多(图源google)四、主题分析或许再难避开编程手段我做到主题分析的这一步使用的是Python的现成代码做简单的调参来满足自己的需求功能实现的主要过程离不开一个模型其名为「lda」「lda」的功能描述为试图找到两类物体或事件的特征的一个线性组合以能够特征化或区分它们(据百度)亲测在短文本分析的领域无论是中文还是英文都表现地挺差的搜索了解到原因可能出现在短文本的特征稀疏性上因此在面对短文本居多的评论领域不太推荐使用lda来做主题聚类分析所以如果是游记类的长文本可以尝试用lda主题聚类来做分析但在短文本的数据集中lda的表现难称优秀而我在这一方面也并未具备见解性的看法便不斗胆做推荐分享了本文由 @ 我叫徐知鱼 原创发布于人人都是产物经理未经作者许可禁止转载题图来自 unsplash基于 CC0 协议
2024-12-26 12:45:33