文本情感分析流程图,文本情感分析系统

Word文本中的文档部件里的域 打开之后不是一个方框,而是一个代码是怎么...

编者按

文本情感分析是对带有主观感情色的文本进行分析、处理、归纳和推理的过程。互联网上每时每刻都会产生大量文本,这其中也包含大量的用户直接参与的、对人、事、物的主观评价信息,比如微博、论坛、汽车、购物评论等,这些评论信息往往表达了人们的各种主观情绪,如喜、怒、哀、乐,以及情感倾向性,如褒义、贬义等。基于此,潜在的用户就可以通过浏览和分析这些主观色的评论来了解大众舆论对于某一事件或产品的看法。

百分点认知智能实验室基于前沿的自然语言处理技术和实际的算法落地实践,真正实现了整体精度高、定制能力强的企业级情感分析架构。从单一模型到定制化模型演变、文本作用域优化、多模型(相关度)融合、灵活规则引擎、以及基于实体的情感倾向性判定,探索出了一套高精准、可定制、可干预的智能分析框架,为舆情客户提供了高效的预警研判服务。

本文作 者: 常全有 刘政

一、

情感分析概述

文本情感分析,即 Sentiment Analysis(SA),又称意见挖掘或情绪倾向性分析。 针对通用场景下带有主观描述的中文文本,自动判断该文本的情感极性类别并给出相应的置信度,情感极性分为积极、消极、中性等。

在文本分析的基础上,也衍生出了一系列细粒度的情感分析任务,如:


  • 基于方面的情感分析(ABSA):一般称作 Aspect Based Sentiment Analysis。旨在识别一条句子中一个指定方面(Aspect)的情感极性。常见于电商评论上,一条评论中涉及到关于价格、服务、售后等方面的评价,需要区分各自的情感倾向。

  • 基于实体的情感倾向性判定(ATSA): 一般称作 Aspect-Term Sentiment Analysis。对于给定的情感实体,进行情感倾向性判定。在一句话中不同实体的情感倾向性也是不同的,需要区别对待。

  • 核心目标和价值

    舆情系统的最核心需求,是能够精准及时的为客户甄别和推送负面,负面识别的准确性直接影响信息推送和客户体验,其中基于文本的情感分析在舆情分析中的重要性不言而喻,下图简要展示了文本分析以及情感分析在舆情体系中的作用。

    舆情数据通过底层的大数据采集系统,流入中间层的 ETL 数据处理平台,经过初级的数据处理转化之后,向上进入数据挖掘核心处理环节;此阶段进行数据标准化、文本深度分析,如地域识别、智能分词、情感判定、垃圾过滤等,经过文本处理的结果,即脱离了原始数据的状态,具备了客户属性,基于客户定制的监测和预警规则,信息将在下一阶段实时的推送给终端客户,负面判定的准确度、召回率,直接影响客户的服务体验和服务认可度。

    难点与挑战

    舆情业务中的情感分析难点,主要体现在以下几个方面:

    1.舆情的客户群体是复杂多样的,涉及行业多达24个(如下图所示),不同行业数据特点或敏感判定方案不尽相同,靠一个模型难以解决所有问题;

    2.舆情监测的数据类型繁多, 既有常规的新闻、微信公众号等媒体文章数据,又有偏口语化的微博、贴吧、问答数据,情感模型往往需要针对不同渠道类型单独训练优化,而渠道粒度的模型在不同客户上效果表现也差别巨大;

    3.客户对情感的诉求是有差异的,有些客户会有自己专属的判定条件。通用的情感模型难以适应所有客户的情感需求。

    4.随着时间推移,客户积累和修正的情感数据难以发挥价值。无法实现模型增量训练和性能的迭代提高。

    5.对于关注品牌、主体监测客户,需要进行特定目标(实体)情感倾向性(ATSA)判定。那么信息抽取就是一个难题。

    6.对于新闻类数据,通常存在标题和正文两个文本域。如何提取有价值的文本信息作为模型输入也是面临的困难。

    二、

    情感分析在百分点舆情的发展历程

    从2015年开始,百分点舆情便开始将机器学习模型应用在早期的负面判定中;到2020年,我们已经将深度迁移学习场景化和规模化,也取得了不错的成果;

    2015年:抓取百万级别的口碑电商评论数据,使用逻辑回归进行建模,做为情感分析的BaseLine;

    2016年:主要侧重于技术上的递进,进入深度学习领域。引入word2vec在大规模语料集上进行训练,获得具有更好语义信息的词向量表示,替代基于Tfidf等传统的统计特征。随后在TextCnn、TextRnn等深度学习算法进行更新迭代,尽管得到数字指标的提高,但是对于实际业务的帮助还是不足。

    2017年:结合舆情全业务特点,需要能做到针对品牌、主体的情感监测。提出 Syntax and Ruler-based Doc sentiment analysis的方式,依据可扩充的句法规则以及敏感词库进行特定的分析。该方式在敏感精准度指标上是有提升的,但是却有较低的召回。同时在进行规则扩充时,也比较繁琐。

    2019年上半年:以Bert为代表的迁移学习诞生,并且可以在下游进行fine-tune,使用较小的训练数据集,便能取得不错的成绩。进行以舆情业务数据为基础,构建一个简易的文本平台标注平台,在其上进行训练数据的标注,构建了一个通用的情感模型分类器。评测指标 F1值为 0.87,后续对 ERNIE1.0 进行尝试,有两个百分点的提升。

    2019年下半年:主要从舆情的业务问题入手,通过优化提取更加精准、贴近业务的情感摘要作为模型输入,使用定制化模型以及多模型融合方案,联合对数据进行情感打标。并提出基于情感实体(主体)的负面信息监测,下述统称ATSA(aspect-term sentiment analysis),使用 Bert-Sentence Pair 的训练方式, 将 摘要文本、实体联合输入,进行实体的情感倾向性判定。在定点客户上取得不错的成绩,最后的F1值能达到 0.95。

    2020年:将细化领域做到客户级别,定制私有化情感模型。同时将加大对特定实体的细粒度情感分析(ATSA)的优化;同时,通过内部 AI训练平台的规模化应用,做到模型的全生命周期管理,简化操作流程,加强对底层算力平台的资源管控。

    三、

    预训练语言模型与技术解析

    下图大致概括了语言模型的发展状况(未完全统计):

    在2019年度情感分析实践中,率先使用预训练语言模型 Bert,提高了情感分析的准确率。后来具有更小参数量的ALBERT的提出,使生产环境定制化情感模型成为可能。这里就主要介绍BERT以及ALBERT。

    BERT

    BERT(Bidirectional Encoder Representations from Transformerss)的全称是基于 Transformer 的双向编码器表征,其中「双向」表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息(如下图所示)。

    在BERT中, 主要是以两种预训练的方式来建立语言模型。

    1.MLM(Masked LM)

    MLM可以理解为完形填空,作者会随机mask每一个句子中15%的词,用其上下文来做预测,例如:my dog is hairy → my dog is [MASK]。此处将hairy进行了mask处理,然后采用非监督学习的方法预测mask位置的词是什么,具体处理如下:

  • 80%是采用[mask],my dog is hairy → my dog is [MASK]

  • 10%是随机取一个词来代替mask的词,my dog is hairy -> my dog is apple

  • 10%保持不变,my dog is hairy -> my dog is hairy

  • 之后让模型预测和还原被遮盖掉或替换掉的部分。

    2.NSP(Next Sentence Prediction)

    首先我们拿到属于上下文的一对句子,也就是两个句子,之后我们要在这两段连续的句子里面加一些特殊 token: [cls] 上一句话,[sep] 下一句话. [sep]

    也就是在句子开头加一个 [cls],在两句话之中和句末加 [sep],具体地就像下图一样:

  • Token Embeddings:是词向量,第一个单词是CLS标志,可以用于之后的分类任务。

  • Segment Embeddings:用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务。

  • Position Embeddings:让BERT学习到输入的顺序属性。

  • BERT在文本摘要、信息检索、数据增强、阅读理解等任务中,也有实际的应用和发展。更多关于Bert相关介绍,请参照百分点认知智能实验室往期文章。

    ALBERT

    ALBERT的全称是A Lite BERT for Self-supervised Learning of Language Representations(用于语言表征自监督学习的轻量级BERT),相对于Bert而言,在保证参数量小的情况下,也能保持较高的性能。当然同样的模型还有 DistilBERT、TinyBERT。

    1.ALBERT 和BERT的比较

    下图是BERT和ALBERT在训练速度和性能上的整体比较:

  • ALBERT-xxlarge的表现完全超过BERT-large,同时参数量只有其占比的70%,但是Bert-large的速度要比ALBERT-xxlarge倍左右。

  • BERT-xlarge的性能相对于Bert-base是低效的,表明大参数模型相对于小参数模型更加难训练。

  • 2.ALBERT的目标

    在基于预训练语言模型表征时,增加模型大小一般可以提升模型在下游任务中的性能。但是通过增加模型大小会带来以下问题:

  • 内存问题

  • 训练时间会更长

  • 模型退化

  • 在将Bert-large的隐层单元数增加一倍, Bert-xlarge在基准测试上准确率显著降低。

    ALBERT核心目标就是解决上述问题, 下面就来介绍ALBERT在精简参上的优化。

    3.ALBERT模型优化

    明确参数的分布,对于有效可靠的减少模型参数十分有帮助。ALBERT同样也只使用到Transformer的Encoder阶段,如下图所示:

    图中标明的蓝色方框和红色方框为主要的参数分布区域:

  • Attention feed-forward block(上图中蓝色实线区域):

  • 参数大小: O(12 * L * H * H)

  • L:编码器层数 eg:12

  • H:隐藏层大小 eg:768

  • 参数量占比:80%

  • 优化方法:采用参数共享机制

  • Token embedding projection block(上图中红色实线区域):

  • 参数大小:(V * E)

  • V:词表大小 eg:30000

  • E:词嵌入大小 eg:768

  • 参数量占比: 20%

  • 优化方法:对Embedding进行因式分解

  • >E,所以ALBERT的词向量的维度是小于encoder输出值维度的。在NLP任务中,通常词典都会很大,embedding matrix的大小是E×V。\n ALBERT采用了一种因式分解(Factorized embedding parameterization)的方法来降低参数量。首先把one-hot向量映射到一个低维度的空间,大小为E,然后再映射到一个高维度的空间,当E<

    具体参数优化如下:

    Factorized embedding parameterization(对Embedding因式分解)

    ALBERT认为,token embedding是没有上下文依赖的表述,而隐藏层的输出值不仅包括了词本身的意思还包括一些上下文信息,因此应该让H>>E,所以ALBERT的词向量的维度是小于encoder输出值维度的。在NLP任务中,通常词典都会很大,embedding matrix的大小是E×V。

    ALBERT采用了一种因式分解(Factorized embedding parameterization)的方法来降低参数量。首先把one-hot向量映射到一个低维度的空间,大小为E,然后再映射到一个高维度的空间,当E<

    可以看到,经过因式分解。参数量从O(V * H) 变为O(V*E + E*H),参数量将极大减小。如下图所示:在H=768条件下,对比E=128和E=768,参数量减少17%,而整体性能下降0.6%。

    在后续的实验环境(所有的优化汇总后),对 embedding size 的大小进行评估,得出在 E=128时,性能达到最佳。

    Cross-layer parameter sharing(跨层参数共享)

    下图是对BERT-Base Attention分布的可视化。对于一个随机选择的句子,我们可视化来自不同Layer的Head的Attention分布。可以看到,底层的Attention分布类似于顶层的Attention分布。这一事实表明在某种程度上,它们的功能是相似的。

    Transformer中共享参数有多种方案,只共享feed-forward层,只共享attention层,ALBERT结合了上述两种方案,feed-forward层与attention层都实现参数共享,也就是说共享encoder内的所有参数。但是需要主要的是,这只是减少了参数量,推理时间并没有减少。如下图所示:在采用 all-shared模式下,参数量减少70%,性能下降小于3%。

    在经过上述的参数优化后,整体参数量有了极大的缩减,训练速度也极大加快。后续作者又在模型变宽和模型变深上做了几组实验。如下:

    模型变宽

    当我们增加 H 大小时,性能会逐渐提高。在H=6144时,性能明显下降。如下图所示:

    模型变深

    在以ALBERT-large为基础参数,设置不同的layer大小,发现layer=48的性能要差于layer=24的性能,如下图所示:

    一些实验表示NSP(BERT-style)非但没有作用,反而会对模型带来一些损害。作者接着提出SOP(ALBERT-style)的优化模式。具体如下:

    Inter-sentence coherence loss(句子连贯性)

    在ALBERT中,为了去除主题识别的影响,提出了一个新的任务 sentence-order prediction(SOP),SOP的正样本和NSP的获取方式是一样的,负样本把正样本的顺序反转即可。SOP因为是在同一个文档中选的,只关注句子的顺序并没有主题方面的影响。并且SOP能解决NSP的任务,但是NSP并不能解决SOP的任务,该任务的添加给最终的结果提升了一个点。

    在后续的实验中, ALBERT在训练了100w步之后,模型依旧没有过拟合,于是乎作者果断移除了dropout,没想到对下游任务的效果竟然有一定的提升。

    当然作者对于增加训练数据和训练时长也做了详尽的对比和测试,这里不再进行描述。

    在最初的 ALBERT发布时,是只有中文的。感谢数据工程师徐亮以及所在的团队,于 2019 年 10 月,开源了首个中文预训练的中文版 ALBERT 模型。

    项目地址:

    https://github.com/brightmart/albert_zh

    四、

    情感分析在舆情的应用实践

    业务调研

    2019上半年,舆情服务的整体情感判定框架已经迁移到以Bert训练为基础的情感模型上,得出的测试指标 F1 值为 0.86,相较于旧版模型提升显著; 但是虽然数据指标提升明显,业务端实际感受却并不明显。因此我们对代表性客户进行采样调查,辅助我们找出生产指标和实验室指标差异所在。同时针对上文提到的关于舆情业务中情感分析的痛点和难点,进行一次深度业务调研:

    1.客户情感满意度调查

    2.文本作用域(模型输入文本选择)调研

    这里将文本作用域分为以下几个层次,分布情况如下图所示:

  • 标题:正常文章的标题

  • 全文: 标题和正文的统称

  • 情感摘要:依据客户的输入特征词,从文章中抽取一段摘要;长度在256字符内。

  • 关键词周边:只关注所配置关键词周边的文本作用域,一般是一句话。

  • 主体(实体)词周边:依据客户所配置的品牌词、主体词,选取对应的文本作用域。

  • 3.情感判定因素

    这里对判定因素做以下介绍:

  • 自然语义:是指符合人们的情感判定标准,像 色情、暴力、违禁、、反动等言论都是敏感信息的范畴。比如:"#28天断食减肥[超话]#美柚说我还有4天就来姨妈了,所以是快要来姨妈了体重就掉的慢甚至不掉了吗,心塞。" 属于敏感。

  • 主体(实体)情感:一般涉及到的是 人名、地名、机构名、团体名、产品名、品牌名、”我“、”作者“等; 如果监测主体为美柚,那么上述文本的情感倾向性就是非敏感。再举例如下:”墨迹天气又忘记签到了,这个记性越来越差“,墨迹天气是监测主体,那么属于非敏感。

  • 业务规则: 是指以一种可表示、可量化、可总结、可表达的形式总结知识和规则,已经不符合自然语义的理解范畴。

  • 业务规则&自然语义:客户的负面信息判定是结合业务规则,并且是符合自然语义判定标准的。

  • 我们针对上述调研结果进行详尽分析,最终确定走情感细粒度模型的道路。

    情感分析的落地实践

    精简版本的情感架构概览如下:

    接下来会基于此进行讲述,大致分为如下几个层次:

    1.输入层

    这里主要是获取相应文本输入,以及客户的文本作用域规则和检索词、主体词,供下游的文本作用域生成提供对应的条件。

    2.文本作用域

    依据文本作用域规则,生成对应的模型输入,请参照上文对文本作用域的阐述。这里实验内容针对的是情感摘要。首先将文本进行分句,然后依据对每一个句子和检索词进行匹配,通过BM25计算相关性。这里限制的文本长度在256内。在文本域优化后, 对线上的10家客户进行对比分析,实验条件如下:

  • 客户数目:10

  • 数据分布:从舆情系统中按照自然日,为每个客户选取100条测试数据

  • 对比条件:情感摘要、标题

  • 进行对比分析(客户名称已脱敏),每个客户的情感摘要和文本标题效果依次展示。如下图所示:

    可以发现整体效果是有极大提升的。但是也可以看到部分客户的敏感精准率是偏低的,这个和客户的敏感分布有关,大部分的敏感占比只有总数据量的 10% ~20%,有些甚至更加低。所以面临一个新的问题,如何提升非均匀分布的敏感精准度。这个会在下文进行陈述。

    3.情感判定因素

    由上文的情感因素分布得知, 情感对象(实体)的因素占54%,基于实体的情感倾向性判定(ATSA)是一个普适需求。如果这里直接使用通用情感分析判定(SA),在舆情的使用场景中会存在高召回,低精准的的情况。接下来会对此进行相关解决方案的的论述。

    4.模型层

  • 通用情感模型

  • 在19年初, 使用Bert-Base(12L,768H)进行fine-tune,得到如下指标:情感准确性:0.866, 敏感精准率: 0.88,敏感召回:0.84,F1: 0.867;后来在ERNIE1.0上进行尝试,情感准确性能提升2个百分点。不过因为PaddlePaddle的生态问题,没有选择ERNIE。这是一个符合自然语义的情感模型, 但是对于舆情客户来说,这还远远不够。

  • 相关度模型

  • 对生产环境的埋点日志分析,发现客户存在大量的屏蔽操作。选取近一个月屏蔽最多的10个话题进行分析,如下图所示:

    通过调研和分析发现,这些数据虽然命中关键词,但是数据相关度比较低。在情感判定之前引入相关度判定, 对于非相关的数据,一律判定为非敏感。对于精准数据再次进行情感分析判定,大大提升敏感精准率。在工程上选取ALBERT进行模型训练可以达到部署多个模型的目的。观测到,单个模型在推理阶段,在Gpu(RTX 2080)上占用的显存大约在600MiB,极大节省资源。

    部分客户相关度模型效果如下:

    客户名称

    准确率

    正样本数量

    负样本数量

    数据来源

    C1

    0.95

    619

    1141

    收藏、屏蔽数据

    C2

    0.97

    5085

    5244

    收藏、屏蔽数据

    C3

    0.93

    450

    450

    收藏、屏蔽数据

    C4

    0.94

    136

    487

    收藏、屏蔽数据

    部分客户实施相关度判定,由于数据特征比较明显,可以很容易达到比较精准的数据效果,但是并不适用于所有客户。相关度模型的引入,即达到筛选相关数据的目的,也能减少情感判定噪音数据的干扰,提升敏感精准度。

    5.ATSA-面向情感实体的情感倾向性分析

    ATSA(aspect-term sentiment analysis) 要解决就是在特定情感实体下的情感倾向性判定问题。这里主要借鉴《Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence》文中的思想。这个工作做得非常聪明,它把本来情感计算的常规的单句分类问题,通过加入辅助句子,改造成了句子对匹配任务。很多实验证明了:BERT是特别适合做句子对匹配类的工作的,所以这种转换无疑能更充分地发挥BERT的应用优势。

    舆情中要解决的问题如下:

    A公司和B公司的情感倾向性是非敏感的, 而C公司却是敏感的。要解决这个问题,要面临两个问题:

  • 实体识别和信息抽取问题

  • 实体级别的情感倾向性判定

  • 在舆情的业务场景中,可以简化问题,由于情感实体是提前给定的, 所以不需要做实体识别和信息抽取, 只需要对特定实体的情感倾向性进行判定。整体流程如下:

    主要是利用 Bert Sentence-Pair,文本与实体联合训练,得到输出标签。目前实验证明,经过这种问题转换,在保证召回率提升的情况下,准确率和精准率都得到了提高。选取一个客户进行对比测试,如下所示:

    实验条件

    实验方式

    准确率

    精准率

    召回率

    F1

    按照自然日采样,测试样本为912条,其中敏感数据108条

    ATSA

    0.95

    0.8

    0.85

    0.82

    情感摘要

    0.84

    0.4

    0.7

    0.51

    上述是一个正负样本及其不均匀的情况,增加敏感精准率将提高客户的满意度。目前的实现的机制还略显简单,未来还将持续投入。

    6.情感规则引擎

    在部分客户场景中, 他们的业务规则是明确的或者是可穷举的。这里会做一些长尾词挖掘、情感新词发现等工作来进行辅助, 同时要支持实时的干预机制,快速响应。比如某些客户的微博经常会发很多微博,他们会要求都判定成非敏感。这里不再做过多介绍。

    五、

    长期规划

    AI 训练平台的构建

    软件开发领域和模型开发领域的流程是不同的,如下所示:

    可以看到,构建模型是困难的。在舆情架构发展中,线上多模型是必然的趋势,也就意味着需要一个平台能够快速支持和构建一个定制化模型,来满足真实的应用场景。这就需要从底层的算力资源进行管控、舆情数据的标准化制定和积累、模型的生命周期管理等多方面进行衡量。关于 AI 训练平台的构建以及在舆情领域的应用实践,我们将在后续文章做进一步阐述。

    持续学习,增量迭代

    随着舆情客户对系统的深度使用,一般会有情感标签的人工纠正。所以需要保证模型可以进行增量迭代,减少客户的负反馈。

    多实体的情感倾向分析

    对包含有多个实体信息的文本,针对每一个系统识别到的实体,做自动情感倾向性判断(敏感、非敏感),并给出相应的置信度,包括实体库的构建。

    提升垂直类情感情感分析效果

    在垂类上(App、餐饮、酒店等)情感倾向性分析准确率上加大优化力度。

    随着舆情业务的发展,各领域客户都沉淀了大量与业务贴近的优质数据,如何有效使用这些数据,形成情感效果联动反馈机制,为业务赋能,是情感分析领域面临的新的挑战。在2019年的实践中,通过场景化的情感分析框架落地应用,对情感效果做到了模型定制化干预,真正提高了客户满意度。这种机制具有整体精度高、定制能力强、业务感知明显的特点。在后续工作中,将以 模型训练自动化与人工反馈相结合的方式,将模型定制能力规模化、平台化,实现情感分析在舆情场景下千人千面的效果。

    百分点舆情洞察系统

    百分点舆情洞察系统(MediaForce)是一款沉淀多年的互联网公开舆情 SAAS 分析系统,覆盖全网主流资讯站点及社交媒体的公开数据,帮助企业迅速发现舆情热点,掌握负面和舆论动向,为上万客户提供精准的舆情分析服务。

    Refer:

  • Chi Sun, Luyao Huang, Xipeng Qiu: Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence. NAACL-HLT (1) 2019: 380-385

  • Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186

  • Yifan Qiao, Chenyan Xiong, Zheng-Hao Liu, Zhiyuan Liu: Understanding the Behaviors of BERT in Ranking. arXiv preprint arXiv:1904.07531 (2019).

  • Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut:ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.arXiv:1909.11942 [cs.CL]

  • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin:Attention Is All You Need.arXiv:1706.03762 [cs.CL]

  • Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu ; Proceedings of the 36th International Conference on Machine Learning, PMLR 97:2337-2346, 2019:Efficient Training of BERT by Progressively Stacking

  • https://github.com/thunlp/PLMpapers

  • http://jalammar.github.io/illustrated-bert/

  • https://www.bilibili.com/video/BV1C7411c7Ag?p=4

算法太多挑花眼?

算法太多挑花眼?教你如何选择正确的机器学习算法
机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?福啦~本文将教你慧眼识精,快速挑选出满意的算法!
机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。
有些问题是非常特别的,需要用一种特定的解决方法。例如,如果你对推荐系统有所了解,你会发现它是一类很常用的机器学习算法,用来解决一类非常特殊的问题。而其它的一些问题则非常开放,可能需要一种试错方法(例如:强化学习)。监督学习、分类、回归等问题都是非常开放的,可以被用于异常检测或建立更加广泛的预测模型。
此外,我们在选择机器学习算法时所做出的一些决定与算法的优化或技术层面关系并不大,而更多地与业务决策相关。下面,让我们一起来看看有哪些因素能帮你缩小机器学习算法的选择范围。
数据科学过程
在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。
理解你的数据
当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处理待分类的输入特别有效,但是对于缺失值则一点都不敏感。
因此,你需要做到:
了解你的数据
1. 查看总结统计和数据可视化的结
百分比可以帮助你识别大多数数据的范围
平均数和中位数可以描述集中趋势
相关系数可以指出强的关联性
2. 数据可视化
箱形图可以识别出异常值
密度图和直方图可以显示出数据的散布情况
散点图可以描述二元关
数据清洗
1. 处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差)
2. 选择处理异常值的方法
异常值在多维数据中十分常见。
有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。
异常值可能是糟糕的数据收集造成的,也可能是合理的极值。
3. 数据需要被聚合吗?
数据增强
1. 特征工程是从原始数据中产生能够被用于建模的数据的过程,可以起到以下几种作用:
使模型更容易被解释(如数据分箱(binning))
捕获更复杂的关系(如神经网络)
减少数据冗余并降低数据维度(如主成分分析(PCA))
重新缩放变量(如标准化或归一化)
2. 不同的模型可能有不同的特征工程的要求。有的模型有内置的特征工程。
对问题进行分类
下一步是对问题进行分类。这是一个需要分两步实现的过程。
1. 根据输入分类:
如果你拥有的是带标签的数据,那么这就是一个监督学习问题。
如果你拥有的是未标注过的数据,并且希望从中找到有用的结构,那么这就是一个无监督学习问题。
如果你想要通过与环境的交互来优化一个目标函数,那么这就是一个强化学习问题。
2. 根据输出分类:
如果模型的输出是一个(连续的)数字,那么这就是一个回归问题。
如果模型的输出是一个类别,那么这就是一个分类问题。
如果模型的输出是一组用输入数据划分出的簇,那么这就是一个聚类问题。
你想发现一个异常点吗?此时你面对的就是一个异常检测问题。
理解你要满足的约束条
你需要考虑你能够存储数据的容量有多大?这取决于系统的存储容量,你可能无法存储若干 GB 大小的分类、回归模型或者若干 GB 的用于聚类分析的数据。例如,在嵌入式系统中,你就会面临这种情况。
对预测过程的速度是否有要求?在实时应用中,很显然,尽快得出预测结果是十分重要的。例如,在自动驾驶问题中,应用必须尽可能快地对道路标志进行分类,以免发生交通事故。
对学习过程的速度是否有要求?在某些情况下,快速训练模型是十分必要的:有时,你需要使用不同的数据集快速地实时更新你的模型。
寻找可用的算法
当对自己的任务环境有了一个清晰的认识后,你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下:
模型是否满足业务目标
模型需要多少数据预处理工作
模型有多准确
模型的可解释性如何
模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间?
模型的可伸缩性如何
模型的复杂度是一个影响算法选择的重要标准。一般来说,一个更复杂的模型具备下列特征:
它依赖于更多的特征进行学习和预测(例如,使用十个而不是两个特征来预测目标)
它依赖于更复杂的特征工程(例如,使用多项式特征、交互特征或主成分)
它有更大的计算开销(例如,需要一个由 100 棵决策树组成的随机森林,而不是一棵单独的决策树)
除此之外,同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如:
回归模型可以拥有更多的特征,或者多项式项和交互项。
决策树可以拥有更大或更小的深度。
将相同的算法变得更加复杂增加了发生过拟合的几率。

常用的机器学习算法
线性回归
这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归算法。然而,当特征冗余,即如果存在多重共线性(multicollinearity)时,线性回归就不太稳定。
在下列情况下可以考虑使用线性回归:
从一个地方移动到另一个地方所需的时间
预测下个月某种产品的销售情况
血液中的酒精含量对协调能力的影响
预测每个月礼品卡的销售情况,并改善年收入的估算
Logistic 回归
Logistic 回归执行二进制分类,因此输出二值标签。它将特征的线性组合作为输入,并且对其应用非线性函数(sigmoid),因此它是一个非常小的神经网络的实例。
logistic回归提供了许多方法对你的模型进行正则化处理,因此正如在朴素贝叶斯算法中那样,你不必担心你的特征是否相关。该模型还有一个很好的概率化的解释。不像在决策树或者支持向量机中那样,你可以很容易地更新你的模型以获取新的数据。如果你想要使用一个概率化的框架,或者你希望在未来能够快速地将更多的训练数据融合到你的模型中,你可以使用 logistic 回归算法。logistic 回归还可以帮助你理解预测结果背后起作用的因素,它不完全是一个黑盒方法。
在下列情况下可以考虑使用 logistic 回归算法:
预测客户流失
信用评分和欺诈检测
评价市场营销活动的效果
决策树
决策树很少被单独使用,但是不同的决策树可以组合成非常高效的算法,例如随机森林或梯度提升树算法。
决策树很容易处理特征交互,并且决策树是一种非参数模型,所以你不必担心异常值或者数据是否是线性可分的。决策树算法的一个缺点是,它们不支持在线学习,因此当你要使用新的样本时,你不得不重新构建决策树。决策树的另一个缺点是,它很容易发生过拟合,而这就是像随机森林(或提升树)这样的集成学习方法能够派上用场的地方。决策树也需要大量的内存空间(拥有的特征越多,你的决策树可能会越深、越大)
决策树能够很好地帮助你在诸多行动路径中做出选择:
做出投资决策
预测客户流失
找出可能拖欠银行贷款的人
在「建造」和「购买」两种选择间进行抉择
销售主管的资质审核
K-均值
有时,你完全没有数据的标签信息,并且你的目的是根据对象的特征来为其打上标签。这种问题被称为聚类任务。聚类算法可以在这种情况下被使用:例如,当你有一大群用户,你希望根据他们共有的一些属性将其划分到一些特定的组中。
如果在你的问题声明中有这样的问题:例如,找出一群个体的组织形式,或将某些东西分组,或找出特定的组。这时,你就应该使用聚类算法。
该方法最大的缺点是,K-均值算法需要提前知道你的数据会有多少簇,因此这可能需要进行大量的试验去「猜测」我们最终定义的簇的最佳个数——K。
主成分分析(PCA)
主成分分析能够对数据进行降维。有时,你拥有各种各样的特征,这些特征之间的相关性可能很高,而模型如果使用如此大量的数据可能会产生过拟合现象。这时,你可以使用主成分分析(PCA)技术。
主成分分析(PCA)能够起作用的关键因素是:除了低维的样本表征,它还提供了各种变量的一种同步的低维表征。同步的样本和变量的表征提供了一种能够可视化地找到能够表示一组样本的特征的变量的方法。
支持向量机
支持向量机(SVM)是一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时。
支持向量机准确率高,对于防止过拟合很好的理论保障。当你使用一个合适的核函数时,即使你的数据在基(低维)特征空间中是线性不可分的,他们也可以很好地工作。支持向量机在文本分类问题中非常流行,在该问题中,输入是一个维度非常高的空间是很正常的。然而,SVM 是一种内存密集型算法,它很难被解释,并且对其进行调优十分困难。
在下列现实世界的应用中,你可以使用支持向量机:
发现患有糖尿病等常见疾病的人
手写字符识别
文本分类——将文章按照话题分类
股票市场价格预测
朴素贝叶斯
这是一种基于贝叶斯定理的分类技术,它很容易构建,非常适用于大规模数据集。除了结构简单,据说朴素贝叶斯的表现甚至比一些复杂得多的分类方法更好。当 CPU 和内存资源有限时,朴素贝叶斯算法也是一个很好的选项。
朴素贝叶斯非常简单,你仅仅是在做大量的计数工作。如果朴素贝叶斯的条件独立假设确实成立,朴素贝叶斯分类器的收敛速度会比 logistic 回归这样的判别模型更快,因此需要的训练数据更少。即使朴素贝叶斯的假设不成立,朴素贝叶斯分类器往往也能很好地完成任务。如果你想使用一种快速的、简单的、性能也不错的模型,朴素贝叶斯是一个很好的选择。这种算法最大的缺点就是它不能学习到特征之间的相互作用。
在下列真实世界的应用中,你可以使用朴素贝叶斯:
情感分析和文本分类
类似于 Netflix、Amazon 这样的推荐系统
识别垃圾邮件
人脸识别
随机森林
随机森林是一种决策树的集成方法。它能够同时解决具有大规模数据集的回归问题和分类问题,还有助于从数以千计的输入变量中找出最重要的变量。随机森林具有很强的可伸缩性,它适用于任何维数的数据,并且通常具有相当不错的性能。此外,还有一些遗传算法,它们可以在具有最少的关于数据本身的知识的情况下,很好地扩展到任何维度和任何数据上,其中最简单的实现就是微生物遗传算法。然而,随机森林学习的速度可能会很慢(取决于参数设置),并且这种方法不能迭代地改进生成模型。
在下列现实世界的应用中,你可以使用随机森林:
预测高危患者
预测零件在生产中的故障
预测拖欠贷款的人
神经网络
神经网络中包含着神经元之间连接的权重。这些权重是平衡的,逐次对数据点进行学习。当所有的权重都被训练好后,如果需要对新给定的数据点进行回归,神经网络可以被用于预测分类结果或一个具体数值。利用神经网络,可以对特别复杂的模型进行训练,并且将其作为一种黑盒方法加以利用,而在训练模型之前,我们无需进行不可预测的复杂特征工程。通过与「深度方法」相结合,甚至可以采用更加不可预测的模型去实现新任务。例如,最近人们已经通过深度神经网络大大提升了物体识别任务的结果。深度学习还被应用于特征提取这样的非监督学习任务,也可以在人为干预更少的情况下,从原始图像或语音中提取特征。
另一方面,神经网络很难被解释清楚,其参数设置也复杂地让人难以置信。此外,神经网络算法也都是资源密集型和内存密集型的。
SCIKIT 参考手册
Scikit learning 为大家提供了一个非常深入的、解释地很清楚的流程图,它能够帮助你选择正确的算法。我认为此图十分方便。

结论
一般来说,你可以根据上面介绍的要点来筛选出一些算法,但是要想在一开始就知道哪种方法最好是很难的。你最好多迭代几次选择算法的过程。将你的数据输入给那些你确定的潜在优秀机器学习算法,通过并行或串行的方式运行这些算法,最终评估算法性能,从而选择出最佳的算法。
在最后,我想告诉你:为现实生活中的问题找到正确的解决方案,通常不仅仅是一个应用数学方法的问题。这要求我们对业务需求、规则和制度、相关利益者的关注点有所了解,并且具备大量的专业知识。在解决一个机器学习问题的同时,能够结合并平衡这些问题是至关重要的,那些能做到这一点的人可以创造最大的价值。

斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”_百度知...

课程地址: https://class.coursera.org/nlp/lecture/31

情感分析(Sentiment analysis)又可以叫做
意见抽取(Opinion extraction)
意见挖掘(Opinion mining)
情感挖掘(Sentiment mining)
主观分析(Subjectivity analysis)等等。

引用的论文:
Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP-2002, 79—86.
Bo Pang and Lillian Lee. 2004. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. ACL, 271-278

另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典:

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例

但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图

可以看出,这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为:

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:

可以看到极性划分的还不错


转自csdn

如何把握作者的情感倾向

准确把握作者的情感倾向,对领会文章主旨、注重情感体验、发展感受能力,往往具有重要价值。因而有效指导学生在课外阅读中揣摩、判别作者的情感倾向,对真正读懂文章、正确解题,具有先决意义。常言道:言为心声。大多数文章,作者的立场态度、褒贬倾向鲜明无碍,但有些文章纯客观展示矛盾冲突,作者犹有“跳出三界外,不在五行中”的淡定超然,情踪难觅。有的文章,作者虽介入事中,但口吻戏谑,褒贬不定,又难以捉摸。鉴于初中生有限的文学积淀和欠敏锐的情感触角,教师从相应角度,择取课内外特定篇目,切实指导学生强化揣摩意识,掌握判别方法,显得尤为必要。 一、 从字里行间辨析 文本是作者思想和情感的原始载体,即便隐晦不明,也能从相关的内容和特定的表达方式中找到蛛丝马迹。 1、 从特定情节上分析 《羚羊木雕》一文,写少年“我”未征得父母同意,将珍贵的非洲木雕送给了挚友万芳,以致父母逼我索回,使“我”痛苦万端。小说充分展示了情与理的冲突、价值与友谊的较量、未成年人财物处置的尴尬。作者似乎只是提出了现实生活中可能存在的矛盾纠葛,并有意回避自己对事件本身是非曲直的判断,从而使作者的情感倾向显得扑朔迷离。在处理“体会课文思想情感”的问题时,我让大家揣摩作者的情感倾向,并提示学生注意“我”送羚羊木雕给万芳的背景情节——万芳仗义的表现;矛盾冲突双方给人的感觉——父母的生硬粗暴、不留余地,“我”的为难、无奈和痛苦;旁观者奶奶的态度——“算了吧,这样多不好。”如此处理后,学生顺利地感觉到作者对“我”与万芳友谊的珍视,对“我”处境的同情,并借助奶奶之口,曲折委婉地批评了父母简单、粗暴的做法。 2、 品味议论和抒情句鲁迅先生的《阿长与山海经》一文,写了有关阿长的许多事,且大多数事情都表现了阿长的粗俗、无知和随性,学生对人物负面感受较强,加之对她为“我”买来《山海经》的行为认识不足,很难体会作者的感激深情。针对这种情况,我让他们找出文章中的议论句和抒情句,说出你从“别人不肯做,或不能做的事,她确能够做成功”“这四本书,乃是我最初得到,最为心爱的宝书。”“仁厚黑暗的地母啊,愿在你怀里永安她的魂灵!”等句子中读到什么?从而形成对作者敬佩、感激、同情之心的感知。 3、 注意情感代言人 在小说中,作者往往借助于矛盾冲突中立的一方表明态度,暗示倾向,如《羚羊木雕》中的奶奶,《我的叔叔于勒》中的“我”,《最后一课》中的小弗朗士等。尽管后两文的“我”与小弗朗士都是线索人物,但“我”代父母付牡蛎钱时对叔叔外貌的留意,同情之情溢于言表;内心的默念和付给小费,彰显了在金钱利益横流的社会里,骨肉亲情只与纯洁孩子同在的悲楚。小弗朗士行为态度的转变,意味着“最后一课”的无比庄严,爱国主义悲歌的极度感染力。作者的情怀通过次要人物的言行举止无声辐射,在貌似不偏不倚的沉静描述中,迸射出炽热的情感暗流。 二、 从写作手法上透视 初中生往往会在丑陋与俊美、崇高与低俗、正直与邪恶混杂兼有的人物身上迷茫无措,弄不清作者对其是何种态度,从而影响对人物的准确把握。 此种情况下,我让学生注意正负面是否有顺序。如果先写负面感觉,后写人物的不凡,一定是采用了欲扬先抑的写作手法,如《列夫托尔斯泰》、《阿长与山海经》,作者意在扬其正面,负面不过是一陪衬,为的是突出正面,使行文有起伏有波澜而已。 倘若没有明显的顺序呈现,就是作者在塑造或描摹人物时,遵从生活或艺术的真实性,表现人物多层面、立体复杂的形象性格。此时作者的情感倾向显然也呈现出相应的复杂性。 三、 从人伦道义上判断 如《蒲柳人家》中的何大学问,其性格就体现出两面性。一方面他仗义疏财,慷慨豁达,侠肝义胆,能言善道;另一方面他又死要脸面,爱戴高帽,为人处世粗枝大叶,行事从不量力而行。且正反两面往往相依相伴地裹在一起,呈现出正面难得、负面小节无害的特点,体现出作者对人物尊敬与戏谑参半的情感态度。 又如《水浒》、《西游记》中,诸如鲁智深、猪八戒等人物形象,作者的肯否无不对应于人伦纲常、公序良俗和人本理念,作者不变态,他心即公心。 四、 从背景动因上思考 有些文章,往往与作者经历和特定的背景相联系,惟有了解这些,才能透视作者内心的纠结在作品中的反映。如鲁迅先生对国人精神麻木、不觉悟耿耿于怀,其作品中屡显批判、痛惜之情:《藤野先生》中电影里的看客,《孔乙己》中的孔乙己及惟嘲弄孔乙己为快事的短衣帮,《故乡》中的中年闰土等皆有此疾,其文无不存有唤醒民众的念想,表达怒其不争的感愤。 综上所述,了解作者的情感倾向,是开启正确理解文章的窗口,而帮助学生学会自己打开窗口,不仅需要深入文本,还须逐步提高他们的文学素养、增强社会认知。

语文阅读理解中如何掌握人物的思想感情

一、做语文阅读理解题的一些基本规矩
二、关于做题的步骤
关于做题的步骤历来有多种方法,我们认为,最好的方法是:先整体感知文章(在这一步也可以看题,不过看题的目的是为了读懂文章)──然后看题,在文中找答案。
(一)读懂读透文章(整体感知文章)
怎样才算读懂读透文章,那就是把“三么”(“为什么写”是最终目标)读懂读透。
“三么”分别是:1.写什么(文章的主要内容)
2.为什么写(写作意图,即文章要表达的情、理、观点)
3.怎么写(作者的行文思路,先写什----再写什么-----后写什么)
整体感知应运作于动手答题之前。多数阅读的第一题就是提问整体感知中的写作内容或写作意图,感知题停留在知道的层面上,所以多数信息应从文中来。针对标题的设问往往也是整体感知。因为标题或限定话题,或限定内容,或表达中心思想,或抒发感情。
最重要的是,后面的每道题都是在围绕“三么”来命题的,特别是在围绕第二么(文章的主旨)来设置题的
(二)审懂:识别出命题者命题意图(考查的考点等),拿出相应的解题技巧。
1、首先是审题
这步非常重要,一定要搞清楚这题命题的意图,要知道命题者想考我们那个考点,要知道这是考点中的哪种题型,然后在自己的大脑调出相应的解题技巧。
2、定位(就是确定这道题答案的范围)3、
(三)写“懂”答案(组织答案)
锁定范围 筛选整合 归纳概括 规范表述
三、必须掌握的技巧
【在整体感知中如何抓住文章的主旨(就是第二么、主题、写作目的、中心)】
怎样归纳文章的中心?
准确归纳中心意思的前提条件是通读(可以是浏览)全文(全段),熟悉内容,对文章中写的材料作出分析,理清文章(或文段)写了哪些材料,材料与材料之间有什么关系,写这些材料的意义何在。在此基础上,再从以下几方面入手:
1).分析文章标题。题目是文章的窗口,透过它,可以窥见文章的中心。有的文章题目概括了文章的主要内容,透过它,不难探寻其中心思想;有的题目巧妙地暗示中心,分析其喻意,便可归纳出中心;有的题目直接揭示了文章的中心;至于那些题目仅仅表明记叙的对象、范围或线索的,我们还可以从其他方面入手。
2).研究文章的开头结尾(特别是结尾)。"开篇点题"与"画龙点睛"是写文章常用的手法。前者多半是采用议论抒情为主的表达方法,抓住这些带有概括性的关键语句,有助于分析归纳中心。后者是抓住结尾处具有深刻含意的句子,是归纳中心的一个有效的方法。
3).分析文章中议论抒情的语句。一般地说,记叙文中插入议论抒情是为了更鲜明地表现中心思想,增强文章的感染力。因此。抓住文中画龙点睛的议论抒情句,可以很顺利地找到全文的中心。如果我们找出文中的议论抒情句,作者的创作意图也就明白地显示出来了。
4).分析文章层次与人物事件。有些文章的中心意思隐合在人物事件或文章各部分之中,要进行综合归纳,才能准确把握中心。
5).分析文章中的详写点,研究作者处理详略的意图,探寻文章的中心。文章的详略安排总是服从于表达文章中心的需要的。一般地说。能表现中心的材料,作者是要用笔墨详加叙写的。所以,我们往往可以通过分析作者详写的部分发现并归纳文章的中心。但是,还有一种情况,详写仅仅是作者为表达中心而用的侧笔,而作者对真正要表现的中心却用墨甚少,这就要求我们研究作者详写此人此事的意图,发现了这一意图也就找到了文章的中心。
6).分析文章的背景材料。分析归纳文章的中心,有时还须了解、分析有关的时代背景,了解文中的事件、人物是在什么背景下产生、活动的。
【关于“关键句”这个考点】
1)什么样的句子是关键句?
2)关键句有哪些?
关键句大致说来有结构关键句和主旨关键句,所谓重要的句子,是指在文中起着重要作用的关键性句子。它通常指以下几种语句:
(1)结构比较复杂,意思隐晦的难懂的句子。
(2)使用了特殊的修辞格、内涵较为丰富的句子等。
(3)揭示文章脉络层次的句子,即文中段首的总起句、段末的总结句以及过渡句等;
(4)统摄全篇,即人们常说的文眼或者是揭示文章中心、主旨、观点、情感的句子。
3)关键句的考试题型
(1)关键句的含义(如:你是如何理解……)
(2)关键句的作用
(3)赏析关键句
(4)为什么说“关键句”
4)关键句的答题格式答案=A+B+C+D(请大家再想一想,A、B、C、D分别代表什么)
  附:理解重要句子的含义及其作用的注意事项。
首先,关于句子的含义,要注意以下几点(三注意、三想到):
“三注意”是指首先要注意从本句入手,看清句子在文中的位置,确定解决问题的阅读空间。其次要注意分析对本句的语法分析,了解本句的主干与枝叶成分,尤其要注意枝叶部分。第三要注意本句子与上下文的句子之间的关系。一般说来,句子间的相互关系有:指代(复指)、总分(分总)、说明、扩展(含阐述、解说)、比较、呼应等。如果是复句,其一般强调的重点是后半部分,那么就应该在此处着重揣摩。
“三想到”,一些句子的含义有时比较深奥,需要想到其特殊性,即“三想到”:“一想到”是其可能采用了某种修辞手法或者某种表现手法(如果是比喻,则应该找到本句中的本体,是说明生动形象的本体的什么特点呢,还是化抽象为具体来说明什么道理;如果是象征,则应先找出其象征的对象是什么,其含蓄而形象地显示了对象的什么特点)。“二想到”是其可能在结构上具有某种特殊的功能(总结上文、引起下文、承上启下)、“三想到”是一些文中的重要语句,有时受文章写作背景和思想内容的制约,给人以扑朔迷离之感,这时仅*上下文难以理解句子的含义,还需结合文章的时代背景、主题等内容加以理解。
  其次,关于句子的作用,应该注意从两个方面来加以思考:思想内容上与结构上。
第一个方面:思想内容上:①联系本句的含义。②突出(强调)上下文的什么内容或者揭示段意;③联系(揭示)本文的中心(论点、特征)与作者的态度、感情。④注意是否运用了某种修辞或者表现手法,如果运用,一定要注意其表达效果。
例如:
 (1)比喻:比喻要贴切,必须有相似点。本体与喻体的相似点越明显,越突出,比喻就越贴切。比喻的作用就是使深奥的道理浅显化,抽象的道理形象化,或者具体形象生动地突出本体的什么特点,从而增强文章的趣味性、生动性。
 (2)拟人:使物具有人的某种情感,便于抒发某种感情。如果在人称上将物说成“你”等,不仅具有使物具有人的某种情感,便于抒发某种感情,而且有显得亲切自然的表达效果。
  (3)衬托:用相似或相反的事物作陪衬,烘托出主体事物什么特点或者烘托出所要表达的某种感情。(衬托有主次之分,对比没有主次之分)
  (4)对比用什么与什么相成鲜明的对比,从而鲜明形象地表现事物(道理)的什么特点,突出作者对这一事物或者道理的某种感情。
  (5)反复:“反复”的作用就是强调、突出所重复的内容,表达作者什么感情,升华主题。
 (6)象征:象征是文艺创作的一种表现手法,用具体的事物表现某种特殊意义,或通过某定的具体的形象以表现与之相似的或相近的概念、思想和感情。其表达效果是含蓄而形象地显示了被象征对象的什么特点。
 (7)渲染:是用各种手段对环境、场面、人物、时间等多方面的重浓墨的描写,以突出什么气氛、刻画人物的什么特点、表现文章的什么主题。
 (8)伏笔:在文章的前边将下文要表现的人物或时间预先作出暗示,然后在相宜之处作呼应,使什么的故事情节的发展合理,使读者感到巧妙有趣。
 (9)照应:即后文对前文写过的内容作补充、加深或者前文对将要出现的人物或时间预作暗示。作用是前后(首尾)呼应,使文章的结构更加严密,中心更加突出。
 (10)设置悬念:引起读者对故事发展或者人物命运急切期待,从而引起下文。
【关于“人物形象”这个考点】
1)理解清楚人物形象的作用
2)有哪些题型(1)直接让你归纳某个人物形象
(2)根据某句话让你写出某人的性格或心理
(3)与中心结合起来考,因为主人公的人物形象与中心基本上是一致的。
3)如何归纳人物形象
小说(包括写人叙事类)中的人物描写是为表现人物性格,揭示作品主题思想服务的。阅读时只有了解了人物描写的方法和作用,把握人物性格特点,才能深刻理解文章的思想内容(即文章的中心)。分析人物形象,可以从下列几方面入手。
(1).从分析人物的直接描写入手。
人物直接描写(也叫正面描写),就是通过直接描写人物的肖像、行动、语言、心理等,揭示人物思想品质和性格特点,反映作品的主题。
肖像描写(也叫外貌描写)
它的作用不只在于勾画出这个人物的外部特征,而是为了以“形”来传“神”,因此分析人物外貌可以揭示人物性格特征。
行动描写和语言描写
人物行动最能体现人物的性格特点。言为心声,人物的语言也体现着人物的思想性格,
心理描写
分析人物的心理描写,能很好的揭示人物的内心世界。心理描写是对人物在一定环境中的思想活动描写,它往往和外貌、语言、行动交叉在一起。有时描写了人物的外貌、行动、语言,同时也反映了人物的内心世界。比如,孔乙己买洒时“排出九文大钱”这一动作,正反映了他在短衣帮面前炫耀的心理。
(2).从侧面描写人物。
侧面描写,概括地说就是通过其他人物的言行,间接写主人公。如用有关人物的对话,心理活动,事件叙述等烘托所要描写的主要人物的性格特征。
(3)如果知道了文章的主旨,直接采用王老师的“顺瓜摸藤”法
【词语的含义和作用考点】
一般情况下,试题中测试的词语含义往往不是词典义,而是在所给语境中的具体含义。这里的“具体”大致有以下几种情况:①指示代词的含义和文中临时有指代作用的词语在文中指代的具体内容。②能辨析文中同义词、近义词的差别。③能够把握词语在本文的特定语境中临时具有的含义。④能够理解词语在文中的表达作用。
解答这类题目时,“在文中”即语境是关键所在,词不离句是理解词语的基本原则。找出的含义一定要代入语境中进行检验。
所谓语境,它包括“内部语境”与“外部语境”,所谓内部语境,是指词语本身所在的句子,它对词语的含义起着限制或解释作用。而“外部语境”,即时间、地点、对象以及作者的思想、性格、处境、语言风格等主观因素。
具体来说
关于①:对于具有“指代”特点的词语的理解,应该先找出该词语所在的具体的语句或者段落,一般应运用结构分析的方法,理清指代对象的位置和范围,根据语境确定指代对象和内容,然后可以将答案代入原文,看是否恰当。
关于②:,则注意运用比较的方法来辨析它们之间的区别。具体来说,即“六比较”:比较范围的大小、比较词义的轻重、比较搭配习惯、比较构成成分、比较词性功能、比较感情色与语体色。
关于③:要注意词语本身具有的含义,要能准确理解。同时要注意词语的特殊性:即运用了该词语的比喻义(要搞清其比喻的对象,即本体)、引申义、双关义(谐音双关还是语意双关)、象征义(象征的对象是什么)、反语义、色义(褒贬互换)。找出之后,一定要代入原文中进行检验。
关于④:能够理解词语在文中的表达作用:注意“四联系”,即联系本词(对本词语的含义进行解说)、联系本句或者上下文(突出了本句或者上下文的什么内容)、联系文章的中心(论点)与作者的态度感情、联系特殊的表达效果(即运用了某种修辞手法的词语)
另外考查词语的作用考点时,要注意思考以下几个问题:
加点词语是写人时,应怎样回答;加点词语是写景时,应怎样回答;加点词语是托物言志的“物”时,应怎样回答;加点词语是说明文时,应怎样回答;加点词语是议论文中的词语时时,又应怎样回答。
【关于“环境描写”这个考点】
社会环境描写的主要作用
1、交代作品的时代背景。
2、在回答时必须结合当时当地的时代背景,指出文段中环境描写的相关语句揭示了什么样的社会现实。自然环境描写(景物描写)句的主要作用
1、表现(或交代)地域风光,提示时间、季节和环境特点;2、推动情节发展;3、渲染某种气氛;4、烘托或衬托人物形象(或人物心情、感情或处境等); 5、突出、深化主题;或暗示人物的命运等6、刻画人物形象
【关于“文章主要内容的概括”】 要求:全面、准确、简洁
1.记叙文:回答清楚(什么时间、什么地点)什么人做什么事 格式:(时间+地点)+人+事。
2.说明文:回答清楚说明对象是什么,它的特点是什么,格式:说明(介绍)+说明对象+说明内容(特点)
【段的作用】
对于这种题型我们可以从两个方面来回答:对于第一段的问题,从结构上来说,是落笔点题,点明文章的中心,开门见山,总领全文,或起到引起下文的作用;从内容上来说,是为下文作铺垫和衬托,为后面某某内容的描写打下伏笔。中间某段的问题,在结构上是起到承上启下、过渡的作用。最后一段或某句的作用是总结全文,点明文章主旨,让人回味无穷,并与题目相照应。等等。
【直接考中心】
对于这种题目,在回答之前一定要把全文仔细看几遍,然后可以用这样的关键词来进行回答:“通过…… 故事,歌颂(赞美)了……表达了作者……的思想感情,揭示了……的深刻道理。我们也可以从文中去找,在文章的每一段特别是第一段或最后一段的第一句或最后一句,文章中富有哲理性的句子往往是作者所要表达的主题。
对于借景抒情的文章,经常会问:文章表达了作者什么样的思想感情?
这需要根据文章的具体内容来回答,常见的有歌颂、赞美、热爱、喜爱、感动、高兴、渴望、震撼、眷念、惆怅、淡淡的忧愁、惋惜、思念(怀念)故乡和亲人、或者是厌倦、憎恶、痛苦、惭愧、内疚、痛恨、伤心、悲痛、遗憾等。一般作者的情感可以从文章的字里行间可以看出来的,有的也许写得比较含蓄,有的是直抒胸臆。
【赏析题】
1)、主要是对文章的内容、语言、写法有自己的心得,必须对文章的“三么”有很深的理解
2)、提出自己的看法和观点,要形成自己独到的见解,有创意。疑问必须理解正确,实事求是,不要故意唱反调。
3)、赏析中涉及写作特色则可以从下面五个方面入手,找出文章在这几个方面里最突出的一、二个方面并要具体举例加以分析说明:①、分析中心:看中心是否鲜明、集中、深刻。②、分析选材:看材料是否典型、新颖,详略是否恰当等。③、分析结构:看头尾是否照应,过渡是否自然,层次是否清晰。④、分析表达方式:主要是五种表达方式在以某种为主的情况其他表达方式的合理运用和搭配
4)、分析语言:⑴从语言的基本要求看:是否朴素、准确、精练等。如优秀的说明文大多是语言准确的
⑵从修辞角度看:主要是运用什么修辞起到什么作用。
⑶从语言的感情色看:是幽默还是讽刺还是庄重沉郁、是冷漠、悲凉还是欢乐喜悦……
⑷分析人物是否个性化:即人物语言是否具有鲜明的个性。
【开放性试题】
(一)语言赏析题
首先,让我们一起来看一道2006年江苏南通市的中考真题:
19.本文语言形象生动而富有表现力。请从画线的三个句子(句子附后)中任选一句作赏析。(可从语言特点、表现手法、表达作用等方面作答)(3分)
选(),赏析:
附:文句摘录
A湛蓝湛蓝的天幕之下,那片坦荡无垠的玫瑰红,红得那么娇艳,那么剔透,那么珠光闪烁。
B我也曾仔细地观察过这纤细的小草,它的根扎得并不很深,但须根极多,密密麻麻地紧紧抓住海滩的泥土,这样,大海无论是惊涛拍岸还是轻柔的摩挲,它都会紧贴在那里,待海潮退去后,继续从容娴静地显露出它的殷红。
C这一望无际的空旷之中没有花香,没有鸟语,只有点缀其间的簇簇芦苇在秋风之中诉说着它们苍凉的妩媚,就连不时掠空飞过的鸥鸟也是静静的,不出声响。
解决这样的问题,可从以下四步入手分析,即:(1)怎样写的;(2)写得怎样;(3)写出了什么;(4)给读者怎样的感受或表达了作者怎样的情感。例如,句A的赏析可以分解为(1)运用排比的修辞方法;(2)增强了语言的气势美;(3)写出了在湛蓝的背景下,红海滩的色之美;(4)给读者留下了深刻的印象。只要将这四点组合成句,就能使自己的回答趋于完美,如:这个句子运用排比的修辞方法,增强了语势,写出了在湛蓝的背景下红海滩的色之美,给读者留下了深刻的印象(或增强了文章的感染力等)。
依照此法,B句可作如下回答:
B句:运用拟人的手法,生动地写出了碱蓬草的从容和生命力的顽强,字里行间流露出作者对它的喜爱和敬意。
C句:以侧面描写的手法,烘托(或突出)了红海滩周围环境的宁静,极具感染力。
值得注意的是,关于“怎样写的”我们应该选取合适的角度,这些角度包括:人称、修辞、表达方式、文章结构、表现手法等等。比如,我们可以根据以上四个步骤为文中的C句作如下解答:运用侧面描写的方式(表达方式——描写的分类角度)烘托或突出了(写得怎样)红海滩周围环境的宁静(写出了什么),极具感染力(给读者的感受或表达的效果)。
四步法回答表达方式的题目是建立在对文章及语句本身初步(甚至深刻)理解的基础之上的,这里为你完整地回答问题提供了操作性较强的经验,真诚希望同学们在阅读时能做到笔随心动,不断提高自己的阅读鉴赏能力。
四步法适合散文任何一种文体,他们的解题方法都是一样的,四步法。其他文体也可以参考此方法。
(二)谈感受题
这也是散文阅读的热门考题,可分为:
① 对描写对象;②对人物情感;③品味富有表现力的语言;④对文章某些内容或形式提出自己的看法和疑问等。此考点灵活多变,把握的关键是:a、能准确读懂原文的含义和作者的思想情感(即中心);b、要有自己明确的观点或态度,不能模棱两可;c、答题时,语言要流畅,不能出病句,语言要有层次性,最好能显示出你的作文基本功。可以引用诗文或名言回答此题。
(三)仿写题
此考点一般是给一个句子,让考生仿写一个或几个。
答题要点:①要读懂题旨要求,出题人让考生做什么,怎么做;②例句的关键词语是什么,要抓住关键词语思考、答题;③在没有答题思路的情况下,要考虑和例句关键词语相对、相同的词语,例如:关键词语是天空,你可以考虑大地、高山、海洋等,联想要丰富,思维开阔。
例句的基本思维模式是:XXX对象在XXX条件下,XXX怎么样。例如:“没有蓝天的开阔,可以有白云的悠闲”就是这个公式的叠加使用,我们可以考虑:没有海洋的辽阔,可以有河流的彭湃;没有河流的奔腾汹涌,可以有小溪的清澈;没有高山的险峻,可以有土丘的秀气;没有高楼大厦的明亮,可以有草屋的温馨等等。
4)答题的语言要有讲究

展开全文
返回顶部
Baidu