citespace突现词谱如何保存
保存为viz格式找到对应的文件夹储存。
词谱是通过提取表达文献核心内容的关键词或主题词来研究某一领域的发展动向和研究热点。相比共被引和耦合分析,共词分析的结果更为直观。尝试进行格式转换,如果不行,就要在其他窗口进行转换。
词谱,也就是词频分析。在进行共词分析之前,首先需要先了解词频分析。词频是指所分析的文档中词语出现的次数。词频分析就是在文献信息中提取能够表达文献核心内容的关键词和主题词频次高地分布,来研究该领域发展动向和研究热点的方法。
1先说中文词频统计,网上有不少半成品的软件或工具,如ROST系列ROSTCM6,ROST WordParser等,还有MyZiCiFreq及Excel版本的“词频分析工具@Excel大全”,除此之外其他免费的词频统计软件基本就是花瓶。
2这些软件都可以在网上下载下来。
3其中,Rostcm6功能强大,但可惜已经不再更新。excel版本的词频统计功能简洁明了,容易上手。
4由于目前这些免费的中文词频统计软件大都只能统计TXT文本文档,所以如果手头是PDF之类文件的话,需要先PDF转TXT,这时候需要一些工具或技巧,可以到百度经验中搜索具体办法。
要进行NVivo词频分析,通常需要一定数量的文章样本。具体要求的篇数没有固定的规定,而是取决于研究目的和研究领域。一般来说,为了获取准确的词频结果和广泛的覆盖性,建议至少使用10篇以上的文章样本。
使用多篇文章样本进行词频分析有以下几个原因:
1 提高结果的可信度:使用多篇文章样本可以减少样本偏差的影响,提高词频结果的可信度。不同的文章可能涵盖不同的主题、语境和作者观点,通过综合分析多篇文章,可以得到更全面和准确的词频信息。
2 增加统计代表性:使用多篇文章样本可以提高统计代表性,更好地反映整个领域或群体的特征。通过涵盖多个作者、来源和文体的文章,可以更好地把握词频的整体情况,避免因单篇文章的特殊性而导致的偏差。
3 探索关键主题和趋势:多篇文章样本可以帮助研究人员更全面地了解研究领域中的关键主题和趋势。通过对多篇文章进行词频分析,可以发现频繁出现的关键词汇,揭示出研究领域的热点问题、主要观点和趋势演变。
需要注意的是,词频分析只是研究的第一步,还需要结合其他分析方法和研究目的进行综合分析和解读。同时,样本的选择也需要考虑到代表性、多样性和可比性,以确保研究结果的有效性和可靠性。
是词频和共词分析、关键词共现网络、名词性术语共现网络。
1、词频和共词分析:词频是指所分析的文档中词语出现的次数。共词分析相比文献的共被引和耦合,得到的结果是非常直观的。研究者可以通过共词分析的结果,对研究领域的主题进行分析。
2、关键词共现网络:关键词共现网络就是对数据集中作者提供的关键词分析。
3、名词性术语共现网络:名词性术语的共词分析主要是从标题、关键词、辅助关键词以及摘要中提取。
(一)“胡”和“糊”
我从前单听他讲道理,也胡涂过去;现在晓得他讲道理的时候,不但唇边还抹着人油,而且心里满装着吃人的意思。(《狂人日记》)
他不以为然,含含胡胡的答道:“不……” (《狂人日记》)
宏儿和我靠着船窗,同看外面模糊的风景。(《故乡》)
最惹眼的屹立在庄外临河的空地上的一座戏台,模胡在遥远的月夜中。(《故乡》)
有一回,他似乎姓赵,但第二便模糊了。(《阿Q正传》)
“革命了……你知道?……”阿Q说的很含胡。(《阿Q正传》)
据说这藤野先生,穿衣服太模胡了,有时竟忘了带领结。(《藤野先生》)
“唔唔。”她含胡的回答(《祝福》)
上面的例子中“胡”和“糊”混用。[胡hu] 形声字。从肉古声。①表示说话做事没有根据,不讲道理,任意非为,相当于“乱”“瞎”。②表示任意胡来,乱来。[糊]形声字,从米,胡声。
[糊涂](形)不明事理对事物认识模糊;也形容内容混乱。(《现代规范字典》)
[糊涂][胡涂]①不明事理;对事物的认识模糊、混乱。如:他越解释我越糊涂。②内容混乱。如:一塌糊涂。③〈方〉模糊。
[含糊][含胡]1、不明确,不清楚。2、不认真、马虎。
甚至书名也有异体词。如:《人生识字胡涂始》和《难得糊涂》
在鲁迅的影响下,“含糊”、“含胡”、“糊涂”、“胡涂”、“模糊”、“模胡”走想规范化。
如:萧萧十五岁时已高如成人,心却还是一颗糊糊涂涂的心。(沈从文《萧萧》)
以至当后人重提“胡适只体”与“鲁迅风”时,所有印象还是那么模糊不定。(皓元宝《鲁迅六讲》)
转而想,要不是瘦子天天催,也可以不用磕头,糊里糊涂的算了。(台静农《拜堂》)
《近代汉语词典》有“糊突”同 糊涂,胡突 ,1、指头脑不清或不明事理。
元·白朴〈〈墙头马上〉〉第四折:“治国忠直,操守廉能,可怎生做事糊突!”
元·无名氏〈〈神妇儿〉〉第三折:“哎,你一个小晶塔官人忒胡突,待要罗织这支书,全不问实和虚。”
2、方言。粥。清·蒲松龄〈〈墙头记〉〉狸曲第一回:“清晨饮日高,糊突含了勾一瓢。
可见,鲁迅的异体词是受到古语词的影响。
(二)“踌躇”与“踌蹰”
车夫听了这老女人的话,却毫不踌躇,仍然搀着伊的臂膊,便一步一步的向前走。〈〈一件小事〉〉
那人便急起来,囔道:“怕什么?怎的不拿!”老栓还踌躇着〈〈药〉〉
学生云者,我向来这样想,这样说,现住却觉得有些踌躇了,我应该对她奉献我的悲哀与尊敬〈〈记念刘和珍君〉〉
我在极短期的踌蹰中,想这里的人照例相信鬼〈〈祝福〉〉
这时我才知道自己还是完全一个愚人,什么踌蹰,什么计画,都挡不住三句问〈〈祝福〉〉
四婶起初还踌蹰,待听完她自己的话,眼圈就有些红了〈〈祝福〉〉
[踌躇]1、犹豫;他毫不踌躇的答应了。2、得意的样子。 踌躇满志
近代也有:〔踌躇〕思量,考虑。
元·关汉卿〈〈鲁斋郎〉〉第三折:“他两个眉来眼去,不由我暗暗踌躇,似这般哑谜儿怎猜做?”
〈〈二十年目睹之怪现状〉〉第十七回:“到了家,老百母的病又不知怎么样,一切医药之费,恐怕不够,我正代你踌躇呢?”
〈〈第一批异形词整理表〉〉推荐使用“踌躇”,不要写作“踌蹰”
[踌蹰][踌躇] 心里迟疑,要走不走的样子。 如:~不前。
(三)“预”与“豫”
我站住了,豫备她来讨钱。 (祝福)
在学校遇到不及豫防的临时考,教师有偏在身旁的时候,惶急得多了。(同上)
然而会不会含有别的什么意思呢?——或者是有了什么豫感了?
仿佛怀着什么不详的豫感
“豫”本义指“象之大者”,在古代的常用义是“安适、安乐”又有预先准备的意思,再这个意义上与“预”通用。如“豫告”、“豫想”、“豫料”、“豫定”、“豫备”、“豫防”,现在一律用“预~”。
像这种以古语词作为构成新词的材料,沿用并赋予近代汉语以新的意义,是五四词汇的又一大特点。
(四)“帐”和“账”
这些字应该记着,将来做掌柜的时候,写账要用〈〈孔乙己〉〉
掌柜正在慢慢的结账。〈〈孔乙己〉〉
仍然慢慢算他的账。〈〈孔乙己〉〉
而且我们掌柜也从不将茴香豆上账。〈〈孔乙己〉〉
我交出帐目和余款一角又两铜元,不是校长了〈〈范爱农〉〉
〈〈算账〉〉和〈〈查旧帐〉〉
帐是形声字,从巾长声。《现代汉语词典》析义为:“①用布、纱布或绸子等做成的遮蔽用的东西,蚊帐、营帐。②同账。”账也是形声字,从贝长声《现代汉语词典》解释为:“①关于货贝,货物出入的记载、记账、查账②指帐簿,一本帐③债。欠债/还债。”
鲁迅之后的作品中也有此类的词:他付清了账,又拿了一张纸币给拿侍女……(沈从文〈〈沉沦〉〉)
你去那里开账来罢!(沈从文〈〈沉沦〉〉)
(五)“采”与“彩”
酒店里的人大笑,阿Q看见自己的勋业得到了赏识,便更加兴高采烈。〈〈阿Q正传〉〉
阿Q于是再看那些喝采的人们。〈〈阿Q正传〉〉
我们也何尝不酒醉似的喝彩。〈〈藤野先生〉〉
那老女人叹一口气,无精打采的收起饭菜。〈〈药〉〉
祥林嫂抬起她没有神采的眼睛来〈〈祝福〉〉
“采”与“彩”是古今字。但后来语义有了发展,成了包孕字。五四时期“采”与“彩”没有分别。但“采”作动词义时没有混用的地方。作神“神色,精神” 义时一般也不混用。但作与彩色有关的义项时,似乎两者均可,这样“彩”是包孕在“采” 义中的异体形式。现在又倾向于分化,与色彩有关的用“彩”。然而“丰富多彩”、“喝彩”等词中的“彩”写成“采”时有所见。鲁迅作品中的“精彩-精采”与“无精打采-无精打彩”。《现代汉语词典》和《新华字典》都只收“ 精彩”而无“精采”;《辞海》二者都收,又以前者为主;《辞源》只收前者,不收后者。“精彩-精采”有两个义项:“①演出、文章等优美,出色;②神采、精神风采。” “采”有一义项是“精神,神色”,如“神采”、“兴高采烈”,正符合“精彩”的②义项内容;而“彩”无此义项。“采”还有一个义项同“彩”。由此看来,“精采”要比“精彩”好一些。《现代汉语词典》有“无精打采”,未收“无精打彩”;《辞海》收“无精打采”并注明“采”也作“彩”。这个词语的意思是精神萎靡,不高兴,不振作。比较而言,用“采”表义更明确。
(六)“厉害”与“利害”
但我敢断言,反革命对于改革者的毒害,向来就并未放松过。手段的厉害也无以复加了。(〈〈论“费厄泼赖”应该缓行〉〉
仙台是一市镇,并不大,冬天冷的利害,还没有中国留学生。〈〈藤野先生〉〉
可祥林嫂真出格,听说那时实在闹的利害,大家说这大约因为在念书人家做过事,所以与众不同呢。〈〈祝福〉〉
厉,形声字,从厂,声旁为虿的省写。
利,本是“犁”的初文,会意字,从禾从刀。后用作“锋利、利益”之义。
[厉害][利害] 难以对付或忍受剧烈凶猛的事物。天热的~
[利害]利益和损害不计利害,利害攸关。
近代也有利害,但词义不尽相同。
[利害] 1、关系,干系。
〈〈清平山堂话本·死生交范张鸡黍〉〉:“ 汝兄巨卿不来,有甚利害?何苦自哭如死?”
〈〈水浒传〉〉第二七回:“这里又没人看见我们担些利害,且与你除了这枷。”
2、祸害。〈〈水浒传〉〉第一回:“真人三回五次禀说:‘此殿开不得,恐惹利害,有伤于人”
(七)“浮水”与“凫水”
“况且狗是能浮水的,一定仍要爬到岸上” (〈〈论“费厄泼赖”应该缓行〉〉
“这十多个少年,着实没有一个不会凫水的, 两三个还是弄潮的好手。〈〈故乡〉〉
因为他是浮水的好手,不容易淹死的〈〈范爱农〉〉
但他掉下去了,虽然能浮水,却从此不起来。〈〈范爱农〉〉
近代也有:
[浮水]亦称“水浮” 游水。
〈〈三国志平话〉〉卷上:“被侯成杀了扬奉,夺了门,浮水而过。”
元·无名氏〈〈来生债〉〉第二折:“好大雨,水淹将上来了,呀,大水冲了房子,好大雨,水浮水浮,水分水浮。”
(八)“仔细”与“子细”
忽然翻出一双绣花的弓鞋来,便放下公事,拿着子细地看〈〈范爱农〉〉
我横竖睡不着,仔细看了半夜,才从子缝里看出字来,满本都写着两个字“吃人”。(《狂人日记》)
[仔]1、幼小的生畜,家禽。这一解释现通写作“子”。2、细小、细密。
[仔细]1、细心:做事很仔细/仔细领会文件的精神。2、小心;当心:路滑,仔细点儿。3、〈方〉俭省,日子过的很仔细/也作“子细”。
近代“仔细”的含义不同:
[仔细]底细,详情。
〈〈京本通俗小说·碾玉观音〉〉:“郭立道:‘正不知他仔细,只见他在那里住地,依旧挂招牌做了生活。’”
(九)“阿呀”与“啊呀”以及“呵呵”与“荷荷”
“啊呀,那还了得。”坐在后排的一个二十多岁的人很现气愤的模样。(药)
“阿,地狱?”我很吃惊,只的支梧着。〈〈祝福〉〉
“阿呀,米呢?祥林嫂不是去淘米的么?……”〈〈祝福〉〉
“阿呀阿呀,我真上当。这回就为此特地来说清楚的。〈〈祝福〉〉
“阿呀,这样的婆婆!……”四婶惊奇的说〈〈祝福〉〉
“阿呀,我的太太!你真是大户人家的太太的话。”〈〈故乡〉〉
阿!这不是二十年时时记得的故乡〈〈故乡〉〉
阿!闰土的心里有无穷无尽的希奇的事,都是我往常的朋友所不知道的。〈〈故乡〉〉
“阿呀,老太太真是……这成没规矩。”〈〈故乡〉〉
“阿,你不要用这种称呼来冤枉我。”〈〈铸剑〉〉
[啊呀]叹词,表示惊异或告叹。啊呀出彩虹了!
[阿]前缀1、用在排行,小名或姓的前面2、用在其亲属的前面
[呀]叹词,表示惊异
一发现重伤的地方,便惊讶地喊“呵呀,这一处”(艾芜〈〈山峡中〉〉)
“荷荷荷,荷荷荷!”一种阴惨的,鬼哭似的笑声 (吴组缃〈〈黄昏〉〉)
“唉呀!这要是落到头上呢”(萧红〈〈呼兰河传〉〉)
“呵呵!”他一手接剑,一手捏着头发,提起眉间尺的头来〈〈铸剑〉〉
“荷荷!”阿Q忽而大叫起来,抬了头仓皇四顾。〈〈阿Q正传〉〉
近代的为:[阿呀]亦作“阿也”“阿约”
元·关汉卿〈〈拜月亭〉〉第三折:“阿也!是最大较些去也。”
元·无名氏〈〈王元江亭〉〉第二折::“春景融合,百花烂漫,阿约!好花木,好花木。“
〈〈水浒传〉〉第五三回:“阿呀!我的不稳,放我下来。”
〈〈初刻拍案惊奇〉〉卷三一:“阿也!不消如此,你二人是何师傅使来的人,就是自家一般。”
(十)“纪念”与“纪念”
《为了忘却的记念》和《记念刘和珍君》
《汉语大字典》收录了“记念”共有四个义项:“①犹挂碍;②怀念,记挂;③用来表示纪念品;④犹记诵。”这四个义项均源自古汉语。而“纪念”一词也有四个义项,前三个是:“①深切怀念,思念不忘;②用以表示纪念的事物;纪念活动,纪念日”。这三个义项均产生“五四”以后。如鲁迅作品《忆韦素园君》提到的“纪念品”。对于宋玉先生认为鲁迅作品中的记念是其青年时代在日本留学受日本文化的影响。他认为日本人使用汉字写的“jinian”,一律写作“记念”。赵树华,王廷德二先生在《鲁迅作品中的“纪念”和“记念”》一文中提到一般对人用“记念”,对物用“纪念”,但有个别的例外。如:“他爱他的家乡,终身纪念着……”见(译文序跋集《战争中的威尔珍译者附记》)②用“纪念”表示一般性怀念,用“记念”表示更深的内涵,意在发人深省。特别在文章的标题中用“记念”是为了强调和突出所纪念的对象在现实生活中的意义。如《记念刘和珍君》《为了忘却的“记念”》中的“记念”不仅有“怀念”、“记挂”的意思,更有永记不忘,继承其意志的内涵。对于异体词“纪念与记念”在五四时期以记念为主,毕竟“纪念”是后起的词。
二、 鲁迅异体词产生的原因
与形式的规范相比,五四新文学运动的另一重要改革是来自意义的变革,语言力图改变文言时代的晦涩和引经据典,以清新、自然、通俗的语言走进大众的生活。但无论新文化运动的提倡者和实践者多么有学识、有魄力,他都不可能一蹴而就。首先他们不可能摆脱幼时及后来文言的濡染;其次,任何改革都不可能一步到位。在当时的探索阶段,当他们提倡白话写作,反对文言的过度存在时,有许多表达要他们摸索着进行完善。
三、鲁迅异体词的出路
鲁迅异体词的出路有两条:一是分工并存,二是存优汰劣。第一种“分工并存”的情况,似乎好办些,只要分工合理就行了。如“统帅~统率”。“统帅”专指“统率武装力量的最高***”,是名词。而“统率”是“统辖率领”的意思,是动词。这样一词一义,就不会混用了。但第二种“存优汰劣”的情况,则更复杂得多,它涉及字源、字义、历史、现实、方言、口语、书面以及阅读心理等多种因素。应区别不同情况,分别处理。例如,在历史的与现实的这对因素中,我们的原则是以现实的为主,因为这是现代汉语的书面形式。如“伙伴~火伴”,就词源来看,是先有“火伴”,由于词义引申及人们的视觉感受作用,现在多写作“伙伴”,所以我们就以“伙伴”为正体词形,而以“火伴”为异体词形。通常情况下,偏旁异体词的规范我们可依据如下原则:
(一)从俗。因为词语是人们用来交际的,具有社会性的特点,所以在确立标准词形时,首先考虑的原则就是从俗从众,取人们常用的词形。由于种种原因,人们在长期的书写实践中多使用词的某一形体,尽管其中有些看上去不太合乎理据。如“思维~思惟”这组异体词中,就字形看,“惟”从心,古人云“心之官则思”,用“惟’壤人的心理活动,这符合古代人们对思维的认识。所以,“思惟”这一词形似乎意义更准确,也合乎语源。但长期以来,人们更习惯用的是“思维”。那么,根据从俗的原则,不妨就确立“思维”为标准词形。类似的例子如:“仔细~子细”、“伙伴~火伴”、“娥眉~蛾眉”等,都取前者,废后者。
(二)从简。书写符号只不过是记录语言的工具,当然尽可能以简明为好。如果一个词的几个形体其他条件差不多,而有— 个在结构上比较简单,笔画少,容易书写,那么我们就不妨选择字形简单的作为标准词形。如“人才~人材”、“补丁~补钉”等,就应取前者,废后者。另从总体来看,汉字能指(形体)太多,意义单一,造成词汇量太大,给学习者带来不便。有些偏旁异体词的某字只是记录某一个词的专职汉字,字义与词义联系不密切,我们如果能从汉字系统性原则出发,精简掉这些同音字,就会收到事半功倍的效果。如“搭拉~ 耷拉”、“辐凑~辐辏”等,其中的“耷、辏”等字,都是只能在某个词中出现的专职汉字,用“搭、凑”等字更有利于词义的表达,我们就可以把“耷、辏”等作为“搭、凑”的异体字,予以淘汰。这样,既规范了词形,又减少了汉字的字数,便于人们学习。
(三)义明。因为汉字基本上是记录语素的,从字形上往往能体察到这个字的类义或大概意义,所以,在确立标准词形时,表义明确就不能不作为一条必须考虑的基本原则。如:“耽搁~担搁”其中“耽”有迟延之义,而“担”则没有,所以取“耽搁”,语素义与词义能有机地结合起来,使人“望文生义”,从字面上就能大致理解词的意义。又如,“酒盅~酒钟”。“盅”从字形上就可以看出它表示的是一种器皿,加上“酒”,从字面上就可以大致猜出它是一种盛酒的用具,而“钟”则表义不如它明确。与此相类似,“盯梢~钉梢”“悚然~竦然”“狐臭~胡臭”等,为使意义外现,都应取前者,废后者。偏旁异体词的演变总趋势是选用标旁词形,淘汰非标旁词形,因此,没有特别的原因,偏旁异体词的规范应尽量以标旁异体词为标准字形,即使标旁异体词词频优势暂时并不明显或不具有优势。如“啦啦队”与“拉拉队”是异体词。《现代汉语词典(修订本)》以“拉拉队”为正。根据《人民日报~;2000.1 2OOO.11的词频统计,二者的词频比为12:31;根据《光明日报》2000.1—2OoO.11的词频统计,二者的词频比为8:0。应该说“啦啦队”的优势并不明显。但该词是指“体育比赛时,在旁边给运动员呐喊助威的一组人”,它的词义特征是用“呐喊”来给运动员助威,因此用带“口”字偏旁的词形“啦啦队”更有理据,更能使词义外现,因而就不妨以“啦啦队”为标准词形。有时表义明确这一原则与词形简化原则相冲突,是矛盾的,如,“吩咐~分付”,就字形来看,“分付”要比“吩咐”简单得多;然而就表义来看,“吩咐”却比“分咐”明确得多。在这种情况下,我们应充分考虑到汉字的特点,照顾^们的阅谗 理及视觉习惯,取表义明确的词形为标准词形。如:“褴褛~蓝褛”“蝴蝶~胡蝶”“筹码~筹马”等,都属于这种情况。因这种要多写上几笔的“繁”,完全可从人们阅读理解的“易”中获得补偿。标旁异体词并没有因为多了偏旁增加了人们学习和使用的负担,相反,因为形式和意义相连更便于人们学习和使用。
而且,虽然从客观界定上说,异体词语用功能的表现应该是“在任何语境中都可以互相替换”,异体词似乎“有百弊而无一利”。但是从我们提出的诸多异体词来看,我们对异体词涵义的理解跟具体的操作有距离,在这种情况下说异体词“有百弊而无一利”,多少有些让人踌躇。而且若据此界定去衡量异体词,就会发现这部分的数量极少,随着语料的数量增多、范围扩大、语境层次更加丰富,便觉得异体词的数量在减少。如果结合不同的语用群体来分析,异体词不同形体的使用范围常有差异,这样我们就必须考虑多大程度上可以模糊这种差异,以取得归并的基础或强化这种差异以实现分化的可能。对异体词功能的理解至少从现状来看,一定要从典型范畴的角度来认识。从语用的效率来看,异体词的存在使语用显得很不经济,然而如何认识经济性问题,在认识上还存在分歧。从异体词来说,多一词显然没有少一词经济,但如果我们整理时没有很好地协调好语用关系,整理了一个异体词,有时实际就增加了一个词,使语用反而显得比较混乱,显得更不经济。我们以前整理汉字,有的地方归并的理据不充分,语用基础不够,显得太急了,影响了语用的经济。语言文字工作总的来说是急不得的,不能为的就不为。不为也是一种为,回避并非无为。拿得准的才拿,连自己都有所犹豫的必须放一放。这方面的教训不少,一定程度上与我们对经济效率的理解偏误有关。而且,对于汉字的从简发展,从简恐怕不仅仅是字数、笔画的减少。异体词的从简也如此,语用关系的合理调适才是根本意义上的从简。有时增加一个字、多了一两笔、保留一种词形反而便于理解和使用,而且能照顾不同的语用群体的语用心理和习惯。比较而言,哪个更简,哪个经济,都与我们的根本目的相联系。相对于义明、音准、尊重差异等整理原则,从简原则(如选用笔画少的、取消某些专用字、减少多音字的某个读音等)的效度是相当低的,而且在操作上很容易出现偏差。如从取消专用字角度看,有入主张在“保姆一保母”“葫芦一胡卢”“蝴蝶一胡蝶”“恍惚一恍忽”“蝌蚪一科斗”“瞌睡一磕睡”“鲨鱼一沙鱼”“辗转一展转”中选择后者,恐怕不便使用。对于“叮咛一丁宁”“伶仃一零丁”,人们恐怕还是愿意使用前者,以形显义。词语中的语形有相互浸染的情况,又如“骨骼一骨胳”“嚎咙一蒙咙” ‘模糊一模胡”。国家规定中也存在对简化、经济的片面理解。如“噘”在《第一批异体字整理表》中作为“撅”的异体而弃用,这就影响到“噘嘴”存在的合法性。然而,人们(除了对标准很熟悉且严格遵行者)还是喜欢使用“噘嘴”,“撅嘴”不大用,而且用起来觉得很别扭。“撅”和“噘”的整理不仅是文字整理,或者说从根本上看不是文字,而是语义关系和语用习惯、语用心理的整理。对从简的可操作范围要细加分析,有的看似从简,实际是其他原因造成的,如“折中一折衷”多用“折中”。有时要求从简而忽视了其中的差异。如有人主张在“恶梦一噩梦”中取用前者。对语用中的经济问题必须辩证理解,综合权衡利弊得失。从我们对异体词的性质以及我们在异体词整理中存在的问题和困难的分析,我们认为异体词整理是不可能一劳永逸的。异体词问题从根本上说是文字与语言及它们与语用的关系问题,在有的情况下,异体词是有相当的能产性的,它是语义关系在语用中的必然反映。异体词的出现也是潜词显化的一条途径、一种方式。异体词规范词形的选择具有某种相对强制性,即它具有相对高的语用价值,这并非表示被弃用的词形就完全没有语用价值。它实际是一种语用预测。
因此,在整理异体词时,要立足于现代汉语,以今为主,依据从俗、从简、义明这几条基本原则,具体情况具体对待,综合考虑诸方面因素,能为则为,不能为则不为,能多大程度上可为就在多大程度上去为,时刻存有“患得患失”意识。不要迷恋一呼百应,充分考虑语用的关系循序渐进,因势利导,这样才能使规范的异体词经得起历史的考验,这样才能合理,
希望你能够满意,O(∩_∩)O谢谢
词频统计的意义:词频统计是用来统计一篇文章中,某一个字段出现的次数,从而了解文章的重点,关键字,方便理解作者的想法。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-DF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。文字软件恐怕还没有你想的那么智能,可以自主分析关键词。它只可以提取出现频率较高的词语。
词频统计原理:在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)
逆向文件频率(inversedocumentfrequency,IDF)是一个词语普追重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是003(3/100)。一个计算文件频率(DF)的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。
所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是921=((10,000,000/1,000)。最后的TF-IDF的分数为028=(003921)。
citespace突现词谱如何保存
本文2023-09-23 08:20:10发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/69148.html