R语言进行词云分析 jiebaR、wordcloud

jiebaR

jiebaR是一款高效的R语言中文分词包，底层使用的是C++，通过Rcpp进行调用很高效。jieba分词基于MIT协议,让R的可以方便的处理中文文本。jieba中文分词的R语言版本，支持最大概率法（Maximum Probability）, 隐式马尔科夫模型（Hidden Markov Model）, 索引模型（QuerySegment）, 混合模型（MixSegment）, 共四种分词模式，同时有词性标注，关键词提取，文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。

Wordcloud

Wordcloud包在做词语分析时并没有多大的作用，但是在后期的报告展示中却起着很大的作用。虽然说实质大于形式，在实质能够保证的前提下，一个好的形式是成功的关键点所在。Wordcloud包就是一个可以使词频以图形的形式展示的软件包，它可以通过改变词云的形状和颜色，是的分析结果锦上添花。

word.txt

library(jiebaRD)
library(jiebaR)
library(wordcloud)

#读入数据分隔符是‘\n’，字符编码是‘UTF-8’，what=''表示以字符串类型读入
word <- scan('C:\\Users\\10568\\Desktop\\word.txt',sep='\n',what='',encoding="GBK")
seg <- qseg[word] #使用qseg类型分词，并把结果保存到对象seg中
seg <- table(seg) #统计词频
length(seg) #查看处理完后剩余的词数
seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序，并提取出现次数最多的前100个词语
data=data.frame(seg)
wordcloud(data$seg , data$Freq, colors = rainbow(100), random.order=F)
x11()
dev.off()