jiebaR
jiebaR是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。jieba分词基于MIT协议,让R的可以方便的处理中文文本。jieba中文分词的R语言版本,支持最大概率法(Maximum Probability), 隐式马尔科夫模型(Hidden Markov Model), 索引模型(QuerySegment), 混合模型(MixSegment), 共四种分词模式, 同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。
Wordcloud
Wordcloud包在做词语分析时并没有多大的作用,但是在后期的报告展示中却起着很大的作用。虽然说实质大于形式,在实质能够保证的前提下,一个好的形式是成功的关键点所在。Wordcloud包就是一个可以使词频以图形的形式展示的软件包,它可以通过改变词云的形状和颜色,是的分析结果锦上添花。
word.txt1
2
3
4
5
6
7
8
9
10
11
12
13
14library(jiebaRD)
library(jiebaR)
library(wordcloud)
#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入
word <- scan('C:\\Users\\10568\\Desktop\\word.txt',sep='\n',what='',encoding="GBK")
seg <- qseg[word] #使用qseg类型分词,并把结果保存到对象seg中
seg <- table(seg) #统计词频
length(seg) #查看处理完后剩余的词数
seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,并提取出现次数最多的前100个词语
data=data.frame(seg)
wordcloud(data$seg , data$Freq, colors = rainbow(100), random.order=F)
x11()
dev.off()
