Python 自然语言处理 入门——提取《釜山行》的人物关系
p627221344
8年前
<p>使用jieba库对 《釜山行》中的人物关系进行提取,然后使用Gephi软件进行关系可视化处理,得到可视化的人物关系。</p> <p><strong>1. 使用jieba库 对《釜山行》的剧本进行关系实体。这里的实体指的是人物。</strong></p> <pre> <code class="language-python">names = {} # 姓名字典 relationships = {} # 关系字典 #limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的 lineNames = [] # 每段内人物关系</code></pre> <pre> <code class="language-python">jieba.load_userdict("dict.txt") # 加载字典 with codecs.open("busan.txt", "r", "utf8") as f: for line in f.readlines(): #按行输出文件 #print line #poss 包含两个key,一个是word,一个是flag """ words=pseg.cut("我爱北京天安门") for word ,flag in words: print ('%s %s' %(word,flag)) 输出的格式是: 我 r 爱 v 北京 ns 天安门 ns """ poss = pseg.cut(line) # 分词并返回该词词性 #给list添加一个为空的list lineNames.append([]) # 为新读入的一段添加人物名称列表 for w in poss: if w.flag != "nr" or len(w.word) < 2: continue # 当分词长度小于2或该词词性不为nr时认为该词不为人名 #[-1]表示最后一个元素 #limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的 lineNames[-1].append(w.word) # 为当前段的环境增加一个人物 if names.get(w.word) is None: names[w.word] = 0 relationships[w.word] = {} names[w.word] += 1 # 该人物出现次数加 1</code></pre> <p>运行的结果是:在names得到的是人名和人名出现的次数</p> <p style="text-align:center"><img src="https://simg.open-open.com/show/0383a54a39d841ea60135be267e514f1.png"></p> <p style="text-align:center">image.png</p> <p><strong>2 出现实体之间的关系</strong></p> <p>提取中文之间的实体关系是一个很复杂的算法,但是这里并不需要提取到具体的关系。只需要直到他们之间是否有关系。所以,判断是否有关系,通过一句话里面是否有这两个实体。如果一句话里面包含这两个实体,我们可以认为他们是存在关系的。(但也可能并不存在,只是存在关系的可能性很大)</p> <pre> <code class="language-python">lineNames = [] # 用linenames记录每一行出现的人名 如果这一行没有人名,就push一个空list,如果有,就把人push进去。</code></pre> <p>建立实体之间关系:</p> <pre> <code class="language-python"># explore relationships for line in lineNames: # 对于每一段 for name1 in line: for name2 in line: # 每段中的任意两个人 if name1 == name2: continue #如果名字1 和名字2 不相同的话 #也就是说,关系的抽取是基于 这一行有没有出现这两个名字 if relationships[name1].get(name2) is None: # 若两人尚未同时出现则新建项 relationships[name1][name2]= 1 else: relationships[name1][name2] = relationships[name1][name2]+ 1 # 两人共同出现次数加 1</code></pre> <p><strong>3.输出关系</strong></p> <pre> <code class="language-python">with codecs.open("busan_node.txt", "w", "utf-8") as f: f.write("Id Label Weight\r\n") for name, times in names.items(): f.write(name + " " + name + " " + str(times) + "\r\n") with codecs.open("busan_edge.txt", "w", "gbk") as f: f.write("Source Target Weight\r\n") for name, edges in relationships.items(): for v, w in edges.items(): if w > 3: f.write(name + " " + v + " " + str(w) + "\r\n")</code></pre> <p>得到实体之间的关系</p> <p style="text-align:center"><img src="https://simg.open-open.com/show/364a9ebe32dc79809a8107ebf4c39179.png"></p> <p style="text-align:center">image.png</p> <p>4. 用gephi进行可视化处理</p> <p>生成一张可视化的关系图</p> <p style="text-align:center"><img src="https://simg.open-open.com/show/e4aa1305d8da58026df63c25e41bd61d.png"></p> <p> </p> <p> </p> <p>来自:http://www.jianshu.com/p/8fc86ba6222d</p> <p> </p>