[记录]Python-SEO长尾关键词挖掘，过滤，整理，清洗

以挖掘"摄影App"长尾关键词为例：

1，找"摄影"近义词

2，从百度凤巢中下载，摄影软件，摄影app，手机摄影等词表；

3，合并，去重，计算字数

4，筛选出某字数，比如筛选出字数在4，8之间的；

4.1，去除不包含"软件，app，手机"的词;

4.2，去除搜索量<30的词；

4.3，去除疑问词，色情词；

4.4，处理AB，BA结构，留下搜索量最高的；

# coding:utf8
# 文件格式：kw#ser
import jieba
import re

yw='谁|什么|么|哪|几个|几种|几次|几十|几时|多少|多大|多快|怎|啥|吗|呢|吧|啊|难道|岂|究竟|为何|如何|何时|何人'
sq='污片|爽片|色图'
with open(文件路径,'r',encoding='utf8') as f:
    f=f.readlines()
d={}
for line in f:
    kw,ser=line.strip().split('#')
    if int(ser)>=30:
        if '手机' in kw or 'app' in kw or '软件' in kw:
            yw_re=re.search(r'(%s)' %yw,kw) # 去疑问词
            sq_re=re.search(r'(%s)' %sq,kw) # 去擦边词
            if not yw_re and not sq_re:
                kw1=kw.replace(' ','').replace('的','')# 过滤空格,的
                seg_list = jieba.lcut(kw1)
                seg_list.sort()
                seg_list_s_str='#'.join(seg_list)
                if seg_list_s_str in d.keys():
                    if int(d[seg_list_s_str]['ser'])<int(ser):
                        d[seg_list_s_str]['ser']=ser
                        d[seg_list_s_str]['kw']=kw.replace(' ','')
                else:
                    d[seg_list_s_str]={'kw':kw.replace(' ',''),'ser':ser}

for ele in d.values():
    print(ele['kw'],ele['ser'])

[记录]Python-SEO长尾关键词挖掘，过滤，整理，清洗

相关阅读

发表评论取消回复

还没有评论，来说两句吧...