[记录]Python-SEO长尾关键词挖掘,过滤,整理,清洗

老丁

以挖掘"摄影App"长尾关键词为例:

1,找"摄影"近义词

2,从百度凤巢中下载,摄影软件,摄影app,手机摄影 等词表;

3,合并,去重,计算字数

4,筛选出某字数,比如筛选出字数在4,8之间的;

4.1,去除不包含"软件,app,手机"的词;

        4.2,去除搜索量<30的词;

4.3,去除疑问词,色情词;

4.4,处理AB,BA结构,留下搜索量最高的;


# coding:utf8
# 文件格式:kw#ser
import jieba
import re

yw='谁|什么|么|哪|几个|几种|几次|几十|几时|多少|多大|多快|怎|啥|吗|呢|吧|啊|难道|岂|究竟|为何|如何|何时|何人'
sq='污片|爽片|色图'
with open(文件路径,'r',encoding='utf8') as f:
    f=f.readlines()
d={}
for line in f:
    kw,ser=line.strip().split('#')
    if int(ser)>=30:
        if '手机' in kw or 'app' in kw or '软件' in kw:
            yw_re=re.search(r'(%s)' %yw,kw) # 去疑问词
            sq_re=re.search(r'(%s)' %sq,kw) # 去擦边词
            if not yw_re and not sq_re:
                kw1=kw.replace(' ','').replace('的','')# 过滤空格,的
                seg_list = jieba.lcut(kw1)
                seg_list.sort()
                seg_list_s_str='#'.join(seg_list)
                if seg_list_s_str in d.keys():
                    if int(d[seg_list_s_str]['ser'])<int(ser):
                        d[seg_list_s_str]['ser']=ser
                        d[seg_list_s_str]['kw']=kw.replace(' ','')
                else:
                    d[seg_list_s_str]={'kw':kw.replace(' ',''),'ser':ser}

for ele in d.values():
    print(ele['kw'],ele['ser'])


发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,312人围观)

还没有评论,来说两句吧...