以挖掘"摄影App"长尾关键词为例:
1,找"摄影"近义词
2,从百度凤巢中下载,摄影软件,摄影app,手机摄影 等词表;
3,合并,去重,计算字数
4,筛选出某字数,比如筛选出字数在4,8之间的;
4.1,去除不包含"软件,app,手机"的词;
4.2,去除搜索量<30的词;
4.3,去除疑问词,色情词;
4.4,处理AB,BA结构,留下搜索量最高的;
# coding:utf8 # 文件格式:kw#ser import jieba import re yw='谁|什么|么|哪|几个|几种|几次|几十|几时|多少|多大|多快|怎|啥|吗|呢|吧|啊|难道|岂|究竟|为何|如何|何时|何人' sq='污片|爽片|色图' with open(文件路径,'r',encoding='utf8') as f: f=f.readlines() d={} for line in f: kw,ser=line.strip().split('#') if int(ser)>=30: if '手机' in kw or 'app' in kw or '软件' in kw: yw_re=re.search(r'(%s)' %yw,kw) # 去疑问词 sq_re=re.search(r'(%s)' %sq,kw) # 去擦边词 if not yw_re and not sq_re: kw1=kw.replace(' ','').replace('的','')# 过滤空格,的 seg_list = jieba.lcut(kw1) seg_list.sort() seg_list_s_str='#'.join(seg_list) if seg_list_s_str in d.keys(): if int(d[seg_list_s_str]['ser'])<int(ser): d[seg_list_s_str]['ser']=ser d[seg_list_s_str]['kw']=kw.replace(' ','') else: d[seg_list_s_str]={'kw':kw.replace(' ',''),'ser':ser} for ele in d.values(): print(ele['kw'],ele['ser'])
还没有评论,来说两句吧...