关键词库简处理概述

在网站处理过程中会使用大量的关键词进行填充,然而刚导出的关键词中常常会有部分词是不需要的,并且重复度也没办法进行控制。因此每次整理出新词之后都需要消耗大量的精力进行筛选处理,在此基础上想要对导出的词库进行前置的精简处理,节省下时间。下面讲解下操作思路。

一、处理准备的错词表和年份表

前期整理的大量的关键词,如果注意下会留下过往筛选出错词进行归整的错词表。年份的话比较好处理,根据需要从公元元年开始替换都没人拦着。好了,准备好这两样数组表,然后将词组导入到数据库处理软件中,使用公式对词库中的内容进行替换。下面是使用到的替换公式:

UPDATE 'Content' SET 标题 = replace(标题, '1965', '2021') ;

这一步处理的是大部分已经整理的错词、侵权词和不需要的词根,另外将时间更新为最新时间。

二、处理关键词中过量的数字

有时扩充的关键词中有许多带有莫名的长串数字或者电话等多余内容,通过使用excel中的宏命令可以将这些内容进行导出到单独的一列,方便查看多余的数字。不过目前使用的公式没有增加空格,导出后可以再创建一列统计当前数字列中的字符长短,len()方便筛选出过长的数字。下面是筛选关键词中数字的公式:

Function SZ(i As String) As String
Dim a As Object
Set a = CreateObject("VBSCRIPT.REGEXP")
a.Pattern = "[^0-9]"
a.IgnoreCase = True
a.Global = True
SZ = a.Replace(i, "")
Set a = Nothing
End Function
三、处理关键词单个词语过长

在关键词中也会出现连词或者乱码样式的单词,这种类型的可以通过对关键词列进行分列处理。复制出一列对其进行分列,分隔符选择空格。此时单个词就会被分布在单独的单元格中,这时再对这个范围下的单元格执行单词长度筛选就可以将单个词过长的进行删除。

四、清理部分重复关键词

扩展的关键词多了之后就会发现有些关键词仅仅是前面数字或者是修饰词不同,后面的内容完全一样,或者是前面完全相同,后面只是国家不同,对于前面不同的关键词可以通过分列中的截取来将前部适当长度的位置进行截取,然后对尾部进行去重处理。不过关键词后部的内容处理会稍微麻烦些,需要将其前后调换,然后处理方式就和前面一样了。下面是使用的宏命令:

Function rr(a As Range)
Dim i%, s$
For i = 0 To Len(a) - 1
s = s & Mid(a, Len(a) - i, 1)
Next
rr = s
End Function

以上流程结束,刚刚扩充出的关键词库就完成了简略的处理,如果要求不高也可以直接使用了。如果再进行精细的筛选就耐心逐条检查吧。

20210319-补充

在筛选过程后筛选小语种词时可以将关键词导入到内容替换软件中“chrep.exe”,下面粘贴替换的xml文件格式:

<?xml version="1.0" encoding="gb2312" ?>
<replace>
<item><old>vertical</old><new>111111</new></item>
<item><old>portatil</old><new>111111</new></item>
<item><old>pantalla</old><new>111111</new></item>
<item><old>alimentador</old><new>111111</new></item>
<item><old>trituradora</old><new>111111</new></item>
<item><old>flotacion</old><new>111111</new></item>
<item><old>lavado</old><new>111111</new></item>
<item><old>mineral</old><new>111111</new></item>
<item><old>planta</old><new>111111</new></item>
<item><old>producto</old><new>111111</new></item>
</replace>

替换完成后的txt文件导入到数据库处理软件中,使用sql命令清理包含目标词的关键词,对比测试使用excel导入,txt格式更加快速,不过导入过程需要注意连接符号等问题。

0 条评论