百度SEO

  |  

摘要: 初步探索百度 SEO,不过后台显示每天从谷歌来的量不少,但是见不到百度来的,可能还有点问题

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


1. 百度搜索资源平台添加网站

https://ziyuan.baidu.com/

  • 点击【用户中心】→【站点管理】添加网站

  • 验证站点

三个用任意一个都可以,推荐 HTML 标签验证或者 CNAME 验证

2. 生成Sitemap

sitemap即网站地图,它的作用在于便于搜索引擎更加智能地抓取网站。最简单和常见的sitemap形式,是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据

安装sitemap生成插件

1
2
npm install hexo-generator-sitemap --save
npm install hexo-generator-baidu-sitemap --save

编辑站点目录下的_config.yml, 增加

1
2
3
4
5
# hexo sitemap
sitemap:
path: sitemap.xml
baidusitemap:
path: baidusitemap.xml

之后在执行 hexo g 后, public目录下发现生成了 sitemap.xml和baidusitemap.xml, 配置成功。

3. 提交 sitemap

提交 Google 需要上 Google 搜索引擎,暂时弄不了,不过网上都说谷歌比百度简单。

向百度提交:输入自己的域名加 baidusitemap.xml 即可(谷歌提交的是 sitemap.xml 的链接)

由于 GitHub 屏蔽了百度的爬虫,即使提交成功,百度知道这里有可供抓取的链接,也不一定能抓取成功。这也是之前费劲搞双线部署的原因。

检测抓取

如何选择链接提交方式
1、主动推送:最为快速的提交方式,推荐您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。
2、自动推送:最为便捷的提交方式,请将自动推送的 JS 代码部署在站点的每一个页面源代码中,部署代码的页面在每次被浏览时,链接会被自动推送给百度。可以与主动推送配合使用。

4. 主动提交

安装插件

1
npm install hexo-baidu-url-submit --save

在根目录 _config.yml 文件里加入以下代码:

1
2
3
4
5
baidu_url_submit:
count: 100 # 提交最新的多少个链接
host: chengzhaoxi.xyz # 在百度站长平台中添加的域名
token: # 秘钥
path: baidu_urls.txt

其中 token可以在推送接口 API提交-推送接口 看到:

在根目录的 _config.yml 下找到 url 配置:

1
2
3
4
5
# URL
## If your site is put in a subdirectory, set url as 'http://yoursite.com/child' and root as '/child/'
url: https://chengzhaoxi.xyz
root: /
permalink: :year/:month/:day/:title/

在_config.yml 加入新的deployer

1
type: baidu_url_submitter #新加的主动推送

然后三连上传。下图表示成功了 60 条。

$5 其它

有的文章推荐自动推送,不过现在在百度找不到自动推送了。

此外有点文章还有一些其它的操作,不过暂时还没有使用,以后有时间再尝试,只是记录一下。

robots.txt

是一种存放于网站根目录下的ASCII编码的文本文件,它的作用是告诉搜索引擎此网站中哪些内容是可以被爬取的,哪些是禁止爬取的。

在 source 目录下增加 robots.txt 文件,网站生成后在网站的根目录(站点目录/public/)下。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
User-agent: *
Allow: /
Allow: /archives/
Allow: /categories/
Allow: /tags/

Disallow: /vendors/
Disallow: /js/
Disallow: /css/
Disallow: /fonts/
Disallow: /vendors/
Disallow: /fancybox/

Sitemap: https://你的域名/sitemap.xml
Sitemap: https://你的域名/baidusitemap.xml

Url持久化

hexo默认生成的文章地址路径是 网站名称/年/月/日/文章名称

这种链接对搜索爬虫是很不友好的,第一它的url结构超过了三层,太深了。

可以尝试 hexo-abbrlink

1
npm install hexo-abbrlink --save

配置_config.yml

1
2
3
4
5
# permalink: :title/
permalink: archives/:abbrlink.html
abbrlink:
alg: crc32 # 算法:crc16(default) and crc32
rep: hex # 进制:dec(default) and hex

添加 nofollow 标签

给非友情链接的出站链接添加 nofollow 标签,nofollow 标签是由谷歌领头创新的一个反垃圾链接的标签,并被百度搜索引擎广泛支持,

引用 nofollow 标签的目的是:用于指示搜索引擎不要追踪网页上的带有 nofollow 属性的任何出站链接,以减少垃圾链接的分散网站权重。

页面关键字优化

keywords在你_config.yml配置文件中就有。注意的是除了根目录上的要修改以外还有主题里的。否则就会出现默认的keywords。


主要参考文章:


Share