python爬取百度热点并入库到mongodb

python版本3.6,代码中用到的扩展库请自行安装,mongodb链接采用了本地链接,端口也是默认端口,说白了就是装了之后就是这样子链接的配置。

直接上代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
from pymongo import MongoClient

sietList = []

#爬取以及处理字段
bsResult = urlopen("http://top.baidu.com/buzz?b=1").read().decode('gbk','ignore');
bsObj = BeautifulSoup(bsResult,"html.parser");
listObj = bsObj.find(class_="list-table").findAll('tr')

for item in listObj:
	keyWordsItem = item.find('a',class_="list-title");
	if(keyWordsItem):
		sietList.append({
			'keyWord' : keyWordsItem.get_text(),
			'keyWordUrl' : keyWordsItem.attrs["href"],
			'keyWordIndex' : item.find('td',class_="last").find('span').get_text()
		})
	

#入库
client = MongoClient("mongodb://localhost:27017/")
db = client.baiduhw
posts = db.posts
posts.insert_many(sietList)

print('done')

感谢看完指鹤文章,希望指鹤的文章对您有所帮助。

闲暇时,指鹤喜欢写一些文章,部分发表在了豆瓣,若是您对此感兴趣,您可以点击下面连接支持下指鹤,指鹤在此表示感谢了

绝命笔记 一封匿名信引发的追寻 迷案追凶 量子危机