国产激情自拍_国产9色视频_丁香花在线电影小说观看 _久久久久国产精品嫩草影院

首頁 > 編程 > Python > 正文

學習記錄:python糗百爬蟲

2019-11-11 07:48:29
字體:
來源:轉載
供稿:網友

最近想了解下爬蟲是如何運作的,就在酷勤網上找了爬蟲的教程學習了下,順便學下下python的基本語法。 由于網上的代碼是無縮進版本的,本人對python產生了奇怪的怨念。 花了半天才調整出能跑的格式。


遇到的問題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會報錯。 2.不能手賤多打空格,不然會出現縮減不匹配的問題 3.網上所給的正則表達式已經不能再匹配當前的糗百網頁,需要重新改寫。 4.沒縮減的代碼看起來真的好累,不知道什么地方結束什么地方開始。有幾個return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來0 0


另外,對python語句以下了解: 1. __ author __好像沒什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫都是python自帶的 4.對方法里的self問題的理解

http://www.cnblogs.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會有,獨立的函數或方法是不必帶有self的。self在定義類的方法時是必須有的,雖然在調用時不必傳入相應的參數。self名稱不是必須的,在python中self不是關鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會不明白的。self指的是類實例對象本身(注意:不是類本身)。

運行結果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續運行的變量 self.stories=[] #傳入某一頁的索引獲得頁面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構建請求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁面代碼 response = urllib2.urlopen(request) #講頁面轉化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯誤原因",e.reason return None #傳入某一頁代碼,返回本頁不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來存儲每頁的段子們 pageStories = [] #便利正則表達式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個段子的發布者,item[1]是內容,item[3]是點贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁面的內容,加入到列表中 def loadPage(self): #如果當前未看的頁數少于2頁,則加載新的一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #講該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁碼所以加一,表示下次讀取下一頁 self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當輸入回車一次,判斷一下是否要加載頁面 self.loadPage() #如果輸入Q則程序結束 if input == "Q": self.enable = False return print u"第%d頁/t發布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到第幾頁 nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁的段子 pageStories = self.stories[0] #當前讀到的頁數加一 nowPage += 1 #將全局list中第一個元素刪除 因為已經取出 del self.stories[0] #輸出該頁段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
国产激情自拍_国产9色视频_丁香花在线电影小说观看 _久久久久国产精品嫩草影院
精品欧美色视频网站在线观看| 久久国产热视频| 丁香综合在线| 开心婷婷激情五月| 国产乱妇乱子在线播视频播放网站| 国内a∨免费播放| 尤物免费看在线视频| 午夜不卡视频| 一本大道久久精品| 亚洲一区二区三区在线观看网站| 日本啊v在线| 国产福利电影在线观看| 青青草在线免费观看| 国产丝袜在线播放| 四虎国产精品永久地址998| 国产卡一卡二卡三| 性国产高清在线观看| 丁香花高清在线观看完整版| 国产高清免费在线播放| 日本不卡影院| 在线中文字幕视频观看| 国产原创av在线| 亚洲精品少妇久久久久久| 国产精品剧情一区二区三区 | 美女免费视频黄| 国产三级视频在线看| 欧美高清xxxx性| 在线成人综合色一区| 国产农村一级特黄α**毛片 | 最近中文字幕大全中文字幕免费| 精品视频麻豆入口| 国产一级黄色电影| 99热在线免费播放| 日本视频在线| 精品亚洲成a人片在线观看| www555久久| 色欧美在线观看| 在线成人一区| 中文日本在线观看| 在线国产一区二区三区| 99在线免费观看| 精品伦理一区二区| 精品视频麻豆入口| 在线视频中文字幕久| 精品美女调教视频| 91三级在线| av在线免费播放网站| eeuss影院www在线播放| 青青艹在线视频| 国产免费一级| 欧美精品se| 国产美女视频一区二区二三区 | 国产福利免费在线观看| 国产精品yjizz视频网一二区| 国产精品入口麻豆免费看| 国产亚洲精品午夜高清影院 | 免费在线观看a| 黄色网址在线免费播放| av亚洲男人天堂| 欧美午夜电影一区二区三区| 狠狠干在线视频| 中文字幕专区| 亚洲大香人伊一本线| 免费女人毛片视频| 国产一二三视频| av二区三区| 国产乱妇乱子在线播视频播放网站| 国产香蕉视频在线看| 伊人免费在线| 激情四房婷婷| 91欧洲在线视精品在亚洲| 午夜影院免费看| 国产视频三区| 在线午夜视频| 国产精品一品| 蜜桃av在线免费观看| 国产大学生粉嫩无套流白浆| 免费一区二区在线观看| 国产日产一区二区| 久草电影在线| 久久久久久五月天久久久久久久久| 中文一区在线观看| 国产精品你懂的在线观看| 欧美啪啪精品| 伊人网站在线| 国产无遮挡又黄又爽免费软件| 任你操视频在线观看| 国产xxx在线| 成人日韩欧美| 久久一本精品| 日本亚洲精品| аⅴ成人天堂中文在线| 怡红院av在线| 99久热re在线精彩视频| 国产精品视频流白浆免费视频| 国产麻豆精品高清在线播放| 久久精品国产亚洲a∨麻豆| 亚洲天堂电影在线观看| 中文在线有码| 亚洲精品自拍区在线观看| 国产激情视频一区二区| 国产丝袜自拍| 国产精品久久人| 国产亚洲精品自在线观看| 国产女呦网站| 国产对白叫床清晰在线播放| 国产精品入口麻豆完整版| 88av在线| 99久久99热久久精品免费看| 亚洲视频日韩| 蜜桃视频中文字幕| 国产在线麻豆精品| 丁香视频五月| 国产精品久久久久久久牛牛| 国产h在线观看| 亚洲精品一区中文字幕电影| 在线观看的av网站| 日本啊v在线| 国产青青草在线| 99re在线视频播放| 久久99精品久久久久久野外| 懂色一区二区三区| 国产精品人人爱一区二区白浆| 国产91久久久久蜜臀青青天草二| 91涩漫在线观看c| 波多野结衣中文字幕久久| 国产美女福利在线观看| 91精品专区| 国产男女av| 伊人网站在线| 91av久久| 在线视频三区| 国产麻豆视频网站| 永久免费网站在线| 中文字幕在线永久在线视频| 99re热视频在线| 最新av中文字幕| 不卡av免费观看| 精品国产高清a毛片无毒不卡| 九九热在线播放| 在线āv视频| 国产精品剧情一区二区在线观看| www.jizz在线观看| 99久久国产视频| 国产丝袜视频在线播放| 久久国产情侣| 夜夜爽视频导航| 国产欧美日韩精品综合| 九九久久久2| 老司机精品视频一区二区| 99热免费观看| 精品国产丝袜高跟鞋| 国产视频你懂的| 最近中文字幕mv免费高清电影 | 国产中文字幕在线视频| jizz一区二区三区| av在线资源网| gogo高清在线播放免费| 亚洲成人av在线影院| 精品视频二区三区| 国产日产一区二区| 国产网友自拍电影在线| 国产一级电影网| 国产区av在线| 国产videos| 在线成人综合色一区| 97国产在线| 四虎久久影院| 国产在线观看a视频| 黄色毛片在线| 国产不卡一卡2卡三卡4卡5卡在线| 国产丝袜精品丝袜| 中文在线视频观看| 超碰国产在线| 国产一区二区三区不卡在线| 国产色婷婷在线| 91香蕉视频免费在线观看| av丝袜在线| 国产麻豆一区二区三区精品| 国产黄色在线| www.色婷婷| 国产精品视频二区三区| 在线国产一级| 中文字幕中文字幕在线中高清免费版 | 中文字幕视频免费在线观看| 国产麻豆精品入口在线观看| 国产三级自拍| 天天艹天天操| 国产精品第八页| 久久精品蜜桃| 在线观看av中文| 国产午夜三区视频在线| 四虎精品视频| 国产精品久久久久久精| jizz亚洲大全| 精品视频vs精品视频| 国产免费永久在线观看| 在线色视频网| 国产wwww| 国产极品视频|