Python学习日志(八)

今天学习的是爬虫和自动化办公相结合的案例:爬取豆瓣读书网站上的信息并按类别存储到excel表格当中。
今天学习的新的知识点并不多,大多都是前面学习的知识点的综合使用。
其中关于数据分别存储到表格里的语句如下:
book_array = str(book_desc).strip().split("/");
#针对于数据不完整:不进行录入:
if len(book_array)<4:
book_array = [’’, ‘’, ‘’, ‘’];
pass
# 价格
book_jg =str(book_array[-1]).strip();
# 出版时间
book_time = str(book_array[-2]).strip();
# 出版社
book_add = str(book_array[-3]).strip();
# 作者或翻译
book_author = “”;
book_len = len(book_array); # 5-3 = 2
for i in range(0,book_len-3):
book_author+=book_array[i]+"/"
pass
# “abc/”
len_01 = len(book_author);
book_author = book_author[0:len_01-1];
即采用了数组的方式分别保存数据。
以实际案列为例,在爬取豆瓣图书中书籍评分这一栏信息中并保存到excel时,会报错,之后检查时发现,这是因为在爬虫tag类别下的图书缺少书籍评分信息,从而导致爬虫无法爬取到这一信息。
最后的解决方案如下:
book_rating_nums = tag_dl.dd.find(“span”,attrs={“class”:“rating_nums”}).string;

除此之外,下午通过百度的AI百度云利用百度的人工智能了解了文字识别的应用,通过百度的一个官方的学习文档,就可以很轻松地使用百度开发的人工智能进行文字识别、图片识别等等的内容,此处略去不谈。

发布了21 篇原创文章 · 获赞 1 · 访问量 1572

猜你喜欢

转载自blog.csdn.net/qq_33566628/article/details/88537007