抓取长段文本时。
text=response.css('[id=content]::text').extract()
此时将内容存取在text,text实际是一个list。
由于html中各段落之间都有<br>
每一段就被分开了,爬取后,写入后各段落就变成了,(逗号)分割,不好看。
于是需要将list合并为一个字符串
content="\n".join(text)
抓取长段文本时。
text=response.css('[id=content]::text').extract()
此时将内容存取在text,text实际是一个list。
由于html中各段落之间都有<br>
每一段就被分开了,爬取后,写入后各段落就变成了,(逗号)分割,不好看。
于是需要将list合并为一个字符串
content="\n".join(text)