s_khan92:
私は私がデータをフェッチするために使用するURLのリストを持っています。私はこのような1つのURLのために行うことができます。
URL list = ['https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/4722/',
'https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/6318/'
from bs4 import BeautifulSoup
import requests
url = "https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/4479/"
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
info = soup.find_all("dl", {'class':'c-description-list c-description-list--striped'})
comp_info = pd.DataFrame()
cleaned_id_text = []
for i in info[0].find_all('dt'):
cleaned_id_text.append(i.text)
cleaned_id__attrb_text = []
for i in info[0].find_all('dd'):
cleaned_id__attrb_text.append(i.text)
df = pd.DataFrame([cleaned_id__attrb_text], column = cleaned_id_text)
しかし、私は確かにいくつかのURLのためにこれを行うと、データフレームにデータを追加する方法はないです。私は、すべてのURLのからのすべてのデータが含まれます...と私はデータフレーム内の別々の列としても、URLを追加することができればいいだろうデータフレームを作成するように、各URLは、コースdecriptionを記述する。
aԋɱҽԃaмеяicai:
import requests
from bs4 import BeautifulSoup
import pandas as pd
numbers = [4722, 6318]
def Main(url):
with requests.Session() as req:
for num in numbers:
r = req.get(url.format(num))
soup = BeautifulSoup(r.content, 'html.parser')
target = soup.find(
"dl", class_="c-description-list c-description-list--striped")
names = [item.text for item in target.findAll("dt")]
data = [item.get_text(strip=True) for item in target.findAll("dd")]
df = pd.DataFrame([data], columns=names)
df.to_csv("data.csv", index=False, mode="a")
Main("https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/{}/")
ユーザーリクエストごとに更新:
import requests
from bs4 import BeautifulSoup
import pandas as pd
def Main(urls):
with requests.Session() as req:
allin = []
for url in urls:
r = req.get(url)
soup = BeautifulSoup(r.content, 'html.parser')
target = soup.find(
"dl", class_="c-description-list c-description-list--striped")
names = [item.text for item in target.findAll("dt")]
names.append("url")
data = [item.get_text(strip=True) for item in target.findAll("dd")]
data.append(url)
allin.append(data)
df = pd.DataFrame(allin, columns=names)
df.to_csv("data.csv", index=False)
urls = ['https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/4722/',
'https://www2.daad.de/deutschland/studienangebote/international-programmes/en/detail/6318/']
Main(urls)