google chrome + selenium を使って、スクレイピングにより、情報を取得しようとしています。
具体的には、下記のサイト内の各論文のIDを全て取得したい、というものです。
・サイト
https://www.sciencedirect.com/journal/journal-of-membrane-science/articles-in-press
上記に添付した画像のように、google chrome で、論文のタイトル上(例:”Enhanced molecular selectivity and plasticization resistance in ring-opened Tröger's base polymer membranes”)でマウスオーバーした状態で、右クリックから「検証」を押すと、右側で示したようにそれに対応したIDらしきものが分かります。
このページには、論文が複数存在するため、全ての論文のIDを取得したいのですが、具体的にどのようにすれば取得できるのでしょうか?
以下のようにコードを書いて、sourceを見たのですが、sourceの記述は、上記添付画像右側の記述と違いますし、sourceにはそもそも私が欲しいIDはどこにも載っていませんでした。
どうすればIDを取得できるのか、どなたかお分かりになる方、ご教授いただけますようお願いします。
私が書いたコード
import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Options path="C:\...\chromedriver.exe" driver = webdriver.Chrome(executable_path=path) url = 'https://www.sciencedirect.com/journal/journal-of-membrane-science/articles-in-press' driver.get(url) time.sleep(5) driver.page_source
私が書いたコードで得られた出力情報
<html lang="en-us"><head>\n<meta name="viewport" content="width=device-width, initial-scale=1">\n<meta charset="utf-8">\n<title>Journal of Membrane Science | ScienceDirect.com by Elsevier</title>\n<meta data-react-helmet="true" name="SDTech" content="Proudly brought to you by the SD Technology team in London, Dayton, and Amsterdam"><meta data-react-helmet="true" name="description" content="Read the latest articles of Journal of Membrane Science at ScienceDirect.com, Elsevier’s leading platform of peer-reviewed scholarly literature"><meta data-react-helmet="true" name="robots" content="INDEX,FOLLOW,NOARCHIVE,NOODP,NOYDIR">\n<link data-react-helmet="true" rel="next" href="https://www.sciencedirect.com/journal/journal-of-membrane-science/articles-in-press?page=2"><link data-react-helmet="true" rel="canonical" href="https://www.sciencedirect.com/journal/journal-of-membrane-science/articles-in-press">\n<link rel="shortcut icon" href="https://sdfestaticassets-us-east-1.sciencedirectassets.com/shared-assets/16/images/favSD.ico" type="image/x-icon">\n<link rel="icon" href="https://sdfestaticassets-us-east-1.sciencedirectassets.com/shared-assets/16/images/favSD.ico" type="image/x-icon">\n<link href="https://sdfestaticassets-us-east-1.sciencedirectassets.com" rel="dns-prefetch">\n<link href="https://sdfestaticassets-us-east-1.sciencedirectassets.com" rel="preconnect" crossorigin="anonymous">\n<link href="https://smetrics.elsevier.com" rel="dns-prefetch">\n<link href="https://smetrics.elsevier.com" rel="preconnect" crossorigin="anonymous">\n<link href="https://assets.adobedtm.com" rel="dns-prefetch">\n<link href="https://assets.adobedtm.com" rel="preconnect" crossorigin="anonymous">\n<link rel="stylesheet" href="https://sdfestaticassets-us-east-1.sciencedirectassets.com/prod/815bab6b8c52e658d36e290d97a477ad50c70a24/style.css">\n<script src="https://www.googletagservices.com/activeview/js/current/osd.js?cb=%2Fr20100101"></script><script type="text/javascript" src="https://bam.nr-data.net/1/7ac4127487?a=1080559012&sa=1&v=1169.7b094c0&t=Unnamed%20Transaction&rst=1758&ck=1&ref=https://www.sciencedirect.com/journal/journal-of-membrane-science/articles-in-press&be=967&fe=1245&dc=1245&af=err,xhr,stn,ins,spa&perf=%7B%22timing%22:%7B%22of%22:1620417641067,%22n%22:0,%22u%22:787,%22ue%22:793,%22f%22:4,%22dn%22:31,%22dne%22:32,%22c%22:32,%22s%22:41,%22ce%22:67,%22rq%22:68,%22rp%22:765,%22rpe%22:783,%22dl%22:797,%22di%22:928,%22ds%22:944,%22de%22:944,%22dc%22:960,%22l%22:961,%22le%22:984%7D,%22navigation
回答1件
あなたの回答
tips
プレビュー