curlからのxpathで、xpath set is emptyと出てスクレイピングができない

https://qiita.com/search?q=python&sort=created
上記のリンクから、タイトルリンクだけ抽出したいと思っています。

その場合この方法で行いましたが、うまくいきません（xpath set is emptyと出てしまう）

curl -s -L https://qiita.com/search?q=python&sort=created | xmllint --html --xpath "//a/@href" -

下記例ではうまく行えるのですが、なぜなのでしょうか？

curl -s -L http://j.mp/1YC5mSM | xmllint --html --xpath "//h3/a/@href" -

※うまくいってる例でも、parser errorが大量に出るのが気になりますが・・・

行動規範の内容に同意します

回答1件

ベストアンサー

curl -s -L https://qiita.com/search?q=python&sort=created > file.txt

のようにファイルに保存してみて、正しいHTML を取得できていますか？

おそらく、コマンドラインに & があるので、そこで URL が終了したことになっているのではないかと思われます。

URL をダブルクォーテーションで囲ったらどうなりますか？

投稿2018/12/31 23:43

総合スコア25171

2018/12/31 23:46

ありがとうございます！無事解決出来ました！本当に助かりました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問