質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google スプレッドシート

Google スプレッドシートは、フリーで利用できる表計算ソフト。Webアプリのためインターネットに接続することで利用できます。チャートやグラフの作成のほか、シートを他のユーザーと共有したり、同時に作業を進めることも可能です。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

Q&A

1回答

1255閲覧

ImportXML関数を使用したスクレイピングでタグが含まれているとセルが分裂する

su_da221

総合スコア59

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google スプレッドシート

Google スプレッドシートは、フリーで利用できる表計算ソフト。Webアプリのためインターネットに接続することで利用できます。チャートやグラフの作成のほか、シートを他のユーザーと共有したり、同時に作業を進めることも可能です。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

0グッド

1クリップ

投稿2021/12/06 01:10

編集2021/12/06 08:03

前提・実現したいこと

下記のサイトからテキストをスクレイピングしたいです。
https://www.ldoceonline.com/dictionary/time

取得したいテキストは画像の部分なのですが、spanタグの中にaタグが紛れている単語があり、セルが分裂してしまいます。
同じセルに入れたいのですが何か方法はございませんか?
イメージ説明
ーーー追記ーーー
1のみではなく、2、3、4とある場合はそれも取得したいです。

発生している問題・エラーメッセージ

セルがaタグで分裂してしまう。

該当のソースコード

A2にはtimeが入っております。

=ImportXML("https://www.ldoceonline.com/dictionary/"&A2,"//*[@class='dictionary']/*[@class='dictentry'][1]//*[@class='Sense']/span[5]")

取得したい部分のhtmlはこのような感じです。
clocksもthe thing~と同じセルに入力したいです。

<span class="DEF"> the thing that is measured in minutes, hours, days, years etc using <a class="defRef" title="clock" href="/dictionary/clock">clocks</a></span>

取得できているのはこのような感じです。
イメージ説明
今回のページはタグで挟まれているのは1つなのですが、別単語の時は何個か挟まれている場合がございます。

試したこと

ーーー追記ーーー

=CONCATENATE(ImportXML("https://www.ldoceonline.com/dictionary/"&A2,"//*[@class='dictionary']/*[@class='dictentry'][1]//*[@class='Sense']/span[@class='DEF']"))

このように結合すると画像のようになってしまいます。
イメージ説明

= TEXTJOIN(",",FALSE, ImportXML("https://www.ldoceonline.com/dictionary/"&A2,"//*[@class='dictionary']/*[@class='dictentry'][1]//*[@class='Sense']/span[@class='DEF']"))

これも試していますが、上の画像と同じになります

補足情報(FW/ツールのバージョンなど)

googleスプレッドシート

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

難しいですね。。。

力技が入りますが、こんな感じなら。。。

=CONCATENATE(INDEX(ImportXML("https://www.ldoceonline.com/dictionary/"&$A$1,"//*[@class='dictionary']/*[@class='dictentry'][1]//*[@class='Sense']/span[@class='DEF']"),B1))

イメージ説明

投稿2021/12/06 09:03

編集2021/12/06 09:05
takutakuya

総合スコア979

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問