質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

解決済

BeautifulSoupで抽出したテキストをcsvとして出力したが、内容がExcelで確認できない。

aka49
aka49

総合スコア1

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

1回答

0リアクション

1クリップ

280閲覧

投稿2022/08/30 07:39

編集2022/08/30 08:37

前提・実現したいこと

元同僚がRを使って書いたコードをPythonで書き直しています(Windows, pycharm使用)。
プログラミング初心者です。

元々のコードの目的は、Seleniumを使って、
①ログインが必要なサイトに行き、ログイン後、
②データを得て、
③それをcsvとして保存
④ ②③の繰り返し
という動作を自動化するというものです。

現在、②まで出来ていて、③がうまくいきません。

元のコード(R)では、リクエストして得たデータのテキスト部分を抽出し、それをそのままcsvとして出力しているようです(下記参照)。

#Send query
OutputData<-remDr$findElement(using='css selector',"body")$getElementText()
#Save the output as a csv file
write.table(OutputData[[1]],paste("c:\temp\",agentNo,".csv",sep=""))

私はこれを以下のように書き換えました。
html = browser.page_source
soup = bs(html, "lxml")
body = soup.find("body")
result = body.text

この時点でprint(result)で表示されるものは、私の求めている結果そのものです。
そして以下のようにcsvとして出力しました。

df = pd.DataFrame(data=body)
df.to_csv('4843.csv')

結果、(少し余計なものが混ざってはいますが)、Pycharm上とNotepad++上でcsvを確認することができました。
が、Excelでcsvを開くと、Pycharm上で見えた最初の2列分のデータしか見れません。
データはそこにあるはずなのに、なぜかExcelでは見えないという状況です。

Dataframeの使い方が間違っているのか、他の方法でやったほうがいいのか、アドバイスいただけますでしょうか。

追記:
下の画像の左側をそっくりそのままcsvとしてに出力したいのです。
イメージ説明

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome import service as fs import time import pandas as pd from bs4 import BeautifulSoup as bs CHROMEDRIVER = 'C:/Users/xxx/Python/chromedriver_win32/chromedriver.exe' chrome_service = fs.Service(executable_path=CHROMEDRIVER) browser = webdriver.Chrome(service=chrome_service) # Access cliflo browser.get('https://cliflo.niwa.co.nz') time.sleep(2) # Login browser.find_element(By.NAME, 'cusername').send_keys('xxx') browser.find_element(By.NAME, 'cpwd').send_keys('xxx') elem = browser.find_element(By.NAME, 'submit') elem.click() time.sleep(10) # Request data browser.find_element(By.NAME, 'sub_delalldt').click() browser.get("https://cliflo.niwa.co.nz/pls/niwp/wgenf.genform1?cdt=ls_ra&cadd=t") ## Clear text box inputs first browser.find_element(By.NAME, 'agents').clear() browser.find_element(By.NAME, 'date1_1').clear() browser.find_element(By.NAME, 'date1_2').clear() browser.find_element(By.NAME, 'date1_3').clear() browser.find_element(By.NAME, 'date2_1').clear() browser.find_element(By.NAME, 'date2_2').clear() browser.find_element(By.NAME, 'date2_3').clear() browser.find_element(By.NAME, 'agents').send_keys('4843') browser.find_element(By.NAME, 'date1_1').send_keys('2022') browser.find_element(By.NAME, 'date1_2').send_keys('07') browser.find_element(By.NAME, 'date1_3').send_keys('30') browser.find_element(By.NAME, 'date2_1').send_keys('2022') browser.find_element(By.NAME, 'date2_2').send_keys('07') browser.find_element(By.NAME, 'date2_3').send_keys('31') ##Separate date and time columns browser.find_element(By.XPATH, "//*/input[@value='Y']").click() browser.find_element(By.NAME, 'mimeselection').send_keys('Comma Delimited (text/plain)') browser.find_element(By.NAME, 'cstn_id').send_keys('Lat/Long') browser.find_element(By.NAME, 'submit_sq').click() html = browser.page_source soup = bs(html, "lxml") body = soup.find("body") result = body.text print(result) df = pd.DataFrame(data=body) df.to_csv('4843.csv')

試したこと

代わりにcsvモジュールを使って、そのままresultを出力できないかと思いましたが、うまくいきませんでした。

df.to_csv("4843.csv", index=False, header=False)という風に書き直したら、Excelの一つのセルに全データが入っている状態になりました。少し前進?

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

tmp

2022/08/30 08:29

サイトの文字コードは、UTF8ですか?CP932ですか? 文字コード違いだと思ったのですが、2行表示されるという現象ではなく、化け化けになってしまうと思うで、ちがうかな
aka49

2022/08/30 08:39

回答ありがとうございます。 df.to_csv("4843.csv", index=False, header=False)で試すと、全データがexcelの一つのセルに入っている状態になりました。なので化けではない。。。?のですかね?
tmp

2022/08/30 23:10

書いてる途中で辻褄が合わなくてそのまま投稿してしまいました。すいません、混乱させてもうしわけないです。解決したみたいでよかったです。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。