質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

531閲覧

BeautifulSoupで抽出したテキストをcsvとして出力したが、内容がExcelで確認できない。

aka49

総合スコア1

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2022/08/30 07:39

編集2022/08/30 08:37

前提・実現したいこと

元同僚がRを使って書いたコードをPythonで書き直しています(Windows, pycharm使用)。
プログラミング初心者です。

元々のコードの目的は、Seleniumを使って、
①ログインが必要なサイトに行き、ログイン後、
②データを得て、
③それをcsvとして保存
④ ②③の繰り返し
という動作を自動化するというものです。

現在、②まで出来ていて、③がうまくいきません。

元のコード(R)では、リクエストして得たデータのテキスト部分を抽出し、それをそのままcsvとして出力しているようです(下記参照)。

#Send query
OutputData<-remDr$findElement(using='css selector',"body")$getElementText()
#Save the output as a csv file
write.table(OutputData[[1]],paste("c:\temp\",agentNo,".csv",sep=""))

私はこれを以下のように書き換えました。
html = browser.page_source
soup = bs(html, "lxml")
body = soup.find("body")
result = body.text

この時点でprint(result)で表示されるものは、私の求めている結果そのものです。
そして以下のようにcsvとして出力しました。

df = pd.DataFrame(data=body)
df.to_csv('4843.csv')

結果、(少し余計なものが混ざってはいますが)、Pycharm上とNotepad++上でcsvを確認することができました。
が、Excelでcsvを開くと、Pycharm上で見えた最初の2列分のデータしか見れません。
データはそこにあるはずなのに、なぜかExcelでは見えないという状況です。

Dataframeの使い方が間違っているのか、他の方法でやったほうがいいのか、アドバイスいただけますでしょうか。

追記:
下の画像の左側をそっくりそのままcsvとしてに出力したいのです。
イメージ説明

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome import service as fs import time import pandas as pd from bs4 import BeautifulSoup as bs CHROMEDRIVER = 'C:/Users/xxx/Python/chromedriver_win32/chromedriver.exe' chrome_service = fs.Service(executable_path=CHROMEDRIVER) browser = webdriver.Chrome(service=chrome_service) # Access cliflo browser.get('https://cliflo.niwa.co.nz') time.sleep(2) # Login browser.find_element(By.NAME, 'cusername').send_keys('xxx') browser.find_element(By.NAME, 'cpwd').send_keys('xxx') elem = browser.find_element(By.NAME, 'submit') elem.click() time.sleep(10) # Request data browser.find_element(By.NAME, 'sub_delalldt').click() browser.get("https://cliflo.niwa.co.nz/pls/niwp/wgenf.genform1?cdt=ls_ra&cadd=t") ## Clear text box inputs first browser.find_element(By.NAME, 'agents').clear() browser.find_element(By.NAME, 'date1_1').clear() browser.find_element(By.NAME, 'date1_2').clear() browser.find_element(By.NAME, 'date1_3').clear() browser.find_element(By.NAME, 'date2_1').clear() browser.find_element(By.NAME, 'date2_2').clear() browser.find_element(By.NAME, 'date2_3').clear() browser.find_element(By.NAME, 'agents').send_keys('4843') browser.find_element(By.NAME, 'date1_1').send_keys('2022') browser.find_element(By.NAME, 'date1_2').send_keys('07') browser.find_element(By.NAME, 'date1_3').send_keys('30') browser.find_element(By.NAME, 'date2_1').send_keys('2022') browser.find_element(By.NAME, 'date2_2').send_keys('07') browser.find_element(By.NAME, 'date2_3').send_keys('31') ##Separate date and time columns browser.find_element(By.XPATH, "//*/input[@value='Y']").click() browser.find_element(By.NAME, 'mimeselection').send_keys('Comma Delimited (text/plain)') browser.find_element(By.NAME, 'cstn_id').send_keys('Lat/Long') browser.find_element(By.NAME, 'submit_sq').click() html = browser.page_source soup = bs(html, "lxml") body = soup.find("body") result = body.text print(result) df = pd.DataFrame(data=body) df.to_csv('4843.csv')

試したこと

代わりにcsvモジュールを使って、そのままresultを出力できないかと思いましたが、うまくいきませんでした。

df.to_csv("4843.csv", index=False, header=False)という風に書き直したら、Excelの一つのセルに全データが入っている状態になりました。少し前進?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tmp

2022/08/30 08:29

サイトの文字コードは、UTF8ですか?CP932ですか? 文字コード違いだと思ったのですが、2行表示されるという現象ではなく、化け化けになってしまうと思うで、ちがうかな
aka49

2022/08/30 08:39

回答ありがとうございます。 df.to_csv("4843.csv", index=False, header=False)で試すと、全データがexcelの一つのセルに入っている状態になりました。なので化けではない。。。?のですかね?
tmp

2022/08/30 23:10

書いてる途中で辻褄が合わなくてそのまま投稿してしまいました。すいません、混乱させてもうしわけないです。解決したみたいでよかったです。
guest

回答1

0

ベストアンサー

print(result)で表示されるものは、私の求めている結果そのもの

なのであれば、それをそのままファイルに書き出せばいいと思います。


「python テキスト ファイルに出力」とかですぐ出てきますけど、こうしてみたらどうでしょう。

python

1with open('4843.csv', mode='w') as outputf: 2 outf.write(body.text)

投稿2022/08/30 08:25

編集2022/08/30 08:52
TakaiY

総合スコア12747

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aka49

2022/08/30 08:29

回答ありがとうございます。 恥ずかしながら、「そのままファイルに書き出す」方法がわからず、アドバイスを求めています。 「試したこと」にも書いたとおり、いくつか書き出す方法を試してはみましたが、まだ成功しません。
aka49

2022/08/30 09:19

出来ました! 以前csvモジュールで試していたときは、writerow()/writerows()のメソッドを使っていたので、それがダメだったようです。 基礎の基礎からやり直しですね・・・(恥) 本当にありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問