質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.40%

  • Python

    12796questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • HTML

    12185questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • Excel

    2027questions

    Excelは、マイクロソフト社が開発しているデータ集計や分析を行う表計算ソフトの一つです。文書作成や表計算、資料作成などの多彩な機能を備えており、統合パッケージであるMicrosoft Officeに含まれています。

htmlデータからExcelへの出力、Excel1列の出力から数列にしたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 56

Kirari

score 11

前提・実現したいこと 

htmlデータからExcelへの出力、Excel1列の出力から数列に分離したいのです。

htmlデータからpythonでExcelへの出力をしたいのです。下記プログラムでExcelへの出力をすることはできたのですが、Excelを開くとA列に全て出力されてしまいます。

ExcelのA列に<p class="d-chat_timeline-name"> 名 前(発信者)1 </p>、

ExcelのB列に<ul class="d-chat_timeline-info">
<li>日付と時間1</li>、

ExcelのC列に<div>名前1-1(受信者)<br />
名前1-2(受信者)<br />
名前1-3(受信者)<br />
内容1</div>

を出力したいのです。

<htmlデータ>
<div class="d-chat_timeline-post">
<p class="d-chat_timeline-name"> 名 前(発信者)1 </p>
<ul class="d-chat_timeline-info">
<li>日付と時間1
</li>
</ul>
<div>名前1-1(受信者)<br />
名前1-2(受信者)<br />
名前1-3(受信者)<br />
内容1</div>

2019/07/12 20:52追記 修正

下記のプログラムを実行しました。
下記のhtmlデータ<p class="d-chat_timeline-name"> 名前</p>はA列の2行目、<ul class="d-chat_timeline-info">日付</li>はB列の14行目、<div>内容</div>はC列の3行目に出力されてしまいます(参照1)。

参照1

名前をA列の1行目、日付をB列の1行目、内容をC列の1行目に出力したいのです。コメントアドバイスをお願いいたします。

発生している問題・エラーメッセージ

pythonでのエラーメッセージは出ていません。Excelでの出力を確認すると、ばらばらの行で出力される。

該当のソースコード

# -*- coding: utf-8 -*-
"""
Spyderエディタ

これは一時的なスクリプトファイルです
"""

import os, tkinter, tkinter.filedialog, tkinter.messagebox
root = tkinter.Tk()
root.withdraw()
fTyp = [("","*.html")]
file = tkinter.filedialog.askopenfilename(filetypes = fTyp)
fd=open(file,"r",encoding="utf-8") 

res=fd.read()
from bs4 import BeautifulSoup

mojie=[]
cur_pos=0
while True :
   target_tag = '<p class="d-chat_timeline-name">'
   closing_tag = '</p>'
   start_pos = res[cur_pos:].find(target_tag)
   end_pos = res[cur_pos:].find(closing_tag)
   if (start_pos == -1) or (end_pos == -1):
      break
   mojie.append(res[cur_pos + start_pos + len(target_tag) : cur_pos + end_pos])

   cur_pos = cur_pos + end_pos + len(closing_tag)


import xlsxwriter 
wb = xlsxwriter.Workbook('C:/Users/XXXXXXXX/Desktop/out.xlsx')
ws1 = wb.add_worksheet('sheet')

i=0
for a in mojie:
    i=i+1
    ws1.write(i, 0, a)

mojie=[]
cur_pos=0
while True :
   target_tag = '<ul class="d-chat_timeline-info">'
   closing_tag = '</li>'
   start_pos = res[cur_pos:].find(target_tag)
   end_pos = res[cur_pos:].find(closing_tag)
   if (start_pos == -1) or (end_pos == -1):
      break
   mojie.append(res[cur_pos + start_pos + len(target_tag) : cur_pos + end_pos])

   cur_pos = cur_pos + end_pos + len(closing_tag)



i=0
for a in mojie:
    i=i+1
    ws1.write(i, 1, a)

mojie=[]
cur_pos=0
while True :
   target_tag = '<div>'
   closing_tag = '</div>'
   start_pos = res[cur_pos:].find(target_tag)
   end_pos = res[cur_pos:].find(closing_tag)
   if (start_pos == -1) or (end_pos == -1):
      break
   mojie.append(res[cur_pos + start_pos + len(target_tag) : cur_pos + end_pos])

   cur_pos = cur_pos + end_pos + len(closing_tag)



i=0
for a in mojie:
    i=i+1
    ws1.write(i, 2, a)

wb.close()

試したこと

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

前回質問のコードに戻って、importから始まる3行を最初の一回だけ残して2セット消してください

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/07/12 21:02 編集

    コメントありがとうございます。コードを更新しました。アドバイスをいただいたプログラムで実行しましたが、添付のエクセルのようになります。すみません。アドバイスいただけると幸いです。

    キャンセル

  • 2019/07/12 22:56

    iじゃなかったですね。
    for a in filter(lambda x:x != "",mojie):
    ですかね。そこの切り出しに触れないといけないとすると私の手には負えないです

    キャンセル

  • 2019/07/12 23:07

    アドバイスありがとうございました、うまくいきました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.40%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python

    12796questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • HTML

    12185questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • Excel

    2027questions

    Excelは、マイクロソフト社が開発しているデータ集計や分析を行う表計算ソフトの一つです。文書作成や表計算、資料作成などの多彩な機能を備えており、統合パッケージであるMicrosoft Officeに含まれています。