質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1098閲覧

Pandasでデータフレームの作り方

YOSHITAKEH

総合スコア21

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/10/10 05:43

概要

PythonのBeautifulSoupを使って、テーブルデータを抜き出しました。
そこからPandasを使って、抜き出したデータを整形(テーブルデータ化)したいのですが、やり方が分かりません。教えて頂けますでしょうか。

##やりたいこと
このようなテーブルデータを作りたいです。

|Ranking|Service|Company|Value|Category|year|area|
|:--|:--:|--:|
|1|蚂蚁金服|浙江蚂蚁小微金融服务集团股份有限公司|750亿美元|互联网金融| 2014 |中国,浙江,杭州市|
|2|XXX|XXX|XXX|XXX| XXX |XXX|

元データ

['1',
None,
'蚂蚁金服',
'浙江蚂蚁小微金融服务集团股份有限公司',
'750亿美元',
'互联网金融',
None,
'2014',
'中国\xa0浙江\xa0杭州市',
'2',
None,
'滴滴出行',
'北京小桔科技有限公司',
'560亿美元',
'互联网生活',
None,
'2012',
'中国\xa0北京\xa0北京市',
'3',
...]

※実際は164の行です。最初の2行を抜粋しています。

## 知りたいこと

  1. このデータを「やりたいこと」のようなテーブル形式にしたい
  2. 一行目に、それぞれタイトル「Ranking,Service,company,Value,Category,Year,Area」をつけたい。
  3. Noneの列は削除したい
  4. Areaに入る「\xa0」を全て削除して、「,」に置き換えたい

です。

備考

http://www.tsjshg.info/udemy/Lec103-104.html
こちらのサイトを見て、スクレイピングからPandasで加工する方法を見つけました。が、挫折しました。

皆様、お忙しいとは思いますが、何卒、宜しくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

特に BeautifulSoup を使わなくても pandas には read_html() という HTML上のTableを DataFrame として読み込む機能がありますので、そちらを使ったらよいのではないでしょうか

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html

投稿2018/10/10 07:53

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

YOSHITAKEH

2018/10/10 08:42

magichan様 ご連絡ありがとうございます。ご指摘頂いた通りに HTMLファイルを保存してから、 import pandas as pd url = './chinaday.html' dfs = pd.io.html.read_html(url) で思ったとおりのものが出来上がりました! 大変助かりました。 他の方から丸投げ質問だとご指摘を受けて、再編集していたところにご回答頂きまして、大変助かりました。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問