お世話になります。
htmlのテーブルをスクレイピングしてdataframeに格納すると値が重複してしまいます。
原因と対処法を教えて下さい。
以下のコードを書いて試しました。
import pandas as pd url = 'https://docs.microsoft.com/ja-jp/azure/virtual-machines/dav4-dasv4-series' dfs = pd.read_html(url) dfs[0]
上記のコードの出力結果は以下の通り、ヘッダーには日本語の横に英語がついてしまい、値は重複して表示されてしまいます。
|サイズSize|vCPUvCPU|メモリ:GiBMemory: GiB|一時ストレージ (SSD) GiBTemp storage (SSD) GiB|最大データ ディスク数Max data disks|一時ストレージの最大スループット: IOPS/読み取り MBps/書き込み MBpsMax temp storage throughput: IOPS / Read MBps / Write MBps|最大 NIC 数Max NICs|必要なネットワーク帯域幅 (Mbps)Expected network bandwidth (MBps)
|:--|:--:|--:|
|Standard_D2a_v4Standard_D2a_v4|22|88|5050|44|3000/46/233000 / 46 / 23|22|10001000
|Standard_D4a_v4Standard_D4a_v4|44|1616|100100|88|6000/93/466000 / 93 / 46|22|20002000
|Standard_D8a_v4Standard_D8a_v4|88|3232|200200|1616|12000/187/9312000 / 187 / 93|44|40004000
|Standard_D16a_v4Standard_D16a_v4|1616|6464|400400|3232|24000/375/18724000 / 375 / 187|88|80008000
|Standard_D32a_v4Standard_D32a_v4|3232|128128|800800|3232|48000/750/37548000 / 750 / 375|88|1600016000
|Standard_D48a_v4Standard_D48a_v4|4848|192192|12001200|3232|96,000/1,000/50096000 / 1000 / 500|88|2400024000
|Standard_D64a_v4Standard_D64a_v4|6464|256256|16001600|3232|96,000/1,000/50096000 / 1000 / 500|88|3000030000
|Standard_D96a_v4Standard_D96a_v4|9696|384384|24002400|3232|96,000/1,000/50096000 / 1000 / 500|88|3000030000
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/08/10 13:42