teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

4

Update

2021/11/19 04:43

投稿

melian
melian

スコア21285

answer CHANGED
@@ -1,6 +1,7 @@
1
1
  > 今後のために発生する原因も知りたいです。
2
2
 
3
- 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入ます
3
+ 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると、`pd.read_csv` で指定されている `lineterminator='\n'` によって `\r`(carriage return)が残ってしまいます。今回、抽出している URL 文字列が各行の末尾にあるために `report` 変数の内容に `\r` がってしったのだと思われます。
4
+ `lineterminator` を指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。
4
5
 
5
6
  ```python
6
7
  csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', lineterminator='\n', names=None)
@@ -17,6 +18,4 @@
17
18
 
18
19
  >>> print(report.encode())
19
20
  b'edgar/data/1652044/0001652044-19-000032-index.html\r'
20
- ```
21
+ ```
21
-
22
- `lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。

3

Update

2021/11/19 04:43

投稿

melian
melian

スコア21285

answer CHANGED
@@ -1,3 +1,5 @@
1
+ > 今後のために発生する原因も知りたいです。
2
+
1
3
  読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りますね。
2
4
 
3
5
  ```python
@@ -15,4 +17,6 @@
15
17
 
16
18
  >>> print(report.encode())
17
19
  b'edgar/data/1652044/0001652044-19-000032-index.html\r'
18
- ```
20
+ ```
21
+
22
+ `lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。

2

Update

2021/11/19 04:22

投稿

melian
melian

スコア21285

answer CHANGED
@@ -1,7 +1,18 @@
1
- 質問を読み間違えしまいました
1
+ 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りすね
2
2
 
3
+ ```python
3
- ~~CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外してみてはどうでしょうか。Pandas が自動的に `\r\n` を削除してくれるかと思います。~~
4
+ csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', lineterminator='\n', names=None)
5
+ csv.columns.values[0] = 'Item'
4
6
 
7
+ companyreport = csv[(csv['Item'].str.contains(selectedcompany)) & (csv['Item'].str.contains(selectedreport))]
8
+
9
+ Filing = companyreport['Item'].str.split('|')
10
+ Filing = Filing.to_list()
11
+
12
+ for item in Filing[0]:
13
+ if 'html' in item:
5
- ~~```python
14
+ report = item
15
+
16
+ >>> print(report.encode())
6
- csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', names=None)
17
+ b'edgar/data/1652044/0001652044-19-000032-index.html\r'
7
- ```~~
18
+ ```

1

Update

2021/11/19 04:18

投稿

melian
melian

スコア21285

answer CHANGED
@@ -1,5 +1,7 @@
1
- CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外しみてはどうでょうか。Pandas が自動的に `\r\n` を削除してくれるかと思いま
1
+ 質問を読み間違えてしいました
2
2
 
3
+ ~~CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外してみてはどうでしょうか。Pandas が自動的に `\r\n` を削除してくれるかと思います。~~
4
+
3
- ```python
5
+ ~~```python
4
6
  csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', names=None)
5
- ```
7
+ ```~~