回答編集履歴

4

Update

2021/11/19 04:43

投稿

melian
melian

スコア20655

test CHANGED
@@ -2,7 +2,9 @@
2
2
 
3
3
 
4
4
 
5
- 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入ます
5
+ 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると、`pd.read_csv` で指定されている `lineterminator='\n'` によって `\r`(carriage return)が残ってしまいます。今回、抽出している URL 文字列が各行の末尾にあるために `report` 変数の内容に `\r` がってしったのだと思われます。
6
+
7
+ `lineterminator` を指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。
6
8
 
7
9
 
8
10
 
@@ -37,7 +39,3 @@
37
39
  b'edgar/data/1652044/0001652044-19-000032-index.html\r'
38
40
 
39
41
  ```
40
-
41
-
42
-
43
- `lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。

3

Update

2021/11/19 04:43

投稿

melian
melian

スコア20655

test CHANGED
@@ -1,3 +1,7 @@
1
+ > 今後のために発生する原因も知りたいです。
2
+
3
+
4
+
1
5
  読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りますね。
2
6
 
3
7
 
@@ -33,3 +37,7 @@
33
37
  b'edgar/data/1652044/0001652044-19-000032-index.html\r'
34
38
 
35
39
  ```
40
+
41
+
42
+
43
+ `lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。

2

Update

2021/11/19 04:22

投稿

melian
melian

スコア20655

test CHANGED
@@ -1,13 +1,35 @@
1
- 質問を読み間違えしまいました
1
+ 読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りすね
2
2
 
3
3
 
4
4
 
5
+ ```python
6
+
5
- ~~CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外してみてはどうでしょうか。Pandas が自動的に `\r\n` を削除してくれるかと思います。~~
7
+ csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', lineterminator='\n', names=None)
8
+
9
+ csv.columns.values[0] = 'Item'
6
10
 
7
11
 
8
12
 
9
- ~~```python
13
+ companyreport = csv[(csv['Item'].str.contains(selectedcompany)) & (csv['Item'].str.contains(selectedreport))]
10
14
 
11
- csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', names=None)
12
15
 
16
+
17
+ Filing = companyreport['Item'].str.split('|')
18
+
19
+ Filing = Filing.to_list()
20
+
21
+
22
+
23
+ for item in Filing[0]:
24
+
25
+ if 'html' in item:
26
+
27
+ report = item
28
+
29
+
30
+
31
+ >>> print(report.encode())
32
+
33
+ b'edgar/data/1652044/0001652044-19-000032-index.html\r'
34
+
13
- ```~~
35
+ ```

1

Update

2021/11/19 04:18

投稿

melian
melian

スコア20655

test CHANGED
@@ -1,9 +1,13 @@
1
- CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外しみてはどうでょうか。Pandas が自動的に `\r\n` を削除してくれるかと思いま
1
+ 質問を読み間違えてしいました
2
2
 
3
3
 
4
4
 
5
+ ~~CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外してみてはどうでしょうか。Pandas が自動的に `\r\n` を削除してくれるかと思います。~~
6
+
7
+
8
+
5
- ```python
9
+ ~~```python
6
10
 
7
11
  csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', names=None)
8
12
 
9
- ```
13
+ ```~~