回答編集履歴
4
Update
answer
CHANGED
@@ -1,6 +1,7 @@
|
|
1
1
|
> 今後のために発生する原因も知りたいです。
|
2
2
|
|
3
|
-
読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `
|
3
|
+
読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると、`pd.read_csv` で指定されている `lineterminator='\n'` によって `\r`(carriage return)が残ってしまいます。今回、抽出している URL 文字列が各行の末尾にあるために `report` 変数の内容に `\r` が入ってしまったのだと思われます。
|
4
|
+
`lineterminator` を指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。
|
4
5
|
|
5
6
|
```python
|
6
7
|
csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', lineterminator='\n', names=None)
|
@@ -17,6 +18,4 @@
|
|
17
18
|
|
18
19
|
>>> print(report.encode())
|
19
20
|
b'edgar/data/1652044/0001652044-19-000032-index.html\r'
|
20
|
-
```
|
21
|
+
```
|
21
|
-
|
22
|
-
`lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。
|
3
Update
answer
CHANGED
@@ -1,3 +1,5 @@
|
|
1
|
+
> 今後のために発生する原因も知りたいです。
|
2
|
+
|
1
3
|
読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りますね。
|
2
4
|
|
3
5
|
```python
|
@@ -15,4 +17,6 @@
|
|
15
17
|
|
16
18
|
>>> print(report.encode())
|
17
19
|
b'edgar/data/1652044/0001652044-19-000032-index.html\r'
|
18
|
-
```
|
20
|
+
```
|
21
|
+
|
22
|
+
`lineterminator` の指定しない場合は Pandas が自動的に `\r\n` を削除してくれます。
|
2
Update
answer
CHANGED
@@ -1,7 +1,18 @@
|
|
1
|
-
|
1
|
+
読み込むファイル `2019-QTR4.tsv` の改行コードが `\r\n` となっていると `report` に `\r`(carriage return)が入りますね。
|
2
2
|
|
3
|
+
```python
|
3
|
-
|
4
|
+
csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', lineterminator='\n', names=None)
|
5
|
+
csv.columns.values[0] = 'Item'
|
4
6
|
|
7
|
+
companyreport = csv[(csv['Item'].str.contains(selectedcompany)) & (csv['Item'].str.contains(selectedreport))]
|
8
|
+
|
9
|
+
Filing = companyreport['Item'].str.split('|')
|
10
|
+
Filing = Filing.to_list()
|
11
|
+
|
12
|
+
for item in Filing[0]:
|
13
|
+
if 'html' in item:
|
5
|
-
|
14
|
+
report = item
|
15
|
+
|
16
|
+
>>> print(report.encode())
|
6
|
-
|
17
|
+
b'edgar/data/1652044/0001652044-19-000032-index.html\r'
|
7
|
-
```
|
18
|
+
```
|
1
Update
answer
CHANGED
@@ -1,5 +1,7 @@
|
|
1
|
-
|
1
|
+
質問を読み間違えてしまいました。
|
2
2
|
|
3
|
+
~~CSV ファイルを読み込んでいる部分で `lineterminator` の指定を外してみてはどうでしょうか。Pandas が自動的に `\r\n` を削除してくれるかと思います。~~
|
4
|
+
|
3
|
-
```python
|
5
|
+
~~```python
|
4
6
|
csv = pd.read_csv('D:/toushi/2019-QTR4.tsv', sep='\t', names=None)
|
5
|
-
```
|
7
|
+
```~~
|