質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

2108閲覧

xbrlにおけるname要素の取得

KKLL

総合スコア1

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2020/06/18 11:39

お世話になります。python初心者です。
Edinet xbrlからデータを抽出しようとしております。下記のコードによりname要素を取得しようとしたのですが、100文字を超過する部分が切れてしまいどうしても取得できません。初歩的な質問で大変恐縮ですがどなたかアドバイスいただけないでしょうか。何卒よろしくお願いいたします。

OS windows10 python 3.7となります。

#coding: utf-8
from xbrl import XBRLParser
import os, re, csv
from collections import defaultdict

encode_type = 'utf-8_sig'

class XbrlParser(XBRLParser):
def init(self, xbrl_filepath):
self.xbrl_filepath = xbrl_filepath

def parse_xbrl(self): # parse xbrl file with open(”取得対象ファイルのパス”,'r',encoding='utf-8_sig') as of: xbrl = XBRLParser.parse(of) # beautiful soup type object name_space = 'jp*' for node in xbrl.find_all(name=re.compile(name_space+':*')): print(len(node.name))

      #ここで文字列の長さを確認すると100が上限になっているようです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

解決したようですので単なるコメントになりますが、タグ名が100で切り捨てとなるのは、内部で使用しているBeautiful Soup+lxmlにおける動作です。以下のソースコードを試すと分かりますが、タグ名の最大長が100文字となります。

python

1from bs4 import BeautifulSoup as bs 2 3 4def main(): 5 xbrl_file = "ファイル名" 6 with open(xbrl_file, "r") as f: 7 soup = bs(f, "lxml") 8 tag_list = soup.find_all() 9 for tag in tag_list: 10 print(len(tag.name), tag.name) 11 12 13if __name__ == "__main__": 14 main()

解決するにはlxmlの部分をhtml.parserにすれば良いですが、ソフトウェア全体の仕様のようですので、個人で修正するのは辞めた方が良いでしょう。

投稿2020/06/19 13:03

yymmt

総合スコア1615

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

自己解決

失礼しました どうやら仕様によりタグ名が100により切り捨てられるようです

投稿2020/06/18 14:20

KKLL

総合スコア1

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問