質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

3回答

359閲覧

Python3でテキストファイルからデータを抽出する

RyoF

総合スコア10

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/09/12 12:16

前提・実現したいこと

Pythhon3でテキストファイルから特定のデータを抽出してテーブルを作成したく考えております。
USPTO(米国特許庁)のHPから入手したテキストファイルは下記のような形式です。"PATN"から始まるレコードで各種情報が記載され、次の"PATN"から次のレコードが連続して出てくるタイプです。

PATN (質問者註:一つ目のレコード)
WKU RE0286710
SRC 5
APN 500649&
APT 2
PBL E
ART 315
APD 19740826
TTL Hydrophone damper assembly
ISD 19760106
NCL 18
ECL 13
EXA Basinger; Sherman D.
EXP Blix; Trygve M.
NDR 2
NFG 10
INVT
NAM Widenhofer; James W.
CTY Jackson
STA MI
ASSG
NAM Sparton Corporation
CTY Jackson
STA MI
COD 02
REIS
COD 50
APN 151269
APD 19710609
PNO 03701175
ISD 19721031
LREP
FRM Beaman & Beaman
ABST
PAL A damper for u... deployment.
BSUM
PAC
DRWD
PAC BRIEF DESCRIPTION OF THE DRAWINGS
PAR
CLMS
STM I claim:
NUM 1.
PAR 1. A .....(省略)
g water from leaving said envelope, and attachment means
associated with said envelope for attaching hydrophone structure thereto.
.Iaddend.
PATN (質問者註:ここから2つ目のレコード)
WKU RE0286729
SRC 5
APN 5475732
APT 2
PBL E
ART 353
APD 19750206
TTL Pliable tape structure

ここから必要な情報であるAPN(1レコード中に複数ある場合は、そのレコードの"PATN"に一番近いもののみを一つ)、APD(1レコード中に複数ある場合は、一番数字が小さいもののみを一つ)であり、これらの行だけを抜き出し、更に、データだけを抜き出して以下の様なテーブルを作るのが目的です。
APN     APD
500649&    19710609
5475732     19750206

上記実現したいことを可能にするコードについて、何卒ご教示いただけると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2018/09/12 13:49

どこに困難を感じているのかよく分かりません。今までほとんどプログラムを書いたことが無く、そもそもプログラムというものの書き方がわからないと言うことでしょうか?
guest

回答3

0

動作するだけのコードを書いて見ました。(ファイル内容の書式チェック等をしていない...)

python3

1def parse_patn(path): 2 data = [] 3 patn = {"APN": [], "APD": []} 4 5 with open(path) as f: 6 for s_line in f: 7 text = s_line.rstrip('\r\n') 8 tokens = text.split() 9 label = tokens[0] 10 if len(tokens) == 1 and label == "PATN": 11 patn = {"APN": [], "APD": []} 12 data.append(patn) 13 next 14 15 if label == "APN" or label == "APD": 16 patn[label].append(tokens[1]) 17 18 return [[patn["APN"][0], sorted([int(x) for x in patn["APD"]])[0]] for patn in data] 19 20path = "data.txt" 21table = parse_patn(path) 22print(table)

実行例:
イメージ説明

投稿2018/09/12 14:45

katoy

総合スコア22324

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

テキストファイルって推測するにCSVなりTSV形式のファイルで提供されているんですよね。
そうなのであればpandasのdataframe使えば簡単に実現できると思います。

投稿2018/09/12 13:52

tebonz

総合スコア198

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

とりあえずですが、正規表現を使ってみてはいかがでしょうか?

https://www.sejuku.net/blog/23232

findall関数でAPN、APDの行を取り出せます。

投稿2018/09/12 12:36

yep

総合スコア45

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問