質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.43%

  • Python 2.7

    1363questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

python /で囲まれた文字列抽出

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 67

usu

score 4

前提・実現したいこと

プログラム初心者です。早速ですが、質問内容は
.txtの/で囲まれた文字列に該当する.labの数値を取り出したいです。

例えば、
txtファイルの/ko:/はlabファイルの1~2行目の0.0425000と0.1225000という数値を抽出したいです。

txtファイルでは/ko:/ /ko:/ですので、結果として欲しいファイルは、

0.0425000 0.0725000 k
0.0725000 0.1225000 o:
0.9725000 1.0525000 k
1.0525000 1.2025000 o:

<file.txt>

/ko:/ireruho:janakute/ko:/dasuho:

<file.lab>

0.0425000 0.0725000 k
0.0725000 0.1225000 o:
0.1225000 0.2725000 i
0.2725000 0.3025000 r
0.3025000 0.3725000 e
0.3725000 0.4225000 r
0.4225000 0.4625000 u
0.4625000 0.5025000 h
0.5025000 0.6125000 o:
0.6125000 0.6525000 j
0.6525000 0.7025000 a
0.7025000 0.7425000 n
0.7425000 0.8025000 a
0.8025000 0.8525000 k
0.8525000 0.8925000 u
0.8925000 0.9325000 t
0.9325000 0.9725000 e
0.9725000 1.0525000 k
1.0525000 1.2025000 o:
1.2025000 1.3925000 d
1.3925000 1.4625000 a
1.4625000 1.5225000 s
1.5225000 1.5525000 u
1.5525000 1.6325000 h
1.6325000 1.7425000 o:

発生している問題・エラーメッセージ

エラーメッセージ

` コード

# -*- coding: utf-8 -*-
import re

count = 0
array = []
f1 = open("file.txt").read()
f2 = open("file.lab", 'r')

indexes = [i for i, x in enumerate(f1) if x == '/']
start = f1[indexes[0] + 1]
end =  f1[indexes[1] - 1]
if end == ':':
    end = f1[indexes[1] - 2]

for s in open("file.lab"):
    itemList = s.split()
    if start in itemList:
        print itemList
    if itemList.count(end):
        print itemList

./python string.py
['0.0425000', '0.0725000', 'k']
['0.8025000', '0.8525000', 'k']
['0.9725000', '1.0525000', 'k']

試したこと

両方のファイルをリスト化した後、1回目の"/"が来ると1つ後の要素を取り出し、2回目の"/"が来ると1つ前の要素を取り出してlabファイルと比較しようとしましたが、途中の"/"がない場合の要素を取り出してしまったり、3,4回目の"/"が来ると1回目と同じ要素を抽出してしまったりしました...

申し訳ありませんが、ご教授お願い致します...

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • usu

    2018/12/29 18:26

    :は調音符で文字扱いなので、他の文字と同じように扱いたいです。
    「/」のみ記号扱いで、1回目の「/」から2回目の「/」までの文字を抽出し、3回目の「/」から4回目の「/」までの文字を抽出したいと考えています。

    キャンセル

  • can110

    2018/12/29 19:17

    .labのファイルは言語処理に関するものでしょうか
    つまり先頭から奇数個目(1,3,5~)を先頭とし偶数個目(2、4,6~)を末尾とする範囲のみを抽出する感じですかね。

    キャンセル

  • usu

    2018/12/29 19:25

    はい、音素に時刻ラベルをつけたファイルです。
    そうです!考えてみたのですが、配列の長さも異なるのでちんぷんかんぷんでした...

    キャンセル

回答 1

checkベストアンサー

0

/の出現につき、先頭から奇数個目(1,3,5~)を先頭とし偶数個目(2、4,6~)を末尾とする範囲のみを抽出すればよいかと思います。
なお、:はそれに前する文字と合わせて1文字と勘定してよいので、抽出処理の最初に消しています。

f1 = '/ko:/ireruho:janakute/ko:/dasuho:' # = open("file.txt").read()
f1 = f1.replace(':','') # ':'は抽出には邪魔なので最初に消す

slash_cnt = 0 # '/'の出現回数
range_st = -1 # 抽出開始位置
pos = 0       # .labファイル上での行位置
ranges = []
for c in f1:
    if c == '/':
        if slash_cnt % 2 == 0:  # 開始
            range_st = pos
        else:                   # 終了
            ranges.append((range_st,pos))
        slash_cnt += 1
    else:
        pos += 1 # .lab上には'/'は存在しないので。

print(ranges) # [(0, 2), (17, 19)]

with open('file.lab') as f:
    lines = f.readlines()
    lines = [l.rstrip() for l in lines]

for r in ranges:
    print('-----')
    for pos in range(r[0],r[1]):
        print(lines[pos])
"""
-----
0.0425000 0.0725000 k
0.0725000 0.1225000 o:
-----
0.9725000 1.0525000 k
1.0525000 1.2025000 o:
"""

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/12/29 20:49

    他のファイルに対してテストしてみても無事欲しい出力がでました!
    本当にありがとうございます!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.43%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python 2.7

    1363questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。