質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Q&A

解決済

1回答

1403閲覧

{{AA <!-- BB --> | CC = DD | EE = [[FF]] | GG = [[HH]] ←これってなんて形式ですか?

hacosato

総合スコア48

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

0グッド

0クリップ

投稿2016/11/27 15:23

MediaWiki 操作 APIを使って、Wikipediaの情報を収集しています。

そしたら、表題のようなデータの形式に出くわしました。
これはなんて名前のデータですか? JSONとかXMLみたいな種類のものですか?

たとえば、ここにアクセスすると、

https://ja.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=%E6%81%8B%E3%81%99%E3%82%8B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%81%E3%83%A5%E3%83%B3%E3%82%AF%E3%83%83%E3%82%AD%E3%83%BC&rvprop=content

XMLのデータがあって、revタグの中は以下のようになっています。

{{Infobox Single <!-- プロジェクト:楽曲 をご覧ください --> | Name = 恋するフォーチュンクッキー | Artist = [[AKB48]] | Album = [[次の足跡]] | A-side = | B-side = 愛の意味を考えてみた(Type A、Type K、劇場盤)<br />今度こそエクスタシー(Type A)<br />推定マーマレード(Type K)<br />最後のドア(Type B)<br />涙のせいじゃない(Type B)<br />青空カフェ(劇場盤) | Released = {{Flagicon|JPN}} [[2013年]][[8月21日]]<br /><small>(アナログ盤:[[2016年]][[10月1日]])</small> | Format = [[シングル|マキシシングル]]<br />[[音楽配信]]<br />[[レコード#12インチシングル盤|12インチアナログ盤]] | Recorded = | Genre = [[J-POP]] | Length = 4分46秒 | Label = [[You, Be Cool!|You, Be Cool!/KING RECORDS]] | Writer = [[秋元康]](作詞)<br />[[伊藤心太郎]](作曲) | Producer = 秋元康 | Certification = * ミリオン(CD、[[日本レコード協会]]) * ミリオン(有料音楽配信、日本レコード協会) * [[第55回日本レコード大賞]] 優秀作品賞 * 2014年度[[JASRAC賞]]金賞 * 2015年度JASRAC賞銀賞<ref>

(以下略)

HTMLに似てるけど、「|」とか「=」とかが見慣れない感じです…。 この情報を抜き出したいです。たとえば、表の内容を辞書(dict)にまとめたりしたいです。 いまむりやり正規表現を使っていますが、ほかにいい方法ありますか? Python3で、パースするためのもしよいツールがあったらそれが一番知りたいです! よろしくお願いします♪

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Wikipediaで使われているMediawikiのマークアップ形式Wiki markupと思われます。Markdownのようなもので、HTMLに変換できるような物と言うことです。一応構造化はされていると思いますが、DBのようなテーブルではありません。

Alternative parsersにPythonを含めたいくつかパーサーが書いてありますので、参考にしてください(表でPythonと書いてあるのがPython3に対応しているかはわからないです)。

投稿2016/11/27 21:47

raccy

総合スコア21735

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hacosato

2016/11/28 16:00

ありがとうございました! Wiki markupということばがわかれば検索できそうです。 mediawiki-parserがわたしの用途に合っている感じがします。あとで時間を見つけて試してみます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問