MediaWiki 操作 APIを使って、Wikipediaの情報を収集しています。
そしたら、表題のようなデータの形式に出くわしました。
これはなんて名前のデータですか? JSONとかXMLみたいな種類のものですか?
たとえば、ここにアクセスすると、
XMLのデータがあって、revタグの中は以下のようになっています。
{{Infobox Single <!-- プロジェクト:楽曲 をご覧ください --> | Name = 恋するフォーチュンクッキー | Artist = [[AKB48]] | Album = [[次の足跡]] | A-side = | B-side = 愛の意味を考えてみた(Type A、Type K、劇場盤)<br />今度こそエクスタシー(Type A)<br />推定マーマレード(Type K)<br />最後のドア(Type B)<br />涙のせいじゃない(Type B)<br />青空カフェ(劇場盤) | Released = {{Flagicon|JPN}} [[2013年]][[8月21日]]<br /><small>(アナログ盤:[[2016年]][[10月1日]])</small> | Format = [[シングル|マキシシングル]]<br />[[音楽配信]]<br />[[レコード#12インチシングル盤|12インチアナログ盤]] | Recorded = | Genre = [[J-POP]] | Length = 4分46秒 | Label = [[You, Be Cool!|You, Be Cool!/KING RECORDS]] | Writer = [[秋元康]](作詞)<br />[[伊藤心太郎]](作曲) | Producer = 秋元康 | Certification = * ミリオン(CD、[[日本レコード協会]]) * ミリオン(有料音楽配信、日本レコード協会) * [[第55回日本レコード大賞]] 優秀作品賞 * 2014年度[[JASRAC賞]]金賞 * 2015年度JASRAC賞銀賞<ref>
(以下略)
HTMLに似てるけど、「|」とか「=」とかが見慣れない感じです…。 この情報を抜き出したいです。たとえば、表の内容を辞書(dict)にまとめたりしたいです。 いまむりやり正規表現を使っていますが、ほかにいい方法ありますか? Python3で、パースするためのもしよいツールがあったらそれが一番知りたいです! よろしくお願いします♪
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/11/28 16:00