質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

784閲覧

Mammothで解析したdocxのリスト番号の取得方法

john_doe_

総合スコア354

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2020/09/20 20:24

mammothを利用してdocxを分析したいと考えております。
パース自体は上手くできたのですが、<li>タグに含まれている要素に付与されているはずの番号が全て消えてしまいます。。。。

import mammoth from bs4 import BeautifulSoup as bs style_map = "u => u" with open(document_path, "rb") as docx: result = mammoth.convert_to_html(docx, style_map=style_map) text = result.value soup = bs(text, 'lxml')

公式ドキュメントを参考にアンダーラインの表示はできたのですが、
リスト番号を表示するにはどのようにしたら良いのでしょうか?
ご教示いただけましたら幸甚と存じます。何卒よろしくお願い申し上げます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Mammothを使ってワード文書をHTML形式に変換すると、段落番号付きのリストはol要素とli要素の組み合わせに変換されます。ol要素の内容に書かれたli要素は、「記述順に応じた番号が自動的にレンダリングされる」ものですから、li要素の内容に番号が書かれないのは当然の仕様では。

なお、現状ではワード文書で使われている段落番号の情報(1から始まらないとか、A,B,Cだとか)はすべて失われているようなので、ワード文書の番号をHTMLで再現するには、利用者がCSSを記述して番号の形式変更や開始番号の調整を行なう必要があるでしょう。

投稿2020/09/21 04:01

Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

john_doe_

2020/09/21 08:05

ご親切にご教示いただきありがとうございます。 やはり、段落番号の情報(1から始まらないとか、A,B,Cだとか)はすべて失われるので、元の情報を確認しながら数字やアルファベットを付与しなければいけないようですね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問