質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Q&A

1回答

1206閲覧

pandocでdocx文章中の半角スペースが改行に認識されてしまいます

miKoTo0765

総合スコア35

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

0グッド

1クリップ

投稿2017/04/12 07:05

編集2017/04/12 07:06
<a href="test.html">テスト</a>

というような文章が記述されているdocxをpandocを使ってplainテキストに変換すると

<a href="test.html">テスト</a>

というように<aとhrefの間に改行が入ってしまいます。
コマンドは

pandoc test.docx -t plain

です。

改行が入らないようにするにはどうすればいいのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

質問に対する回答とは違うのですが、私なりに試したことを記述しておきます。

pandocをインストールをして試してみたのですが、そもそもwordのファイルが読み込めませんでした。
バージョンは1.12.3.1です。
新しいバージョンだと読み込めるのでしょうか?

取り敢えずunoconvを使うとwordファイルをテキストに変換できたのでそれをpandocに渡すとテキスト要素だけ表示されました。

■試したこと

  1. Microsoft Office Word 2013で
<a href="test.html">テスト</a>

とだけ記述したファイル(d.docx)を作成。

2.以下のコマンドを実行

unoconv -f txt --stdout d.docx | pandoc -t plain

結果

テスト

シェルで使えるドキュメント変換ソフトがあることを知らなかったのですが、いろいろと使いどころがありそうですね。

投稿2017/04/13 08:58

nullbot

総合スコア910

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問