質問編集履歴
9
set,py追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -15,6 +15,98 @@
|
|
15
15
|
|
16
16
|
|
17
17
|
|
18
|
+
|
19
|
+
pdfminer.sixのset.py↓
|
20
|
+
```ここに言語を入力
|
21
|
+
from setuptools import setup
|
22
|
+
from os import path
|
23
|
+
|
24
|
+
import pdfminer as package
|
25
|
+
|
26
|
+
|
27
|
+
with open(path.join(path.abspath(path.dirname(__file__)), 'README.md')) as f:
|
28
|
+
readme = f.read()
|
29
|
+
|
30
|
+
setup(
|
31
|
+
name='pdfminer.six',
|
32
|
+
version=package.__version__,
|
33
|
+
packages=['pdfminer'],
|
34
|
+
package_data={'pdfminer': ['cmap/*.pickle.gz']},
|
35
|
+
install_requires=[
|
36
|
+
'chardet ; python_version > "3.0"',
|
37
|
+
'pycryptodome',
|
38
|
+
'sortedcontainers',
|
39
|
+
],
|
40
|
+
extras_require={
|
41
|
+
"dev": ["nose", "tox"],
|
42
|
+
"docs": ["sphinx", "sphinx-argparse"],
|
43
|
+
},
|
44
|
+
description='PDF parser and analyzer',
|
45
|
+
long_description=readme,
|
46
|
+
long_description_content_type='text/markdown',
|
47
|
+
license='MIT/X',
|
48
|
+
author='Yusuke Shinyama + Philippe Guglielmetti',
|
49
|
+
author_email='pdfminer@goulu.net',
|
50
|
+
url='https://github.com/pdfminer/pdfminer.six',
|
51
|
+
scripts=[
|
52
|
+
'tools/pdf2txt.py',
|
53
|
+
'tools/dumppdf.py',
|
54
|
+
],
|
55
|
+
keywords=[
|
56
|
+
'pdf parser',
|
57
|
+
'pdf converter',
|
58
|
+
'layout analysis',
|
59
|
+
'text mining',
|
60
|
+
],
|
61
|
+
python_requires='>=3.4',
|
62
|
+
classifiers=[
|
63
|
+
'Programming Language :: Python',
|
64
|
+
'Programming Language :: Python :: 3.4',
|
65
|
+
'Programming Language :: Python :: 3.5',
|
66
|
+
'Programming Language :: Python :: 3.6',
|
67
|
+
'Programming Language :: Python :: 3 :: Only',
|
68
|
+
'Development Status :: 5 - Production/Stable',
|
69
|
+
'Environment :: Console',
|
70
|
+
'Intended Audience :: Developers',
|
71
|
+
'Intended Audience :: Science/Research',
|
72
|
+
'License :: OSI Approved :: MIT License',
|
73
|
+
'Topic :: Text Processing',
|
74
|
+
],
|
75
|
+
)
|
76
|
+
|
77
|
+
```
|
78
|
+
|
79
|
+
pdfminer3kminerのset.py↓
|
80
|
+
```
|
81
|
+
import setuptools
|
82
|
+
|
83
|
+
with open("README.md", "r") as fh:
|
84
|
+
long_description = fh.read()
|
85
|
+
|
86
|
+
setuptools.setup(
|
87
|
+
name="pdfminer3k",
|
88
|
+
version="1.3.4",
|
89
|
+
author="Serhat Can",
|
90
|
+
author_email="author@example.com",
|
91
|
+
description="Forked from original pdfminer",
|
92
|
+
long_description=long_description,
|
93
|
+
long_description_content_type="text/markdown",
|
94
|
+
url="https://github.com/canserhat77/pdfminer3k",
|
95
|
+
download_url="https://github.com/canserhat77/pdfminer3k/archive/v1.3.4.tar.gz",
|
96
|
+
packages=setuptools.find_packages(),
|
97
|
+
classifiers=[
|
98
|
+
"Programming Language :: Python :: 3",
|
99
|
+
"License :: OSI Approved :: MIT License",
|
100
|
+
"Operating System :: OS Independent",
|
101
|
+
],
|
102
|
+
install_requires=[
|
103
|
+
'ply',
|
104
|
+
],
|
105
|
+
python_requires='>=3.6',
|
106
|
+
)
|
107
|
+
```
|
108
|
+
|
109
|
+
|
18
110
|

|
19
111
|
Downloads配下↓
|
20
112
|

|
8
pip listコマンド実行後の画像追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -10,13 +10,11 @@
|
|
10
10
|
|
11
11
|
お分かりになる方、ご教授いただけると幸いです。
|
12
12
|
|
13
|
+
pip listコマンド実行後
|
14
|
+

|
13
15
|
|
14
16
|
|
15
17
|
|
16
|
-
|
17
|
-
|
18
|
-
|
19
|
-
|
20
18
|

|
21
19
|
Downloads配下↓
|
22
20
|

|
7
説明文追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,3 +1,6 @@
|
|
1
|
+
プログラミング初心者です。
|
2
|
+
大変基礎的な内容かもしれませんが、質問させてください。
|
3
|
+
|
1
4
|
あるツールのDownloads配下のフォルダでインストールを実行(pip3 install package)しました。
|
2
5
|
Downloads配下のフォルダへのインストール後、usr/local/bin配下にも同じ名前のファイルが自動的にインストールされることを確認し、
|
3
6
|
下記のように、インストール場所が異なる同じファイル名のdumppdf.pyのファイル中身を確認しましたが、両ファイルの中身が違いました。
|
6
文章編集
title
CHANGED
File without changes
|
body
CHANGED
@@ -15,12 +15,12 @@
|
|
15
15
|
|
16
16
|
|
17
17
|

|
18
|
-
Downloads配下
|
18
|
+
Downloads配下↓
|
19
19
|

|
20
|
-
usr/local/bin配下
|
20
|
+
usr/local/bin配下↓
|
21
21
|

|
22
22
|
|
23
|
-
Downloads配下
|
23
|
+
Downloads配下↓
|
24
24
|
```
|
25
25
|
#!/usr/bin/env python3
|
26
26
|
"""Extract pdf structure in XML format"""
|
@@ -52,7 +52,7 @@
|
|
52
52
|
return ESC_PAT.sub(lambda m: '&#%d;' % ord(m.group(0)), s)
|
53
53
|
```
|
54
54
|
|
55
|
-
usr/local/bin配下
|
55
|
+
usr/local/bin配下↓
|
56
56
|
```
|
57
57
|
#!/usr/local/opt/python/bin/python3.7
|
58
58
|
#
|
5
フォルダ構成に関する画像の追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -15,6 +15,10 @@
|
|
15
15
|
|
16
16
|
|
17
17
|

|
18
|
+
Downloads配下
|
19
|
+

|
20
|
+
usr/local/bin配下
|
21
|
+

|
18
22
|
|
19
23
|
Downloads配下
|
20
24
|
```
|
4
説明文編集
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,6 +1,6 @@
|
|
1
|
-
あるツールの
|
1
|
+
あるツールのDownloads配下のフォルダでインストールを実行(pip3 install package)しました。
|
2
|
-
インストール後、usr/local/bin配下に自動的にインストールされることを確認し、
|
2
|
+
Downloads配下のフォルダへのインストール後、usr/local/bin配下にも同じ名前のファイルが自動的にインストールされることを確認し、
|
3
|
-
下記のように、インストール場所が異なる同じファイル名のdumppdf.pyのファイル中身を確認した
|
3
|
+
下記のように、インストール場所が異なる同じファイル名のdumppdf.pyのファイル中身を確認しましたが、両ファイルの中身が違いました。
|
4
4
|
なぜ、同じファイル名にもかかわらず中身が異なるのでしょうか?
|
5
5
|
|
6
6
|
加えて、新しいバージョンのdumppdf.pyを更新したい場合、どのようにしてlocal配下のファイルにも更新することが可能でしょうか?
|
3
コード追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -14,5 +14,69 @@
|
|
14
14
|
|
15
15
|
|
16
16
|
|
17
|
+

|
17
18
|
|
19
|
+
Downloads配下
|
20
|
+
```
|
21
|
+
#!/usr/bin/env python3
|
22
|
+
"""Extract pdf structure in XML format"""
|
23
|
+
import logging
|
24
|
+
import os.path
|
25
|
+
import re
|
26
|
+
import sys
|
27
|
+
import warnings
|
28
|
+
from argparse import ArgumentParser
|
29
|
+
|
30
|
+
import pdfminer
|
31
|
+
from pdfminer.pdfdocument import PDFDocument, PDFNoOutlines, PDFXRefFallback, \
|
32
|
+
PDFNoValidXRefWarning
|
33
|
+
from pdfminer.pdfpage import PDFPage
|
34
|
+
from pdfminer.pdfparser import PDFParser
|
35
|
+
from pdfminer.pdftypes import PDFObjectNotFound, PDFValueError
|
36
|
+
from pdfminer.pdftypes import PDFStream, PDFObjRef, resolve1, stream_value
|
37
|
+
from pdfminer.psparser import PSKeyword, PSLiteral, LIT
|
38
|
+
from pdfminer.utils import isnumber
|
39
|
+
|
40
|
+
logging.basicConfig()
|
41
|
+
|
42
|
+
ESC_PAT = re.compile(r'[\000-\037&<>()"\042\047\134\177-\377]')
|
43
|
+
|
44
|
+
|
45
|
+
def e(s):
|
46
|
+
if isinstance(s, bytes):
|
47
|
+
s = str(s, 'latin-1')
|
48
|
+
return ESC_PAT.sub(lambda m: '&#%d;' % ord(m.group(0)), s)
|
49
|
+
```
|
50
|
+
|
51
|
+
usr/local/bin配下
|
52
|
+
```
|
53
|
+
#!/usr/local/opt/python/bin/python3.7
|
54
|
+
#
|
18
|
-
|
55
|
+
# dumppdf.py - dump pdf contents in XML format.
|
56
|
+
#
|
57
|
+
# usage: dumppdf.py [options] [files ...]
|
58
|
+
# options:
|
59
|
+
# -i objid : object id
|
60
|
+
#
|
61
|
+
import sys, os.path, re
|
62
|
+
from io import StringIO
|
63
|
+
from pdfminer.psparser import PSKeyword, PSLiteral, LIT
|
64
|
+
from pdfminer.pdfparser import PDFParser
|
65
|
+
from pdfminer.pdfdocument import PDFDocument, PDFNoOutlines
|
66
|
+
from pdfminer.pdftypes import PDFObjectNotFound, PDFValueError
|
67
|
+
from pdfminer.pdftypes import PDFStream, PDFObjRef, resolve1, stream_value
|
68
|
+
from pdfminer.pdfpage import PDFPage
|
69
|
+
from pdfminer.utils import isnumber, q
|
70
|
+
|
71
|
+
|
72
|
+
ESCAPE = set(map(ord, '&<>"'))
|
73
|
+
def encode(data):
|
74
|
+
buf = StringIO()
|
75
|
+
for b in data:
|
76
|
+
if b < 32 or 127 <= b or b in ESCAPE:
|
77
|
+
buf.write(f'&#{b};')
|
78
|
+
else:
|
79
|
+
buf.write(chr(b))
|
80
|
+
return buf.getvalue()
|
81
|
+
|
82
|
+
```
|
2
画像追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -15,4 +15,4 @@
|
|
15
15
|
|
16
16
|
|
17
17
|
|
18
|
-

|
1
タグ追加
title
CHANGED
File without changes
|
body
CHANGED
File without changes
|