お世話になります。
独力での解決が困難な問題に直面したため、皆様方のお知恵をお借りしたいと思い、投稿させていただきました。
オフラインで英語版wikipediaを構築したいと思い、以下の設定を行いました。
1:centos7にnginx、php、mysql、mediawikiを入れて、mediawikiをブラウザからインストールできるところまで設定しました。
2:mysqlにログインして、パスワードをnyan0120と設定し、"create database wikidb"を実行しました。
3:tables.sqlをwikidbで実行して、wikidb内にテーブルを作成しました。
4: mwdumperを"https://dumps.wikimedia.org/tools/mwdumper.jar"より落とし/usr/share/nginx/html/に移動しました
5:enwiki-pages-articles.xml.bz2をwikipediaのdumpから落とし、/usr/share/nginx/html/に移動しました。
"cd /usr/share/nginx/html/"を実行して、以下のコードを実行したところ、
[root@localhost html]# java -jar mwdumper.jar --format=sql:1.5 enwiki-pages-articles.xml.bz2 | > mysql -u root -pnyan0120 wikidb Warning: Using a password on the command line interface can be insecure. Exception in thread "main" java.io.IOException: XML document structures must start and end within the same entity. at org.mediawiki.importer.XmlDumpReader.readDump(XmlDumpReader.java:92) at org.mediawiki.dumper.Dumper.main(Dumper.java:142) Caused by: org.xml.sax.SAXParseException; lineNumber: 46; columnNumber: 1; XML document structures must start and end within the same entity. at org.apache.xerces.util.ErrorHandlerWrapper.createSAXParseException(Unknown Source) at org.apache.xerces.util.ErrorHandlerWrapper.fatalError(Unknown Source) at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source) at org.apache.xerces.impl.XMLErrorReporter.reportError(Unknown Source) at org.apache.xerces.impl.XMLScanner.reportFatalError(Unknown Source) at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.endEntity(Unknown Source) at org.apache.xerces.impl.XMLDocumentScannerImpl.endEntity(Unknown Source) at org.apache.xerces.impl.XMLEntityManager.endEntity(Unknown Source) at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source) at org.apache.xerces.impl.XMLEntityScanner.scanContent(Unknown Source) at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanContent(Unknown Source) at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source) at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source) at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source) at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source) at org.apache.xerces.parsers.XMLParser.parse(Unknown Source) at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source) at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source) at javax.xml.parsers.SAXParser.parse(SAXParser.java:392) at javax.xml.parsers.SAXParser.parse(SAXParser.java:195) at org.mediawiki.importer.XmlDumpReader.readDump(XmlDumpReader.java:88) ... 1 more
ノータイムで上記のエラーがでました。mwdumperは動かず、1件もインポートされません。
自分でも調べ、考えられる原因(mysqlのメモリエラーや文字コードの設定など)の見直しを行いましたが、原因が全く想像がつきません。
どなたか考えられる原因をご教示いただけたらと思います。
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー