質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

データベース設計

データベース設計はデータベースの論理的や物理的な部分を特定する工程です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1713閲覧

テキストファイル(jsonl)をデータベースに一括インポートしたい

kotamu

総合スコア7

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

データベース設計

データベース設計はデータベースの論理的や物理的な部分を特定する工程です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/09/18 06:12

編集2020/09/18 06:20

前提・実現したいこと

テキストデータ(jsonl拡張子)をデータベースに一括格納したいと考えています。
しかし、jsonファイルをデータベースに格納する方法について紹介しているサイトが見つからないことと、DBMSについて詳しくないため方法が分からずにいます。

以下に示すような動画メタデータとコメントデータをデータベースに格納して、"content"と"category"をそれぞれ抽出して紐付けするのが最終目標です。

DBMSはオープンソースでpythonから呼び出せるものであれば特に指定はありません。

環境:GoogleColab,言語:python,対象ファイル数:各3410個(.json.gz)
こちらの質問サイトの利用は初めてなので、拙い文章お許しください。

jsonlファイルの中身の一例

#動画メタデータセット {"video_id":"sm34108809","watch_num":374,"comment_num":9,"mylist_num":12,"title":"【癒し】渓流のせせらぎの音","description":(睡眠用BGM・作業用BGM)<br>【","category":"ASMR","tags":["ASMR","ヒーリング","作業用BGM","癒し","睡眠用BGM","自然"],"upload_time":1541068262,"file_type":"mp4","length":600,"size_high":1,"size_low":1} {"video_id":"sm34108083","watch_num":768,"comment_num":86,"mylist_num":14,"title":"【ゆっくり】拝啓 ひっこみじあんの市長より#2","description":mylist/49093435","category":"ゲーム","tags":["AC04","ひっこみじあんの市長より","ゆっくり劇場","ゆっくり実況プレイ","ゲーム","シムシティクリエイター","メテオ","TRPG風実況プレイ"],"upload_time":1541062800,"file_type":"mp4","length":1364,"size_high":1,"size_low":1} ・・・
#コメントデータセット {"video_id":"sm34108809","date":1540936966,"vpos":746,"content":"うぽつ","command":"184"} {"video_id":"sm34108809","date":1540936966,"vpos":588,"content":"うぽつ","command":"184"} {"video_id":"sm34108809","date":1540936966,"vpos":286,"content":"うぽつ","command":"184"} ・・・

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

階層を持たない単純なデータであればpandas.read_jsonで読み込めます。
あとはto_sqlで書き出せます。

参考:pandasでjsonlを扱いたい時

Python

1import pandas as pd 2from io import StringIO 3import sqlite3 4 5# テストデータ 6s = """ 7{"video_id":"sm34108809","date":1540936966,"vpos":746,"content":"うぽつ","command":"184"} 8{"video_id":"sm34108809","date":1540936966,"vpos":588,"content":"うぽつ","command":"184"} 9{"video_id":"sm34108809","date":1540936966,"vpos":286,"content":"うぽつ","command":"184"} 10""" 11df = pd.read_json(StringIO(s), orient='records', lines=True) 12 13conn = sqlite3.connect('test.db') 14c = conn.cursor() 15df.to_sql('video', conn, if_exists='replace') 16conn.commit() 17conn.close()

投稿2020/09/18 07:09

can110

総合スコア38341

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問