テキストファイル(jsonl)をデータベースに一括インポートしたい

前提・実現したいこと

テキストデータ(jsonl拡張子)をデータベースに一括格納したいと考えています。
しかし、jsonファイルをデータベースに格納する方法について紹介しているサイトが見つからないことと、DBMSについて詳しくないため方法が分からずにいます。

以下に示すような動画メタデータとコメントデータをデータベースに格納して、"content"と"category"をそれぞれ抽出して紐付けするのが最終目標です。

DBMSはオープンソースでpythonから呼び出せるものであれば特に指定はありません。

環境:GoogleColab,言語:python,対象ファイル数：各3410個(.json.gz)
こちらの質問サイトの利用は初めてなので、拙い文章お許しください。

jsonlファイルの中身の一例

#動画メタデータセット
{"video_id":"sm34108809","watch_num":374,"comment_num":9,"mylist_num":12,"title":"【癒し】渓流のせせらぎの音","description":（睡眠用BGM・作業用BGM）<br>【","category":"ASMR","tags":["ASMR","ヒーリング","作業用BGM","癒し","睡眠用BGM","自然"],"upload_time":1541068262,"file_type":"mp4","length":600,"size_high":1,"size_low":1}
{"video_id":"sm34108083","watch_num":768,"comment_num":86,"mylist_num":14,"title":"【ゆっくり】拝啓 ひっこみじあんの市長より#2","description":mylist/49093435","category":"ゲーム","tags":["AC04","ひっこみじあんの市長より","ゆっくり劇場","ゆっくり実況プレイ","ゲーム","シムシティクリエイター","メテオ","ＴＲＰＧ風実況プレイ"],"upload_time":1541062800,"file_type":"mp4","length":1364,"size_high":1,"size_low":1}
・・・

#コメントデータセット
{"video_id":"sm34108809","date":1540936966,"vpos":746,"content":"うぽつ","command":"184"}
{"video_id":"sm34108809","date":1540936966,"vpos":588,"content":"うぽつ","command":"184"}
{"video_id":"sm34108809","date":1540936966,"vpos":286,"content":"うぽつ","command":"184"}
・・・

行動規範の内容に同意します

回答1件

ベストアンサー

階層を持たない単純なデータであればpandas.read_jsonで読み込めます。
あとはto_sqlで書き出せます。

参考：pandasでjsonlを扱いたい時

Python
1import pandas as pd
2from io import StringIO
3import sqlite3
4
5# テストデータ
6s = """
7{"video_id":"sm34108809","date":1540936966,"vpos":746,"content":"うぽつ","command":"184"}
8{"video_id":"sm34108809","date":1540936966,"vpos":588,"content":"うぽつ","command":"184"}
9{"video_id":"sm34108809","date":1540936966,"vpos":286,"content":"うぽつ","command":"184"}
10"""
11df = pd.read_json(StringIO(s), orient='records', lines=True)
12
13conn = sqlite3.connect('test.db')
14c = conn.cursor()
15df.to_sql('video', conn, if_exists='replace')
16conn.commit()
17conn.close()