Javaで、二つの入力ファイルを結合し一つの出力ファイルにする方法で躓いてます。

Question

A00122222222200001000
A00133333333300000500
B00244444444400020000
B00255555555500003000

というテキストファイル(4桁組織番号、9桁会員番号、8桁値段)と、

A001222222222○○ ○○
A001333333333×× ××
B002444444444○× □○
B002666666666□□ □□

というテキストファイル（4桁組織番号、9桁会員番号、全角40文字名前）を読み込み、
「組織番号会員番号名前値段」
という様に、テキストファイルにして出力するメソッドを作成したいです。

TreeMapを使えば良いであろうことは分かるのですが、いまいち結合の方法が分かりません。
また、例外処理の記述方法も迷っているので良かったら教えて頂きたいです。

Accepted Answer

この課題、出題者はおそらく「シーケンシャル処理」という隠れた課題を設定しています。まずそれが何のことだか説明します。

レコード数はどちらのファイルも10000件が上限とのこと。だから余裕でPCのメモリに収まります。そうしたらお考えの通りTreeMapを使ったり、単に配列に突っ込んだりするだけでも処理ができます。

ただ、入力ファイルが50GBくらいあったとしたら、メモリ上ではとても処理できません。ディスク上にデータを置いたまま処理しないといけなくなります。そしてディスク上のテキストファイルというのは不便なもので、「○○行目」という指定でアクセスすることができず、先頭から順に読んでいくことしかできません。実際の業務データならこういうケースはあることなんです。
そこで
●限られたメモリで
●先頭から順に読むことしかできないファイルを
●できれば一巡、そうでなくても少ない回数なめるだけで
処理するというプログラミングが要求されてくるのです。

この課題の面白いところ、それはファイル全体を読み込むことなく一行ずつ読みながら一巡で解けるようになっているところです。ポイントは、ID順にソートされていること。ですから、そういう風に処理するプログラムが提出できたら、出題者が「こいつわかってるな」とにやにやすること請け合いです。

解法の考え方行きます。

ファイルAとファイルBを開いて、先頭の行同士を見比べます。先頭の行同士のID（前から13桁ですね）を見比べるのです。
●これらがA/B一致していたら、一致レコード発見ですから合体させたレコードを出力ファイルに書き出して、AとBは次の行を読みましょう。
●A/BのIDが一致していなかったら、辞書順でどちらが若いかを調べます。
 ▶Aが若いなら、ファイルBにはそれに該当するレコードはないと断言できます（Bはソートされているのですから）。ID-Aは迷子の「値段」であると判断でき、名前に「該当者なし」と書いたレコードを出力します。Aファイルだけ次の行に読み進みます。
 ▶Bが若いのなら、ファイルAにはそれに該当するレコードはない（以下略）。値段に00000000と書いたレコードを出力し、Bファイルだけ次の行に読み進みます。
●ファイルAかファイルBのどちらかがすでに終端に達してしまっていたら、残った方のファイルの残りレコードはすべて迷子です。そのように出力していきます。
●ファイルAもファイルBも終端に達したら処理は終了です。出力ファイルを閉じてプログラムを抜けます。

さて、これでプログラムは書けそうでしょうか。
無理そうだったら言ってください。

Answer

実装されたソースコードがないので例外ハンドリングについてはコメントできませんが…おそらく実施されたいことは以下のようなことなのではないかと。

java
1public class TwoFileMerge {
2	/**
3	 * A00122222222200001000のデータを4桁組織番号、9桁会員番号、8桁値段に分割する。
4	 * @param data
5	 * @return
6	 */
7	protected Map<String,Object> separateDataA(String data) {
8		String orgCode = data.substring(0,4);
9		String memberCode = data.substring(4,13);
10		String price = data.substring(13);
11
12		Map<String, Object> map = new HashMap<>();
13		map.put("orgCode", orgCode);
14		map.put("memberCode", memberCode);
15		map.put("price", price);
16
17		return map;
18	}
19
20	/**
21	 * A001222222222○○ ○○のデータを4桁組織番号、9桁会員番号、全角40文字名前に分割する。
22	 * @param data
23	 * @return
24	 */
25	protected Map<String,Object> separateDataB(String data) {
26		String orgCode = data.substring(0,4);
27		String memberCode = data.substring(4,13);
28		String name = data.substring(13);
29
30		Map<String, Object> map = new HashMap<>();
31		map.put("orgCode", orgCode);
32		map.put("memberCode", memberCode);
33		map.put("name", name);
34
35		return map;
36	}
37
38	/**
39	 * 2つのデータからマージした結果を返す。
40	 * @param dataA データA
41	 * @param dataB データB
42	 * @return マージ後の結果
43	 */
44	public Map<String, Object> mergeData(String dataA, String dataB) {
45		Map<String, Object> mapA = separateDataA(dataA);
46		Map<String, Object> mapB = separateDataB(dataB);
47
48		mapA.putAll(mapB);
49
50		return mapA;
51	}
52}

検証コードは以下：

java
1import static org.junit.Assert.*;
2
3import java.util.Map;
4
5import org.junit.Before;
6import org.junit.Test;
7
8public class TwoFileMergeTest {
9
10	TwoFileMerge merge = null;
11
12	@Before
13	public void setUp() throws Exception {
14		merge = new TwoFileMerge();
15	}
16
17	@Test
18	public void test() {
19		String dataA = "A00122222222200001000";
20		String dataB = "A001222222222○○ ○○";
21
22		Map<String, Object> result = merge.mergeData(dataA, dataB);
23
24		// Mapの中身がマージされた結果かを確認
25		assertEquals(result.containsKey("orgCode"), true);
26		assertEquals(result.containsKey("memberCode"), true);
27		assertEquals(result.containsKey("name"), true);
28		assertEquals(result.containsKey("price"), true);
29
30		// 値のチェック
31		assertEquals("A001" ,result.get("orgCode"));
32		assertEquals("222222222" , result.get("memberCode"));
33		assertEquals("○○ ○○", result.get("name"));
34		assertEquals("00001000", result.get("price"));
35	}
36
37}
38

Answer

基本的にはそれらの情報(組織番号会員番号名前値段)をひとまとめにしたクラスを作成し、会員番号をキーにしてMapを作成し(おそらくデータごとに確実にユニークと思われるため)、1つ目のファイルを読み込んでデータを作成し、2つ目のファイルを会員番号をキーにしてオブジェクトを引き出し、そのオブジェクトに名前のデータを追加する、という形式になるのでは？
例外発生条件がわかりませんが、組織番号と会員番号が一致しないものが見つかった時、でしょうか？

関連した質問