“重複した2列”を含む重複した行の取り除き方

・“重複した2列”を含む重複した行の取り除き方についてご助言お願い致します。

a1 a1 apple big
a2 a2 apple small
a3 a3 orange big
a3 a3 orange big
a4 a4 apple small
a5 a5 cherry n/a
b1 b1 orange big
…

というファイルを使用しているRubyプログラム（A）から、
左2つの数字が同じ行（ex. a3 a3 orange big）のものを削除して
すべて一つずつにしたいです。

①Rubyのメソッドを使用する。
②linuxのuniq -f1,2　コマンドをsystem()を使ってRubyプログラムの中に組み込む。
ことを考えていますが、

①につきましては
・Rubyのuniqメソッドを使用すると
p A
[“a1”, “a1”, “apple”, “big”]
p A.uniq
[“a1”, “apple”, “big”]
となってしまいます。
そこで、Rubyを用いた他の方法をお伺い出来たら有難いです。
②につきましてもコメント頂けたら大変有難いです。

winterboum

2022/01/18 09:19

「左2つの数字が同じ行（ex. a3 a3 orange big）のものを削除して」というのが曖昧です a3 a3 orange big a3 a3 apple_small の場合はどうしますか？

syoshinsya_tsur

2022/01/18 09:27

＞「左2つの数字が同じ行（ex. a3 a3 orange big）のものを削除して」＞というのが曖昧ですご指摘どうもありがとうございます。 ”全く同じ行のものを削除して”という意味ですが、実際には左2つの数字が同じ行は他の項も全く同じです。＞a3 a3 orange big ＞a3 a3 apple_small ＞の場合はどうしますか？ファイル（仮にAとします）には左2つが同じなのに他の項が異なっているものはありません。 a3 a3 orange big a3 a3 orange big か a3 a3 apple_small a3 a3 apple_small のどちらかといったイメージです。

winterboum

2022/01/18 09:38 編集

merianさんの回答は、a3 a3 orange big が隣り合って居ないと削除されないですが、実際のデータは同じものであったら必ず隣り合っていますか？上の間違い merianさんの回答は、全体の順番が変わってしまう可能性がありますが、それは構いませんか？だめである場合、削除するのは先の方後のほう

syoshinsya_tsur

2022/01/18 09:49 編集

＞a3 a3 orange big が隣り合って居ないと削除されないですが、＞実際のデータは同じものであったら必ず隣り合っていますか？ご指摘誠にありがとうございます。バラバラの行です。隣り合っていません。＞全体の順番が変わってしまう可能性がありますが、それは構いませんか？＞だめである場合、削除するのは先の方後のほう重複した行がなくなれば、それぞれのデータ（各行）の並びは特に気にしません。 a1 a1 apple big a4 a4 apple small a2 a2 apple small b1 b1 orange big a3 a3 orange big a5 a5 cherry n/a でも構わない、というイメージです。

行動規範の内容に同意します

回答1件

ベストアンサー

①Rubyのメソッドを使用する。

ruby
1text = File.open("data.txt", "r").readlines
2unique_text = text.uniq{|a| a.split[0..1]}
3unique_text.each{|i| puts i}
4
5#
6a1 a1 apple big
7a2 a2 apple small
8a3 a3 orange big
9a4 a4 apple small
10a5 a5 cherry n/a
11b1 b1 orange big

② linux の uniq -f1,2 コマンドを〜

GNU sort コマンドの -u オプションを使います。

bash
1$ sort --version
2sort (GNU coreutils) 8.32
3
4$ sort -k1,2 -u data.txt
5a1 a1 apple big
6a2 a2 apple small
7a3 a3 orange big
8a4 a4 apple small
9a5 a5 cherry n/a
10b1 b1 orange big

投稿2022/01/18 08:02

編集2022/01/18 08:57

melian

総合スコア19705

syoshinsya_tsur

2022/01/18 10:12

早速のご回答ありがとうございます。＞①Rubyのメソッドを使用する。＞text = File.open("data.txt", "r").readlines ＞unique_text = text.uniq{|a| a.split[0..1]} ＞unique_text.each{|i| puts i} 試しましたが、やはり[“a1”, “apple”, “big”] となってしまいます。

melian

2022/01/18 11:29

data.txt の中身は、 a1 a1 apple big a2 a2 apple small a3 a3 orange big a3 a3 orange big a4 a4 apple small a5 a5 cherry n/a b1 b1 orange big としています(スペース区切り)。もしかして形式が違いますか？

syoshinsya_tsur

2022/01/18 12:13

ご回答、区切り方についてご指摘ありがとうございます。＞(スペース区切り)。もしかして形式が違いますか？ tabで区切っています。tabでは効かないでしょうか？

melian

2022/01/18 12:31

返信ありがとうございます。tab区切りに変えて試してみましたが回答にある通りの結果になりました。②の sort コマンドを利用する方法ではどうなりますでしょうか？

syoshinsya_tsur

2022/01/19 06:10

ご確認誠にありがとうございます。 ①データを確認して再度試したところうまくいきました。 ②もうまくできました。本当にありがとうございました。

行動規範の内容に同意します