利用set集合进行list集合高效去重 - 代码天地

利用set集合进行list集合高效去重

其他 2018-12-07 12:59:03 阅读次数: 0

我们可以知道Set集合是没有重复数据的特性，那么对于元素为对象的情况是否也同样奏效？可以看一下。举一个例子：

SetTest.java：

class VO {
private String name;
private String addr;
public VO(String name, String addr) {
this.name = name;
this.addr = addr;
}
@Override
public String toString() {
return "name: " + name + " addr:" + addr;
}
}
@Test
public void testSet() {
Set<VO> vos = new HashSet<>();
VO vo = new VO("wahaha", "sh");
VO vo1 = new VO("wahaha", "bj");
VO vo2 = new VO("wahaha", "sh");
vos.add(vo);
vos.add(vo1);
vos.add(vo2);
for (VO item : vos) {
System.out.println(item.toString());
}
}

结果为：

name: wahaha addr:sh
name: wahaha addr:bj
name: wahaha addr:sh

可见，对于各个字段值都相同的对象，并没有做去重操作。为什么呢，看一下JDK1.8中HashSet的数据结构：

HashSet.java:

实例化对象：

/**
* Constructs a new, empty set; the backing <tt>HashMap</tt> instance has
* default initial capacity (16) and load factor (0.75).
*/
public HashSet() {
map = new HashMap<>();
}

可见new HashSet()操作实际上是new HashMap<>()，可见底层是以HashMap来实现的。

HashSet.add方法：

public boolean add(E e) {
return map.put(e, PRESENT)==null;
}

HashMap.add方法：

public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}

可以从上面的加粗字段看出，判断插入的key是否存在，要判断两点①hash值是否相同；②对应的值是否相同，前者要看hashCode()方法，后者要看equal()方法。下面我们来探索一下基本的数据类型和自定义类类型在计算hashCode和equal的区别，看一下如下代码：

结果为：

true
true
false
true
true
false
name: wahaha addr:sh
name: wahaha addr:sh
name: wahaha addr:bj

java.lang.Integer.equals()：两个对象对应的值一致则返回true。

public boolean equals(Object obj) {
if (obj instanceof Integer) {
return value == ((Integer)obj).intValue();
}
return false;
}

java.lang.String.equals()：两个字符串对应的值一致则返回true：

public boolean equals(Object anObject) {
if (this == anObject) {//同一个对象，必定是一致的
return true;
}
if (anObject instanceof String) {
String anotherString = (String)anObject;
int n = value.length;
if (n == anotherString.value.length) {//对比每一个字符
char v1[] = value;
char v2[] = anotherString.value;
int i = 0;
while (n-- != 0) {
if (v1[i] != v2[i])
return false;
i++;
}
return true;
}
}
return false;//anObject不是String实例，那么返回false
}

java.lang.Object.equals()：两个对象的引用是否一致，即两个的对象是否是同一个。

public boolean equals(Object obj) {
return (this == obj);
}

可见对于java.lang.Object.equals()来讲，两个new出来的对象肯定是不一致的，那么在HashMap数据结构中不会被判定成相同的对象（尽管值相同）。下面再看看hashCode的源码：

java.lang.Integer.hashCode():

@Override
public int hashCode() {
return Integer.hashCode(value);
}
public static int hashCode(int value) {
return value;
}

java.lang.String.hashCode():

public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}

java.lang.Object.hashCode():

public native int hashCode();

JDK8的默认hashCode的计算方法是通过和当前线程有关的一个随机数+三个确定值，运用Marsaglia's xorshift schema随机数算法得到的一个随机数。

因此，以上可以看到Integer和String也都是根据具体的value值来计算hashCode，那么尽管两个引用不同但是值相同的对象，依然是想等的，但是Object则不同了。

知道了原因，解决方法就简单了，那就是重载VO类的equals和hashCode方法，代码如下：

SetTest.java：

结果：

name: wahaha addr:sh
name: wahaha addr:bj

在阿里巴巴Java开发是手册的集合处理中需要强制遵循如下规则：

1)只要重写equals，就必须重写hashCode；

2)因为Set存储的是不重复的对象，依据hashCode和equals进行判断，所以Set存储的对象必须重写这两个方法。

3)如果自定义对象做为Map的键，那么必须重写hashCode和equals。

正例：String重写了hashCode和equals方法，所以我们可以非常愉快的使用String对象作为key来使用。

以上。

Author：忆之独秀

Email：[email protected]

注明出处：https://blog.csdn.net/lavorange/article/details/80420087

猜你喜欢

转载自blog.csdn.net/zhefudexiaojiahuo/article/details/81281162

利用set集合进行list集合高效去重

List集合利用Set去重

使用Set集合对List集合进行去重

List集合去重

List集合的去重

java中set或list集合合并去重

Kotlin set集合去重，获取元素可变set集合，set与list转换

set集合去重机制

java数组与集合互转以及利用set去重

List集合的去重问题

list集合对象去重

List集合如何去重？

List集合去重优化

Java Set集合去重机制

使用Set集合对复杂对象去重

python的set集合去重功能

Java中的Set集合自动去重

泛型，list集合去重

list集合的逆序遍历与排序去重

List集合去重的好方法

如何将List集合去重

List集合去重方式及效率对比

List集合元素去重的几种方式

List集合对象的去重和排序

c# list对象集合去重

JAVA中list集合去重

Java集合框架--List去重

List集合去重的几种方式

list集合去重和排序

如何实现 List 集合去重？

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)