一、如何保证服务器的安全(关键的)
1、一般来说,都喜欢把文件放到工程目录下,然后通过url直接请求静态资源。(不安全的)
解决:我们要把上传的文件转移至通过静态资源访问不到的地方(放到WEB-INF下,nginx反向代理)
举例:既不是放在WEB-INF,也不是用nginx,我们自己指定一个存储目录
二、中文乱码问题(已讲)
1、首先要统一编码,页面和服务器工程编码要统一
2、用过滤器处理字符,达到统一编码的目的
3、跨域问题,过滤器可以使用
三、重名文件被覆盖的问题
1、uuid
2、文件名+时间是不可取的(因为解决不了并发问题),时间戳+随机数
四、如何分目录存储上传的文件
1、根据具体业务来分文件夹。可以每天生成一个文件夹(为什么?)
操作系统存储文件,每个文件夹存储文件的数据量是有极限的
举例:先按用户、然后再按日期
五、限制用户上传的文件类型(不要简单地判断文件后缀)
1、实际上是要获取ContentType(),来判断这个文件类型
六、限制用户上传文件的大小(服务器端,不要等到上传完了才判断)
抓取异常信息来判断
FileSizeLimitException
七、删除临时文件的问题
临时文件对于我们的实际数据是没有什么意义的,它就相当于上传时的缓存
那么,上传完了以后,临时文件可以删掉,可以节省出一下磁盘空间
一定要在关闭流之后再删
八、多文件上传的问题
主要解决,没有文件上传,如何去判断
文件个数限制
九、如何监听上传进度(我相信很多人都没有去想办法解决过)
1、添加ServletUpload监听,重写update方法
2、实现接口ProgressListener(从服务端来监听文件上传进度,客户端是用定时器去不断地请求后台,获取上传进度)
十、如何避免已经上传的文件重复上传到服务器
计算文件的 MD5 值,文件的MD5值可以代表一个文件的唯一标示,如果两个文件的MD5值相等,可以认为文件是一致的; (已上传的文件的md5的值可以存储到数据库,每上传一个文件的时候对比下已上传的文件md5有没有在数据库中存在,上传完成再保存md5值,删除文件去删除数据库中的MD5值就行了)
import java.io.File;
import java.io.FileInputStream;
import java.math.BigInteger;
import java.security.MessageDigest;
import java.util.HashMap;
import java.util.Map;
public class FileDigest {
/**
* 获取单个文件的MD5值!
* @param file
* @return
*/
public static String getFileMD5(File file) {
if (!file.isFile()){
return null;
}
MessageDigest digest = null;
FileInputStream in=null;
byte buffer[] = new byte[1024];
int len;
try {
digest = MessageDigest.getInstance("MD5");
in = new FileInputStream(file);
while ((len = in.read(buffer, 0, 1024)) != -1) {
digest.update(buffer, 0, len);
}
in.close();
} catch (Exception e) {
e.printStackTrace();
return null;
}
BigInteger bigInt = new BigInteger(1, digest.digest());
return bigInt.toString(16);
}
/**
* 获取文件夹中文件的MD5值
* @param file
* @param listChild ;true递归子目录中的文件
* @return
*/
public static Map<String, String> getDirMD5(File file,boolean listChild) {
if(!file.isDirectory()){
return null;
}
//<filepath,md5>
Map<String, String> map=new HashMap<String, String>();
String md5;
File files[]=file.listFiles();
for(int i=0;i<files.length;i++){
File f=files[i];
if(f.isDirectory()&&listChild){
map.putAll(getDirMD5(f, listChild));
} else {
md5=getFileMD5(f);
if(md5!=null){
map.put(f.getPath(), md5);
}
}
}
return map;
}
public static void main(String[] args) {
File file1 = new File("a.txt");
File file2 = new File("b.txt");
System.out.println(getFileMD5(file1).equals(getFileMD5(file2)));
}
}
开发环境:
后台框架:SpringMVC
文件上传的客户端:HTML表单提交(不是jQuery插件,也不是Flash)
UI:BootStrap
读写分离,分摊到两台服务器上去(随着访问量的增加,数据库查询也越来越慢)
分表:数据行是有极限的(把一张表拆成多张表)
分库:按一定的规则把一个库分传给你多个库(服务器磁盘也是有限的)
考虑分布式存储方案(不管数据量怎么增加,我可以跟实际情况来调整)
数据多访问量达,加机器
访问量少,减机器
平均算法
10T数据
2台机器,5T,访问速度比较慢的
5 2T ,访问速度肯定会提升
10 1T,相当于是双十一的状态(阿里云服务器,出租)
MapReduce
map() 主要是用来计算数据如何平均地分配到集群下的每一台机器上去
reduce() 如何从集群服务器读取数据的
Hadoop、分布式文件存储框架
1、一般来说,都喜欢把文件放到工程目录下,然后通过url直接请求静态资源。(不安全的)
解决:我们要把上传的文件转移至通过静态资源访问不到的地方(放到WEB-INF下,nginx反向代理)
举例:既不是放在WEB-INF,也不是用nginx,我们自己指定一个存储目录
二、中文乱码问题(已讲)
1、首先要统一编码,页面和服务器工程编码要统一
2、用过滤器处理字符,达到统一编码的目的
3、跨域问题,过滤器可以使用
三、重名文件被覆盖的问题
1、uuid
2、文件名+时间是不可取的(因为解决不了并发问题),时间戳+随机数
四、如何分目录存储上传的文件
1、根据具体业务来分文件夹。可以每天生成一个文件夹(为什么?)
操作系统存储文件,每个文件夹存储文件的数据量是有极限的
举例:先按用户、然后再按日期
五、限制用户上传的文件类型(不要简单地判断文件后缀)
1、实际上是要获取ContentType(),来判断这个文件类型
六、限制用户上传文件的大小(服务器端,不要等到上传完了才判断)
抓取异常信息来判断
FileSizeLimitException
七、删除临时文件的问题
临时文件对于我们的实际数据是没有什么意义的,它就相当于上传时的缓存
那么,上传完了以后,临时文件可以删掉,可以节省出一下磁盘空间
一定要在关闭流之后再删
八、多文件上传的问题
主要解决,没有文件上传,如何去判断
文件个数限制
九、如何监听上传进度(我相信很多人都没有去想办法解决过)
1、添加ServletUpload监听,重写update方法
2、实现接口ProgressListener(从服务端来监听文件上传进度,客户端是用定时器去不断地请求后台,获取上传进度)
十、如何避免已经上传的文件重复上传到服务器
计算文件的 MD5 值,文件的MD5值可以代表一个文件的唯一标示,如果两个文件的MD5值相等,可以认为文件是一致的; (已上传的文件的md5的值可以存储到数据库,每上传一个文件的时候对比下已上传的文件md5有没有在数据库中存在,上传完成再保存md5值,删除文件去删除数据库中的MD5值就行了)
import java.io.File;
import java.io.FileInputStream;
import java.math.BigInteger;
import java.security.MessageDigest;
import java.util.HashMap;
import java.util.Map;
public class FileDigest {
/**
* 获取单个文件的MD5值!
* @param file
* @return
*/
public static String getFileMD5(File file) {
if (!file.isFile()){
return null;
}
MessageDigest digest = null;
FileInputStream in=null;
byte buffer[] = new byte[1024];
int len;
try {
digest = MessageDigest.getInstance("MD5");
in = new FileInputStream(file);
while ((len = in.read(buffer, 0, 1024)) != -1) {
digest.update(buffer, 0, len);
}
in.close();
} catch (Exception e) {
e.printStackTrace();
return null;
}
BigInteger bigInt = new BigInteger(1, digest.digest());
return bigInt.toString(16);
}
/**
* 获取文件夹中文件的MD5值
* @param file
* @param listChild ;true递归子目录中的文件
* @return
*/
public static Map<String, String> getDirMD5(File file,boolean listChild) {
if(!file.isDirectory()){
return null;
}
//<filepath,md5>
Map<String, String> map=new HashMap<String, String>();
String md5;
File files[]=file.listFiles();
for(int i=0;i<files.length;i++){
File f=files[i];
if(f.isDirectory()&&listChild){
map.putAll(getDirMD5(f, listChild));
} else {
md5=getFileMD5(f);
if(md5!=null){
map.put(f.getPath(), md5);
}
}
}
return map;
}
public static void main(String[] args) {
File file1 = new File("a.txt");
File file2 = new File("b.txt");
System.out.println(getFileMD5(file1).equals(getFileMD5(file2)));
}
}
开发环境:
后台框架:SpringMVC
文件上传的客户端:HTML表单提交(不是jQuery插件,也不是Flash)
UI:BootStrap
读写分离,分摊到两台服务器上去(随着访问量的增加,数据库查询也越来越慢)
分表:数据行是有极限的(把一张表拆成多张表)
分库:按一定的规则把一个库分传给你多个库(服务器磁盘也是有限的)
考虑分布式存储方案(不管数据量怎么增加,我可以跟实际情况来调整)
数据多访问量达,加机器
访问量少,减机器
平均算法
10T数据
2台机器,5T,访问速度比较慢的
5 2T ,访问速度肯定会提升
10 1T,相当于是双十一的状态(阿里云服务器,出租)
MapReduce
map() 主要是用来计算数据如何平均地分配到集群下的每一台机器上去
reduce() 如何从集群服务器读取数据的
Hadoop、分布式文件存储框架