lseek, fallocate来快速创建一个空洞文件,lseek不占用空间,fallocate占用空间(快速预分配)

1 minute read

背景

在开发过程中有时候需要为某个文件快速地分配固定大小的磁盘空间,为什么要这样做呢?

(1)可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;

(2)迅速占用磁盘空间,防止使用过程中所需空间不足。

(3)后面再追加数据的话,不会需要改变文件大小,所以后面将不涉及metadata的修改。

具体的例子有windows下的Bt下载服务,或者一些基于固定大小文件块的存储系统(如QFS)。

为某个文件预分配磁盘空间必须是实际的占用磁盘空间,

以Linux来说,使用lseek或truncate到一个固定位置生成的“空洞文件”是不会占据真正的磁盘空间的。

快速的为某个文件分配实际的磁盘空间在Linux下可通过fallocate(对应的posix接口为posix_fallocate)系统调用来实现,当前支持ext4/xfs。

windows 下可通过SetFilePointer() 和SetEndOfFile()或者SetFileValidData()实现。

网上的例子:

lseek可以用于快速创建一个大文件。

#include<stdio.h>  
#include<unistd.h>  
#include<fcntl.h>  
#include<unistd.h>  
int main(void)  
{  
        int fd;   
        char buf1[]="1234567890";  
        char buf2[]="0987654321";  
        fd=open("file.hole",O_WRONLY|O_CREAT|O_TRUNC);  
        if(fd<0)perror("creat file fail");  
              
        if(write(fd,buf1,10)==-1)perror("could not write");  
              
        if(lseek(fd,1000,SEEK_CUR)==-1)  
                perror("could not sleek");  
              
        if(write(fd,buf2,10)==-1)perror("could not write");  
              
        if(lseek(fd,12,SEEK_SET)==-1)perror("could not sleek");  
              
        if(write(fd,"abcdefg",7)==-1)perror("could not write");  
        // fsync  
        // write content to file  
        // then fdatasync, fsync  
  
        return 0;  
}  

运行结果:

fan@fan:~/arm$ gcc -o app kongdong.c   
fan@fan:~/arm$ ./app  
fan@fan:~/arm$ cat file.hole // 使用cat命令输入没有回车的,所以用od命令  
1234567890abcdefg0987654321  
  
fan@fan:~/arm$   
  
fan@fan:~/arm$ od -c file.hole //od后面的-c表示ASCII码  
0000000   1   2   3   4   5   6   7   8   9   0  \0  \0   a   b   c   d  
0000020   e   f   g  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0   //lseek移到开头的第12个字节  
0000040  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  \0  
*  
0001760  \0  \0   0   9   8   7   6   5   4   3   2   1  
0001774  
fan@fan:~/arm$   
++++++++++++++++++++++++++++++++++++++++++++++++++  

其他例子:

/*迅速创建一个大文件*/  
#include <stdio.h>  
#include <sys/types.h>  
#include <unistd.h>  
#include <sys/stat.h>  
#include <fcntl.h>  
int main()  
{  
    int fd;  
    int ret;  
    char buf[]="h";  
    if((fd = open("2.txt",O_RDWR|O_CREAT)) < 0)  
    {  
        perror("open");  
    }  
    ret = lseek(fd,1023,SEEK_CUR);  
    if(ret == -1)  
    {  
        perror("lseek error");  
    }  
    printf("%d\n",ret);  
    write(fd,buf,1);  
    close(fd);  
    return;  
}  

fallocate例子:

使用lseek的注意事项

一 函数介绍:

函数名: lseek()

功 能: 移动文件读/写指针

所需头文件:

#include <sys/types.h>  
  
#include <unistd.h>  

函数原型:

off_t lseek(int fd, off_t offset, int whence);  

重新定位已打开的文件的偏移量,与whence的取值有关;

参数:

fd:文件描述符,对应已经打开的文件;  
offset:指出偏移量;  
whence:指出偏移的方式,取值如下:  
SEEK_SET:偏移到offset位置处(相对文件头)  
SEEK_CUR:偏移到当前位置+offset位置处;  
SEEK_END:偏移到文件尾+offset位置处;  
返回值:  
调用成功则返回最终的偏移量(从文件头开始数);  
调用失败则返回-1,并设置相应的errno;  

二 巧妙利用

1. 返回当前的偏移量

off_t currpos;  
currpos = lseek(fd, 0, SEEK_CUR);  

2. 返回文件大小

off_t currpos;  
currpos = lseek(fd, 0, SEEK_END);  

3. 扩充文件大小

lseek()方法允许偏移

  这个技巧也可用于判断我们是否可以改变某个文件的偏移量。如果参数 fd(文件描述符)指定的是 pipe(管道)、FIFO 或者 socket,lseek 返回 -1 并且置 errno 为 ESPIPE。

  对于普通文件(regular file),cfo 是一个非负整数。但对于特殊设备,cfo 有可能是负数。因此,我们不能简单地测试 lseek 的返回值是否小于 0 来判断 lseek 成功与否,而应该测试 lseek 的返回值是否等于 -1 来判断 lseek 成功与否。

  lseek 仅将 cfo 保存于内核中,不会导致任何 I/O 操作。这个 cfo 将被用于之后的读写操作。

  如果 offset 比文件的当前长度更大,下一个写操作就会把文件“撑大(extend)”。这就是所谓的在文件里创造“空洞(hole)”。没有被实际写入文件的所有字节由重复的 0 表示。空洞是否占用硬盘空间是由文件系统(file system)决定的。

概念补充:

当前文件偏移量(current file offset),以下简称为 cfo。cfo 通常是一个非负整数,用于表明文件开始处到文件当前位置的字节数。读写操作通常开始于 cfo,并且使 cfo 增大,增量为读写的字节数。文件被打开时,cfo 会被初始化为 0,除非使用了 O_APPEND 。

参考

1. man 2 fallocate

2. man 2 lseek

Flag Counter

digoal’s 大量PostgreSQL文章入口