Tutorial de programação C em manipulação de arquivos de acesso aleatório

Além dos aplicativos mais simples, a maioria dos programas precisa ler ou gravar arquivos. Pode ser apenas para ler um arquivo de configuração, um analisador de texto ou algo mais sofisticado. Este tutorial se concentra no uso de arquivos de acesso aleatório em C.

Programando E / S de arquivo de acesso aleatório em C

arquivo binário — D3Damon / Getty Images

As operações básicas de arquivo são:

fopen - abre um arquivo - especifique como ele é aberto (leitura / gravação) e digite (binário / texto)
fclose - fecha um arquivo aberto
fread - lê de um arquivo
fwrite - grava em um arquivo
fseek / fsetpos - move um ponteiro de arquivo para algum lugar do arquivo
ftell / fgetpos - informa onde o ponteiro do arquivo está localizado

Os dois tipos de arquivos fundamentais são texto e binário. Desses dois, os arquivos binários são geralmente mais simples de lidar. Por esse motivo e pelo fato de o acesso aleatório em um arquivo de texto não ser algo que você precisa fazer com frequência, este tutorial é limitado a arquivos binários. As quatro primeiras operações listadas acima são para arquivos de texto e acesso aleatório. Os dois últimos apenas para acesso aleatório.

instagram viewer

Acesso aleatório significa que você pode mover para qualquer parte de um arquivo e ler ou gravar dados dele sem precisar ler o arquivo inteiro. Anos atrás, os dados eram armazenados em grandes rolos de fita de computador. A única maneira de chegar a um ponto na fita era lendo toda a fita. Em seguida, surgiram os discos e agora você pode ler qualquer parte de um arquivo diretamente.

Programando com arquivos binários

Um arquivo binário é um arquivo de qualquer tamanho que contém bytes com valores no intervalo de 0 a 255. Esses bytes não têm outro significado diferente de um arquivo de texto em que um valor 13 significa retorno de carro, 10 significa avanço de linha e 26 significa final do arquivo. O software que lê arquivos de texto precisa lidar com esses outros significados.

Arquivos binários, um fluxo de bytes, e linguagens modernas tendem a trabalhar com fluxos, e não com arquivos. A parte importante é o fluxo de dados, e não de onde veio. Dentro C, você pode pensar nos dados como arquivos ou fluxos. Com acesso aleatório, você pode ler ou gravar em qualquer parte do arquivo ou fluxo. Com o acesso seqüencial, você precisa percorrer o arquivo ou o fluxo desde o início como uma fita grande.

Este exemplo de código mostra um arquivo binário simples sendo aberto para gravação, com uma sequência de texto (char *) sendo gravada nele. Normalmente você vê isso com um arquivo de texto, mas pode escrever texto em um arquivo binário.

Este exemplo abre um arquivo binário para gravação e depois grava um caractere * (string) nele. A variável FILE * é retornada da chamada fopen (). Se isso falhar (o arquivo pode existir e ser aberto ou somente leitura ou pode haver uma falha no nome do arquivo), ele retorna 0.

O comando fopen () tenta abrir o arquivo especificado. Nesse caso, é test.txt na mesma pasta do aplicativo. Se o arquivo incluir um caminho, todas as barras invertidas deverão ser dobradas. "c: \ folder \ test.txt" está incorreto; você deve usar "c: \\ pasta \\ test.txt".

Como o modo de arquivo é "wb", esse código está gravando em um arquivo binário. O arquivo é criado se não existir e, se existir, o que estiver nele será excluído. Se a chamada para fopen falhar, talvez porque o arquivo esteja aberto ou o nome contenha caracteres inválidos ou um caminho inválido, fopen retornará o valor 0.

Embora você possa apenas verificar se ft é diferente de zero (sucesso), este exemplo tem uma função FileSuccess () para fazer isso explicitamente. No Windows, gera o sucesso / falha da chamada e o nome do arquivo. É um pouco oneroso se você estiver após o desempenho, portanto, você pode limitar isso à depuração. No Windows, há pouca sobrecarga na saída de texto para o depurador do sistema.

As chamadas fwrite () produzem o texto especificado. O segundo e o terceiro parâmetros são o tamanho dos caracteres e o comprimento da string. Ambos são definidos como sendo size_t, que é um número inteiro sem sinal. O resultado dessa chamada é gravar itens de contagem do tamanho especificado. Observe que, com arquivos binários, mesmo que você esteja escrevendo uma string (char *), ele não anexa nenhum caractere de retorno de carro ou de avanço de linha. Se você os quiser, inclua-os explicitamente na sequência.

Modos de arquivo para leitura e gravação de arquivos

Ao abrir um arquivo, você especifica como ele deve ser aberto - se deve ser criado de novo ou sobrescrito e se é texto ou binário, leitura ou gravação e se você deseja anexá-lo. Isso é feito usando um ou mais especificadores de modo de arquivo com letras simples "r", "b", "w", "a" e "+" em combinação com as outras letras.

r - abre o arquivo para leitura. Isso falhará se o arquivo não existir ou não puder ser encontrado.
w - abre o arquivo como um arquivo vazio para gravação. Se o arquivo existir, seu conteúdo será destruído.
a - Abre o arquivo para gravação no final do arquivo (anexado) sem remover o marcador EOF antes de gravar novos dados no arquivo; isso cria o arquivo primeiro se ele não existir.

Adicionar "+" ao modo de arquivo cria três novos modos:

r + - Abre o arquivo para leitura e gravação. (O arquivo deve existir.)
w + - Abre o arquivo como um arquivo vazio para leitura e gravação. Se o arquivo existir, seu conteúdo será destruído.
a + - Abre o arquivo para leitura e anexação; a operação anexa inclui a remoção do marcador EOF antes que novos dados sejam gravados no arquivo e o marcador EOF é restaurado após a conclusão da gravação. Ele cria o arquivo primeiro se ele não existir. Abre o arquivo para leitura e anexação; a operação anexa inclui a remoção do marcador EOF antes que novos dados sejam gravados no arquivo e o marcador EOF é restaurado após a conclusão da gravação. Ele cria o arquivo primeiro se ele não existir.

Combinações de modo de arquivo

Esta tabela mostra combinações de modo de arquivo para arquivos de texto e binários. Geralmente, você lê ou grava em um arquivo de texto, mas não os dois ao mesmo tempo. Com um arquivo binário, você pode ler e gravar no mesmo arquivo. A tabela abaixo mostra o que você pode fazer com cada combinação.

r texto - lido
rb + binário - leitura
r + texto - ler, escrever
binário r + b - ler, escrever
rb + binário - ler, escrever
w texto - escrever, criar, truncar
wb binário - escrever, criar, truncar
w + texto - ler, escrever, criar, truncar
w + b binário - ler, escrever, criar, truncar
wb + binário - ler, escrever, criar, truncar
um texto - escreva, crie
ab binário - escreva, crie
a + texto - leia, escreva, crie
binário a + b - escreva, crie
ab + binário - escrever, criar

A menos que você esteja apenas criando um arquivo (use "wb") ou apenas lendo um (use "rb"), você pode se safar usando "w + b".

Algumas implementações também permitem outras letras. Microsoft, por exemplo, permite:

t - modo de texto
c - confirmar
n - não confirmar
S - otimizando o cache para acesso seqüencial
R - armazenamento em cache não sequencial (acesso aleatório)
T - temporário
D - excluir / temporário, que mata o arquivo quando é fechado.

Como não são portáteis, use-as por sua própria conta e risco.

Exemplo de armazenamento de arquivos de acesso aleatório

O principal motivo para o uso de arquivos binários é a flexibilidade que permite ler ou gravar em qualquer lugar do arquivo. Os arquivos de texto permitem apenas a leitura ou gravação sequencial. Com a prevalência de bancos de dados baratos ou gratuitos, como SQLite e MySQL, reduz a necessidade de usar o acesso aleatório em arquivos binários. No entanto, o acesso aleatório aos registros de arquivos é um pouco antiquado, mas ainda é útil.

Examinando um exemplo

Suponha que o exemplo mostre um par de arquivos de índice e dados armazenando seqüências de caracteres em um arquivo de acesso aleatório. As cadeias têm comprimentos diferentes e são indexadas pela posição 0, 1 e assim por diante.

Existem duas funções nulas: CreateFiles () e ShowRecord (int recnum). O CreateFiles usa um buffer char * do tamanho 1100 para armazenar uma sequência temporária composta da sequência de formato msg seguida por n asteriscos em que n varia de 5 a 1004. Dois ARQUIVOS * são criados usando o modo de arquivo wb nas variáveis ftindex e ftdata. Após a criação, eles são usados para manipular os arquivos. Os dois arquivos são

index.dat
data.dat

O arquivo de índice contém 1000 registros do tipo indextype; esse é o struct indextype, que possui os dois membros pos (do tipo fpos_t) e size. A primeira parte do loop:

preenche a string msg assim.

e assim por diante. Então isso:

preenche a estrutura com o comprimento da sequência e o ponto no arquivo de dados em que a sequência será gravada.

Nesse ponto, a estrutura do arquivo de índice e a sequência do arquivo de dados podem ser gravadas em seus respectivos arquivos. Embora sejam arquivos binários, eles são gravados seqüencialmente. Em teoria, você pode gravar registros em uma posição além do final do arquivo atual, mas não é uma boa técnica a ser usada e provavelmente nem é portátil.

A parte final é fechar os dois arquivos. Isso garante que a última parte do arquivo seja gravada no disco. Durante gravações de arquivo, muitas gravações não vão diretamente para o disco, mas são mantidas em buffers de tamanho fixo. Depois que uma gravação preenche o buffer, todo o conteúdo do buffer é gravado no disco.

Uma função de liberação de arquivo força a liberação e você também pode especificar estratégias de liberação de arquivo, mas essas destinam-se a arquivos de texto.

Função ShowRecord

Para testar se qualquer registro especificado do arquivo de dados pode ser recuperado, é necessário saber duas coisas: onde ele inicia no arquivo de dados e qual o seu tamanho.

É isso que o arquivo de índice faz. A função ShowRecord abre os dois arquivos, procura o ponto apropriado (recnum * sizeof (indextype) e busca um número de bytes = sizeof (index).

SEEK_SET é uma constante que especifica de onde o fseek é feito. Existem duas outras constantes definidas para isso.

SEEK_CUR - busca em relação à posição atual
SEEK_END - procure absoluto no final do arquivo
SEEK_SET - busca absoluta desde o início do arquivo

Você pode usar SEEK_CUR para mover o ponteiro do arquivo para frente por sizeof (index).

Tendo obtido o tamanho e a posição dos dados, resta apenas buscá-los.

Aqui, use fsetpos () devido ao tipo de index.pos que é fpos_t. Uma maneira alternativa é usar ftell em vez de fgetpos e fsek em vez de fgetpos. O par fseek e ftell funcionam com int, enquanto que fgetpos e fsetpos usam fpos_t.

Depois de ler o registro na memória, um caractere nulo \ 0 é anexado para transformá-lo em um valor adequado. c-string. Não esqueça, ou você sofrerá um acidente. Como antes, fclose é chamado nos dois arquivos. Embora você não perca nenhum dado se esquecer de fechar (ao contrário das gravações), haverá um vazamento de memória.