Python считывание из файла: Чтение файлов с помощью Python — GitJournal

Содержание

Чтение файлов с помощью Python — GitJournal

Чтобы работать с сохранёнными данными, каждому программисту на Python необходимо знать про обработку файлов. Начиная с самого раннего выпуска, запись и чтение файлов встроены в Python. Если сравнить с другими языками типа С или Java, это довольно просто и требует немного строк кода. Более того, для этого не нужно загружать никаких дополнительных модулей.

Основы работы с файлами в Python

Общие методы для работы с файлами: open(), чтобы открыть файл, seek(), чтобы установить текущую позицию файла на заданное смещение, и close(), чтобы закрыть файловый объект, когда вы закончите его использовать. Метод open() возвращает ссылку на файл, представляющий файловый объект, чтобы получить доступ к чтению, записи или добавлению.

Когда открывается файл для чтения, Python нужно точно знать, как следует открыть файл в системе. Доступны два способа  — обычное чтение и чтение в двоичном режиме. Соответствующие флаги имеют вид 

rи rbи должны быть определены, когда файл открывается встроенным методом open(). Первый режим включает в себя интерпретацию специальных символов вроде “CR” (возврат каретки) and “LF” (перенос строки), чтобы отобразить разрыв строки, тогда как двоичный режим позволяет вам считывать данные в сыром виде — где данные хранятся как есть безо всякой дальнейшей интерпретации.

Как только вы открыли файл, методopen()вернёт вам файловый объект. Эти файловые объекты содержат методы наподобиеread(), readline(), write(), tell()и seek(). Хотя сами они (или подобные объекты) имеют больше методов, чем указано здесь, эти встречаются наиболее часто. Не каждый файловый объект нуждаются в имплементации всех методов работы с файлами.

Примеры

В этой статье мы будем объяснять, как читать файлы с помощью Python, через примеры. Некоторые из них включают построчное чтение, кусками (определённое количество строк за раз) и чтение в один заход. Также мы вам покажем способ прочесть отдельную строку из файла без поиска по всему файлу.

Построчное чтение файла

Первый пример вдохновлён двумя языками программирования: C и C++. Он довольно простой: открываем файл с помощью метода open(), читаем файл построчно, используя метод readline(), и выводим строку сразу же после чтения. Здесь применяется цикл while, который непрерывно читает из файла, пока метод readline() продолжает возвращать данные. В случае конца файла (EOF) цикл while останавливается, и файловый объект закрывается, освобождая ресурсы для других программ.

# определим имя файла, который читаем
filename = "test.txt"

# открываем файл для чтения
filehandle = open(filename, 'r')  
while True:  
    # читаем одну строку
    line = filehandle.readline()
    if not line:
        break
    print(line)

# закрываем указатель на этот файл
filehandle.close()  

Листинг 1

Как вы могли заметить, в листинге 1 мы явно открыли и закрыли файл (строки 5 и 14 соответственно). Хотя интерпретатор Python закрывает открытые файлы автоматически в конце исполнения программы, явно закрывать файл через close() есть хороший стиль программирования, и это не следует забывать.

В качестве улучшения в языке Python 2.3 был введён удобный протокол итераторов. Это позволяет вам упростить цикл readline следующим образом:

# определим имя файла, который читаем
filename = "test.txt"

for line in open(filename, 'r'):  
    print(line)

Листинг 2

Здесть применяется цикл for в комбинации с итератором in. Файл открывается в строке 4 листинга 2. Текущая строка определяется с помощью итератора in, считывается из файла, и её содержимое подаётся на выход

stdout в строке 5. Python скрывает открытие и закрытие файла, когда закончится исполнение. Хотя такой способ неэффективен, он позволяет вам больше не иметь дело с файловым потоком.

К сожалению, код выше менее явный и полагается на сборщик мусора Python, чтобы закрыть файл. Введённая в Python 2.5 команда with инкапсулирует весь процесс ещё больше и также открывает и закрывает файлы лишь однажды на протяжении блока кода. Листинг 3 показывает, как использовать команду with.

# определим имя файла, который читаем
filename = "test.txt"

with open(filename, 'r') as filehandle:  
    for line in filehandle:
        print(line)

Листинг 3

Комбинация оператора with и команды open() открывает файл только один раз (строка 4). Если цикл for завершён успешно, содержимое файла напечатано в поток stdout (строки 5 и 6).

Более того, использование выражения with даёт побочный эффект. Внутри интерпретатора Python создаётся блок tryfinally, чтобы инкапсулировать чтение из файла. Листинг 4 показывает, что неизбежно случается внутри в Python с помощью блоков кодаwith:

try:  
    filehandle = open(filename, 'r')
    # что-то делаем
finally:  
    filehandle.close()

Листинг 4

Чтение файла как набора строк

До сих пор мы обрабатывали файл построчно. Это довольно медленный способ для огромных файлов, но его можно улучшить, если читать несколько строк одновременно. Чтобы этого добиться, в дело вступает метод islice() из модуля itertools. Также он работает как итератор и возвращает набор данных, состоящий из n строк. В конце файла результат может быть короче, и завершающий вызов вернёт пустой список.

from itertools import islice

# определим имя файла, который читаем
filename = "test.txt"

# определим, сколько строк нужно прочесть
number_of_lines = 5

with open(filename, 'r') as input_file:  
    lines_cache = islice(input_file, number_of_lines)

    for current_line in lines_cache:
        print (current_line)

Листинг 5

Чтение определённой строки из файла

Используя показанные выше методы, мы можем также выполнить другие полезные действия, например, прочесть определённую строку из файла. Чтобы это сделать, применим счётчик и напечатаем соответствующую строку, когда дойдём до неё, проходя итерациями по файлу.

# определим имя файла, который читаем
filename = "test.txt"

# определим номер строки
line_number = 3

print ("line %i of %s is: " % (line_number, filename))

with open(filename, 'r') as filehandle:  
current_line = 1  
    for line in filehandle:
        if current_line == line_number:
            print(line)
            break
        current_line += 1

Листинг 6

Листинг 6 достаточно просто понять, но он немного больше, чем предыдущие примеры. Его можно сократить, используя модуль linecache. Листинг 7 поазывает, как упростить код с помощью метода getline(). Если запрашиваемая строка выпадает из ряда валидных строк в файле, то метод getline() взамен возвращает пустую строку.

# импортируем модуль linecache
import linecache

# определим имя файла, который читаем
filename = "test.txt"

# определим номер строки
line_number = 3

# получим определённую строку
line = linecache.getline(filename, line_number)  
print ("line %i of %s:" % (line_number, filename))  
print (line)  

Листинг 7

Чтение из всего файла целиком

В заключение мы посмотрим на совершенно другой случай по сравнению с предыдущим примером — прочитаем файл за один раз. Имейте в виду, что во многих случаях вам нужно достаточно места на компьютере, чтобы прочесть файл в память целиком. 

Листинг 8 использует комбинацию выражения with и метода read(). В этом случае мы применим read(), чтобы загрузить содержимое файла как поток данных.

# определим имя файла, который читаем
filename = "test.txt"

with open(filename, 'r') as filehandle:  
    filecontent = filehandle.read()
    print (filecontent)

Листинг 8

Python также предлагает метод readlines(), похожий на метод readline() из первого примера. В отличие от read(), содержимое файла сохраняется в список, где каждый элемент есть строка содержимого. Листинг 9 показывает, как получить доступ к этим данным:

# определим имя файла, который читаем
filename = "test.txt"

with open(filename, 'r') as filehandle:  
    filecontent = filehandle.readlines()
    for line in filecontent:
        print (line)

Листинг 9

Хотя readlines() будет читать содержимое из файла, пока не наткнётся на EOF (конец файла), не забывайте, что вы также можете ограничить количество прочитанного параметром sizehint, — числом байт, которое нужно прочесть.

Вывод

Как обычно, есть больше одного способа прочитать содержимое файла. В плане скорости все они примерно одинаковы. Какое решение для вас работает лучше, зависит от решаемых вами задач. Мы думаем, что было бы полезно увидеть разные возможности и выбрать более подходящее решение.

Хотя Python значительно упрощает процесс чтения файлов, иногда он бывает довольно сложным, в таком случае рекомендую взглянуть на официальную документацию Python для дальнейшего ознакомления.

Чтение текстового файла и разбиение его на отдельные слова в python



У меня есть этот текстовый файл, состоящий из чисел и слов, например, вот так —

09807754 18 n 03 aristocrat 0 blue_blood 0 patrician , и я хочу split его так, чтобы каждое слово или число появлялось как новая строка.

Разделитель whitespace был бы идеальным, так как я хотел бы, чтобы слова с тире оставались связанными.

Это то, что у меня есть до сих пор:

f = open('words.txt', 'r')
for word in f:
    print(word)

не совсем уверен, как идти дальше, я бы хотел, чтобы это был выход:

09807754
18
n
3
aristocrat
...
python string split
Поделиться Источник JohnConneely     04 июня 2013 в 15:50

6 ответов




146

Учитывая этот файл:

$ cat words.txt
line1 word1 word2
line2 word3 word4
line3 word5 word6

Если вам нужно только одно слово за раз (игнорируя значение пробелов и разрывов строк в файле):

with open('words.txt','r') as f:
    for line in f:
        for word in line.split():
           print(word)    

Печать:

line1
word1
word2
line2
...
word6 

Аналогично, если вы хотите сгладить файл в единый плоский список слов в файле, вы можете сделать что-то вроде этого:

with open('words.txt') as f:
    flat_list=[word for line in f for word in line.split()]

>>> flat_list
['line1', 'word1', 'word2', 'line2', 'word3', 'word4', 'line3', 'word5', 'word6']

Который может создать тот же вывод, что и в первом примере с print '\n'.join(flat_list)

Или, если вам нужен вложенный список слов в каждой строке файла (например, для создания матрицы строк и столбцов из файла):

with open('words.txt') as f:
    matrix=[line.split() for line in f]

>>> matrix
[['line1', 'word1', 'word2'], ['line2', 'word3', 'word4'], ['line3', 'word5', 'word6']]

Если вам нужно решение regex, которое позволит вам фильтровать wordN против lineN , введите слова в файле примера:

import re
with open("words.txt") as f:
    for line in f:
        for word in re.findall(r'\bword\d+', line):
            # wordN by wordN with no lineN

Или, если вы хотите, чтобы это был генератор построчных строк с regex:

 with open("words.txt") as f:
     (word for line in f for word in re.findall(r'\w+', line))

Поделиться dawg     04 июня 2013 в 15:56



20

f = open('words.txt')
for word in f.read().split():
    print(word)

Поделиться dugres     04 июня 2013 в 16:05



15

В качестве дополнительного, если вы читаете очень большой файл vvv и не хотите читать все содержимое в память сразу, вы можете рассмотреть возможность использования буфера, а затем возвращать каждое слово по выходу:

def read_words(inputfile):
    with open(inputfile, 'r') as f:
        while True:
            buf = f.read(10240)
            if not buf:
                break

            # make sure we end on a space (word boundary)
            while not str.isspace(buf[-1]):
                ch = f.read(1)
                if not ch:
                    break
                buf += ch

            words = buf.split()
            for word in words:
                yield word
        yield '' #handle the scene that the file is empty

if __name__ == "__main__":
    for word in read_words('./very_large_file.txt'):
        process(word)

Поделиться pambda     11 марта 2017 в 07:03


  • Разбиение текстового файла на слова в C

    У меня есть 2 типа текстов, которые я хочу разделить на слова. Первый тип текстового файла-это просто слова, разделенные новой строкой. Milk Work Chair … Второй тип текстового файла-это текст из книги , который имеет только whitespace. (Никаких ком,вопросительных знаков и т. д.) And then she…

  • разбиение текстового файла на слова с помощью regex в python

    совершенно новый для python!!! Мне дают текстовый файл https://en.wikipedia.org/wiki/ Character_mask и мне нужно разделить файл на отдельные слова (больше, чем одна буква, разделенная одним из нескольких других символов) Я пробовал использовать regex, но, похоже, не могу разделить его правильно…



5

Что вы можете сделать, так это использовать nltk для обозначения слов, а затем сохранить все слова в списке, вот что я сделал. Если вы не знаете nltk; он расшифровывается как natural language toolkit и используется для обработки естественного языка. Вот некоторые ресурсы, если вы хотите начать [ http://www.nltk.org/книга/]

import nltk 
from nltk.tokenize import word_tokenize 
file = open("abc.txt",newline='')
result = file.read()
words = word_tokenize(result)
for i in words:
       print(i)

Результат будет таким:

09807754
18
n
03
aristocrat
0
blue_blood
0
patrician

Поделиться Gaurav     24 марта 2018 в 11:37



4

with open(filename) as file:
    words = file.read().split()

Это список всех слов в вашем файле.

import re
with open(filename) as file:
    words = re.findall(r"([a-zA-Z\-]+)", file.read())

Поделиться mujad     20 января 2019 в 08:38



1

Вот мой полностью функциональный подход, который позволяет избежать необходимости читать и split строки. Он использует модуль itertools:

Примечание для python 3 заменить

itertools.imap на map
import itertools

def readwords(mfile):
    byte_stream = itertools.groupby(
        itertools.takewhile(lambda c: bool(c),
            itertools.imap(mfile.read,
                itertools.repeat(1))), str.isspace)

    return ("".join(group) for pred, group in byte_stream if not pred)

Пример использования:

>>> import sys
>>> for w in readwords(sys.stdin):
...     print (w)
... 
I really love this new method of reading words in python
I
really
love
this
new
method
of
reading
words
in
python
           
It's soo very Functional!
It's
soo
very
Functional!
>>>

Я думаю, в вашем случае это был бы способ использовать функцию:

with open('words.txt', 'r') as f:
    for word in readwords(f):
        print(word)

Поделиться smac89     29 ноября 2016 в 05:22


Похожие вопросы:


Как читать отдельные слова из текстового файла?

Мне трудно понять, как читать отдельные слова из текстового файла, чтобы поместить их в массив в программе. Итак, скажем, у меня есть текстовый файл: potatoes bananas oranges Я хочу прочитать из…


Как прочитать одно слово (или строку) из текстового файла Java?

Как говорится в названии, я пытаюсь написать программу, которая может читать отдельные слова из текстового файла и хранить их в переменных String . Я знаю, как использовать FileReader или…


Чтение слова из текстового файла

Это требование, которому я должен следовать: Там будет стиль C или C строки в стиле C++, чтобы держать слово. Int для подсчета каждого слова. Структура или класс для хранения обоих этих элементов….


Python, открытие файла, чтение файла, редактирование файла и чтение строки файла?

Поэтому я предполагаю открыть текстовый файл с помощью >>>yyy(‘yyy.txt’) и после ввода этого python должен найти мой файл (что и делает, так как находится в том же каталоге) и отредактировать все…


Чтение конкретного слова из текстового файла в приложении C# windows

Я пытаюсь прочитать конкретное слово из текстового файла я знаю что это легко и я это сделал но мне нужно прочитать из предложения т. е. если файл содержит WC/110916/F-12003||ZET5.4|27019570 тогда…


Разбиение текстового файла на слова в C

У меня есть 2 типа текстов, которые я хочу разделить на слова. Первый тип текстового файла-это просто слова, разделенные новой строкой. Milk Work Chair … Второй тип текстового файла-это текст из…


разбиение текстового файла на слова с помощью regex в python

совершенно новый для python!!! Мне дают текстовый файл https://en.wikipedia.org/wiki/ Character_mask и мне нужно разделить файл на отдельные слова (больше, чем одна буква, разделенная одним из…


Чтение текстового файла в python

как я могу прочитать текстовый файл в python ?Я хочу , чтобы python показывал предполагаемый текстовый файл, который я пишу его имя в python, а затем мне нужна команда, чтобы показать мне ключевые…


Чтение из файла и разбиение на отдельные списки

Чтение из файла. Затем пытаюсь разбить строки на разные списки. userID = [] fname = [] lname = [] email = [] salary = [] nextLine = file.readline() while nextLine != »: filedata =…


Чтение текстового файла и разбиение на отдельные слова в python3.8, используя discord.py

Я пытаюсь сделать бота discord, используя python 3.8 и discord.py в pycharm. Функция бота состоит в том, чтобы прочитать текстовый файл и записать каждое слово в виде отдельного сообщения и…

Чтение из файла на Python

Создавая логирование действии, сохраняя из интернета изображения, читая построчно из файла и многие другие действия которые требуют от нас запись, сохранения и чтение, в Python выполняется весьма просто и быстро. В случае сохранения данных в файл, папка в которой находится файл должна иметь права 777. Следующая программа открывает файл и читает его содержимое построчно:

# -*- coding: utf-8 -*-
f = open('power.txt')
line = f.readline()
while line:
    print (line),
    line = f.readline()
f.close()

Функция open() возвращает новый файловой объект. Вызывая методы этого объекта можно выполнять разные действия над файлом, такие как чтение и запись. Метод readline() который мы использовали в примере выше, читает одну строку из файла, завершая символом перевода строки. Используя данный метод, для чтения файла нам понадобится цикл while, и в теле цикла вызывать readline() чтобы читать следующею строку. После чтения всего файла, метод возвращает пустую строку т.е. False, вот тогда цикл while и завершает свою работу.

Можно читать из файла построчно не используя при этом цикл while, данный способ более прост и читабельней.

# -*- coding: utf-8 -*-
f = open('power.txt')
for line in f.readlines():
    print (line),
Метод readlines() отличается одной добавленной буквой и строит обратить внимание на это, часто ошибаются и используют readline() и не понимают почему выдают всего лишь одну строку. readline() и readlines() выполняют одну и ту же операцию — читаю построчно данные из файла, но возвращают разные данные. readlines() возвращает список в котором содержится строки из файла.
Прямо сейчас на сайте doctorsmm Вы можете заказать просмотры в Телеграм, как на 1 пост, так и на всю ленту сразу по вкусным притягательным условиям. При этом у Вас есть возможность выбрать качество ресурса, его скорость и количество. Также на некоторые виды услуги распространяется гарантия, что позволит Вам совершать покупки не только дешево, но и безопасно.
# -*- coding: utf-8 -*-
f = open('power.txt')
line = f.readlines()
print(line[0]), # Вывод первой строки
print(line[1]), # Вывод второй строки
# ...
print(line[5]), # Вывод четвертой строки
Если незачем мучиться чтением файла построчно, можно выполнить чтение файла целиков. Метод read() читает указанный файл полностью и возвращает нам его содержимое в виде строки.
# -*- coding: utf-8 -*-
# Можно компактно так
print(open('power.txt').read())
# или так
f = open('power.txt')
print(f.read())
Открывая свой бизнес связанный с канцелярскими товарами или же повысить скорость копирования документов в офисах не мучаясь сканированием у одного аппарата потом отдельно напечатанием у другого, советуем купить МФУ WorkCentre со всеми функциями в одном аппарате. Данное многофункциональное устройство сэкономит уйму сил и времени и уничтожит офисную рутину.

python — Постоянное чтение файла и добавление новых строк в список (python)

Я практикую чтение файлов в Python. Я получил текстовый файл, и я хочу запустить программу, которая постоянно читает этот текстовый файл и добавляет новые записанные строки в список. Для выхода из программы и распечатки результирующего списка пользователь должен нажать «ввод».

Код, который я написал до сих пор, выглядит следующим образом:

import sys, select, os

data = []
i = 0

while True:

    os.system('cls' if os.name == 'nt' else 'clear')
    with open('test.txt', 'r') as f:
        for line in f:
            data.append(int(line))
            
    print(data)
    if sys.stdin in select.select([sys.stdin], [], [], 0)[0]:
        line_ = input()
        break

Таким образом, чтобы выйти из цикла, нужно нажать «enter». Чтобы быть справедливым, я просто скопировал и вставил решение, чтобы сделать это отсюда: Выйдя из цикла, нажав Enter без блокировки. Как я могу улучшить этот метод?

Но этот код просто добавляет все строки в мой список снова и снова. Итак, скажем, мои текстовые файлы содержат строки:

1
2
3

Так что мой список будет выглядеть как data = [1,2,3,1,2,3,1,2,3...] и иметь определенную длину, пока я не нажму клавишу ввода. Когда я добавлю строку (например, 4), она пойдет data = [1,2,3,1,2,3,1,2,3,1,2,3,4,1,2,3,4...].

Поэтому я ищу какой-то if statement перед моей append командой, чтобы добавлялась только вновь написанная строка. Но я не могу придумать что-то легкое.

Я уже получил несколько советов, т.е.

  1. Постоянно проверять размер файла и читать только часть между старым и новым размером.
  2. Отслеживание номера строки и переход к строке, которая не добавляется в следующей итерации.

На данный момент я не могу придумать, как это сделать. Я пытался поиграться с enumerate(f) и itertools.islice, но не могу заставить его работать. Был бы признателен за помощь, так как я еще не принял способ мышления программистов.

0

Jailbone 7 Июл 2020 в 16:26

2 ответа

Лучший ответ

Сохраняйте положение файла между итерациями. Это позволяет эффективно перемотать файл вперед, когда снова открывается:

data = []
file_position = 0

while True:
    with open('test.txt', 'r') as f:
        f.seek(file_position)  # fast forward beyond content read previously
        for line in f:
            data.append(int(line))
        file_position = f.tell()  # store position at which to resume

1

MisterMiyagi 7 Июл 2020 в 14:03

Я мог бы заставить его работать на Windows. Прежде всего, выход из цикла while и непрерывное чтение файла — это два разных вопроса. Я предполагаю, что выход из цикла while не является главной проблемой, и поскольку ваш оператор select.select() не работает таким образом в Windows, я создал команду exit-while с предложением try-except это срабатывает на Ctrl-c. (Это всего лишь один из способов сделать это).

Вторая часть ваших вопросов — как постоянно читать файл. Ну, не открывая его снова и снова внутри цикла while, открывайте его перед циклом while.

Затем, как только файл изменяется, читается правильная или неправильная строка. Я полагаю, это происходит потому, что итерация по f может иногда происходить до того, как файл будет полностью записан (я не совсем уверен в этом). В любом случае, легко проверить строку чтения. Я снова использовал для него try-except предложение, которое ловит ошибку, если int(line) выдает ошибку.

Код:

import sys, select, os

data = []

with open('text.txt', 'r') as f:
    try:
        while True:

            os.system('cls' if os.name == 'nt' else 'clear')
            for line in f:
                try:
                    data.append(int(line))
                except:
                    pass
                
            print(data)
    except KeyboardInterrupt:
        print('Quit loop')
print(data)

1

Ronald 7 Июл 2020 в 14:18

Python. Примеры работы с текстовыми файлами

В данной теме представлены примеры записи и чтения информации для текстовых файлов.


Содержание


Поиск на других ресурсах:

1. Чтение/запись списка, содержащего n целых чисел

В примере демонстрируются следующие операции:

  • создание списка из 10 случайных чисел;
  • сохранение списка в текстовом файле;
  • чтение из файла в новый список с целью контроля.

Текст программы следующий:

# Запись/чтение списка случайных чисел
# 1. Подключить модуль random
import random

# 2. Создать список из 10 случайных чисел
i = 0
lst = []
while i<10:
    number = random.randint(0, 101) # число от 0 до 100
    lst = lst + [number]
    i = i+1

print("lst = ", lst)

# 3. Сохранить список в текстовом файле
# 3.1. Открыть файл для записи
f = open('file.txt', 'wt')

# 3.2. Записать количество элементов в списке
s = str(len(lst)) # Конвертировать целое число в строку
f.write(s + '\n') # Записать строку

# 3.3. Записать каждый элемент
for i in lst:
    s = str(i) # конвертировать элемент списка в строку
    f.write(s + ' ') # записать число в строку

# 4. Закрыть файл
f.close()

# -------------------------------------------
# 5. Чтение из файла 'file.txt'
f = open('file.txt', 'r')

# 6. Прочитать из файла числа и сформировать список
# 6.1. Прочитать количество элементов в списке,
# сначала читается строка, затем эта строка
# конвертируется в целое число методом int()
s = f.readline()
n = int(s)

# 6.2. Создать пустой список
lst2 = []

# 6.3. Реализовать обход файла по строкам и считать числа.
# Для чтения строк используется итератор файла.
for line in f:
    # метод split - разбивает на слова на основании символа пробел
    strs = line.split(' ') # получить массив строк strs

    # Вывести strs с целью контроля
    print("strs = ", strs)

    # прочитать все слова и записать их в список как целые числа
    for s in strs:
        if s!='':
            lst2 = lst2 + [int(s)] # добавить число к списку

# 6.4. Вывести результат для контроля
print("n = ", len(lst2))
print("lst2 = ", lst2)

# 6.5. Закрыть файл - необязательно
f.close()

Результат работы программы

lst = [48, 89, 1, 36, 68, 26, 61, 38, 1, 6]
strs = ['48', '89', '1', '36', '68', '26', '61', '38', '1', '6', '']
n = 10
lst2 = [48, 89, 1, 36, 68, 26, 61, 38, 1, 6]

  ⇑

2. Чтение/запись списка, содержащего строки

При чтении/записи строк не нужно реализовывать дополнительные преобразования из одного типа в другой, так как данные из файла читаются в виде строк.

# Запись/чтение списка строк
# 1. Заданный список строк
L = [ 'abc', 'bcd', 'cba', 'abd']

# 2. Открыть файл для записи
f = open('filestrs.txt', 'wt')

# 3. Цикл записи строк

for s in L:
    # записать каждую строку в отдельную строку файла
    f.write(s + '\n')

# 4. Закрыть файл
f.close()

# -------------------------------------------
# 5. Чтение из файла 'filestrs.txt'
f = open('filestrs.txt', 'rt')

# 6. Сформировать новый список
lst2 = [] # сначала пустой список

# 7. Реализовать обход файла по строкам и считать числа.
# Для чтения строк используется итератор файла.
for s in f:
    # Убрать последний символ '\n' из s
    s = s.rstrip()

    # Вывести s для контроля
    print("s = ", s)

    # Добавить строку s в список lst2
    lst2 = lst2 + [s]

# 8. Вывести список lst2 для контроля
print("lst2 = ", lst2)

# 9. Закрыть файл - необязательно
f.close()

Результат работы программы

s = abc
s = bcd
s = cba
s = abd
lst2 = ['abc', 'bcd', 'cba', 'abd']

  ⇑

3. Чтение/запись кортежа, содержащего объекты чисел с плавающей запятой

Пример демонстрирует запись и чтение кортежа, который содержит объекты чисел с плавающей запятой.

# Запись/чтение кортежа, содержащего объекты типа float.
# 1. Исходный кортеж
T1 = ( 3.8, 2.77, -11.23, 14.75)

# 2. Запись кортежа в файл

# 2.2. Открыть файл для записи в текстовом режиме
f = open('myfile5.txt', 'wt')

# 2.3. Цикл записи объектов в файл
for item in T1:
    # 2.3.1. Конвертировать item в строку
    s = str(item)

    # 2.3.2. Записать строку + символ ' ' пробел
    f.write(s + ' ')

    # 2.4. Закрыть файл
    f.close()

# 3. Чтение из файла, который содержит вещественные числа
# и создание нового кортежа T2
f = open('myfile5.txt', 'rt')

# 3.1. Создать пустой кортеж T2
T2 = ()

# 3.2. Чтение данных из файла и образование кортежа
for lines in f: # Использовать итератор файла
    # 3.2.1. Разбить строку lines на подстроки strings.
    # Любая подстрока strings[i] - это вещественное число,
    # представленное в строчном формате
    strings = lines.split(' ')

# 3.2.2. Обойти все подстроки в файле,
# конвертировать и добавить их к кортежу T2
for s in strings:
    if s != '': # если непустая строка
        # Конвертировать в вещественное число
        num = float(s)

        # Добавить к кортежу
        T2 += (num,)

# 3.3. Вывести кортеж для контроля
print("T2 = ", T2) # T2 = (3.8, 2.77, -11.23, 14.75)

# 3.4. Закрыть файл
f.close()

Результат работы программы

T2 = (3.8, 2.77, -11.23, 14.75)

Вид файла myfile5.txt

3.8 2.77 -11.23 14.75

  ⇑



4. Чтение/запись кортежа содержащего разнотипные объекты

В случае, если кортеж содержит объекты разных типов при записи/чтении важно придерживаться последовательности этапов конвертирования объектов в нужный тип. Ниже приведен пример записи и чтения кортежа, который содержит объекты целого, логического и строчного типов.

# Запись/чтение кортежа, содержащего разнотипные объекты
# 1. Запись кортежа в файл

# 1.1. Исходный кортеж
T1 = ( 5, True, "abcde fghi")

# 1.2. Открыть файл для записи в текстовом режиме
f = open('myfile4.txt', 'wt')

# 1.3. Поэлементная запись кортежа в файл,
# поскольку в кортеже есть строки, то записываем
# каждый элемент в отдельную строку
for item in T1:
    s = str(item) + '\n' # добавить символ новой строки
    f.write(s)

# Закрыть файл
f.close()

# 2. Чтение кортежа
f = open('myfile4.txt', 'rt')

# 2.1. Создать пустой кортеж
T3 = ()

# 2.2. Чтение данных из файла и создание кортежа
# Первым читается число типа int
s = f.readline()
T3 = T3 + (int(s),) # конкатенация кортежей

# Вторым читается логическое значение типа bool
s = f.readline()
T3 = T3 + (bool(s),)

# Третьим читается строка типа str
s = f.readline()
s = s.rstrip() # убрать символ '\n' из строки
T3 = T3 + (s,)

# 2.3. Вывести кортеж для контроля
print("T3 = ", T3) # T3 = (5, True, 'abcde fghi')

# 2.4. Закрыть файл
f.close()

Результат выполнения программы

T3 = (5, True, 'abcde fghi')

  ⇑

5. Чтение/запись словаря

Словарь также можно записывать в файл. В данном примере записывается и читается словарь, который содержит перечень номеров дней недели и их названий. Для облегчения чтения данных каждый элемент словаря размещается в отдельной строке.

# Запись/чтение словаря в текстовый файл.
# Словарь содержит объекты типа {int:str}

# 1. Исходный словарь - перечень дней недели и их номеров
D = { 1:'Sun', 2:'Mon', 3:'Tue', 4:'Wed', 5:'Thu', 6:'Fri', 7:'Sat' }

# 2. Запись словаря в файл

# 2.1. Открыть текстовый файл для записи
f = open('myfile6.txt', 'w')

# 2.2. Цикл записи элементов словаря в файл
for item in D:
    # 2.2.1. Сформировать строку вида key:value
    s = str(item) # взять ключ как строку
    s += ':' # добавить символ ':'
    s += D.get(item) # добавить значение value по его ключу
    s += '\n' # добавить символ новой строки

    # 2.2.2. Записать строку в файл
    f.write(s)

# 2.3. Закрыть файл
f.close()

# 3. Чтение из файла, который содержит данные словаря D
# 3.1. Открыть файл для чтения
f = open('myfile6.txt', 'rt')

# 3.2. Создать пустой словарь D2
D2 = {}

# 3.3. Чтение данных из файла и образование нового словаря
for lines in f: # Использовать итератор файла
    # 3.3.1. Любая подстрока lines - это элемент вида key:value
    # представленный в строчном формате.
    # Разбить lines на 2 подстроки
    strings = lines.split(':')

    # 3.3.2. Получить ключ и значение
    key = int(strings[0]) # получить ключ
    value = strings[1].rstrip() # получить значение без '\n'

    # 3.3.3. Добавить пару key:value к словарю D2
    D2[key] = value

# 3.4. Вывести словарь для контроля
print("D2 = ", D2)

# 3.5. Закрыть файл
f.close()

Результат работы программы

D2 = {1: 'Sun', 2: 'Mon', 3: 'Tue', 4: 'Wed', 5: 'Thu', 6: 'Fri', 7: 'Sat'}

Вид файла myfile6.txt

1:Sun
2:Mon
3:Tue
4:Wed
5:Thu
6:Fri
7:Sat

  ⇑

6. Чтение/запись двумерной матрицы целых чисел, представленной в виде списка

В примере демонстрируется запись и чтение двумерной матрицы целых чисел размерностью 3*4.

# Запись/чтение двумерной матрицы чисел
# 1. Исходная матрица целых чисел размером 3*4
M = [ [ 2, 1, -3],
      [ 4, 8, -2],
      [ 1, 2,  3],
      [ 7, -3, 8] ]

# 2. Запись матрицы в текстовый файл

# 2.1. Открыть текстовый файл для записи
f = open('myfile8.txt', 'w')

# 2.2. Цикл записи элементов матрицы в файл
#      в удобном для отображения виде
i = 0
while i < 4: # цикл по строкам
    j = 0
    while j < 3: # цикл по столбцам
        s = str(M[i][j])
        f.write(s + ' ') # между числами символ ' ' пробел
        j = j+1
    f.write('\n')
    i = i + 1

# 2.3. Закрыть файл
f.close()

# 3. Чтение матрицы из файла
# 3.1. Открыть файл для чтения
f = open('myfile8.txt', 'rt')

# 3.2. Создать пустой список
M2 = []

# 3.3. Чтение данных из файла и образование новой матрицы

i = 0
for line in f: # Использовать итератор файла
    # Конвертировать строку line в список строк
    lines = line.split(' ') # разбить строку line на подстроки lines

    # временный список
    lst = []

    # обход элементов в строке
    for ln in lines:
        # забрать символ '\n'
        ln = ln.rstrip()

        if ln != '':
            num = int(ln) # взять отдельное число
            lst = lst + [num] # добавить число к списку

    M2 = M2 + [lst] # добавить строку к результирующей матрице

# 3.4. Вывести матрицу M2 для контроля
print("M2 = ", M2) #

# 3.5. Закрыть файл
f.close()

Результат работы программы

M2 = [[2, 1, -3], [4, 8, -2], [1, 2, 3], [7, -3, 8]]

Вид файла myfile8.txt

2 1 -3
4 8 -2
1 2 3
7 -3 8

  ⇑

7. Чтение/запись множества, которое содержит целые числа

В примере демонстрируется возможный вариант сохранения множества в текстовом файле

# Запись/чтение множества в текстовом файле.

# 1. Задано множество целочисленных объектов
M = { 2, 3, -12, 22, 38 }

# 2. Запись множества в файл

# 2.1. Открыть текстовый файл для записи
f = open('myfile7.txt', 'w')

# 2.2. Цикл записи элементов множества в файл
for item in M:
    # 2.2.1. Конвертировать элемент множества в строку + '\n'
    s = str(item) + '\n'

    # 2.2.2. Записать строку в файл
    f.write(s)

# 2.3. Закрыть файл
f.close()

# 3. Чтение множества из файла
# 3.1. Открыть файл для чтения
f = open('myfile7.txt', 'rt')

# 3.2. Создать пустое множество
M2 = set()

# 3.3. Чтение данных из файла и образование нового множества
for line in f: # Использовать итератор файла
    # Конвертировать строку line в целое число
    num = int(line)
    M2 = M2.union({num})

# 3.4. Вывести множество для контроля
print("M2 = ", M2) # M2 = {2, 3, -12, 38, 22}

# 3.5. Закрыть файл
f.close()

Результат работы программы

M2 = {2, 3, -12, 38, 22}

Вид файла myfile7.txt

2
3
38
-12
22

  ⇑

8. Чтение/запись данных разных типов: список и кортеж

Чтобы записать в текстовый файл данные разных базовых типов нужно последовательно записать данные одного типа, затем другого типа. При считывании таких данных нужно придерживаться такого самого порядка чтобы не нарушить полученную структуру данных.

В примере демонстрируется последовательная запись в файл списка и кортежа. При чтении придерживается такая же последовательность: сначала читается список, затем кортеж. Список включает строки. Кортеж содержит вещественные числа. Чтобы облегчить работу по распознаванию формата файла, каждый записываемый (читаемый) элемент размещается в отдельной строке файла.
Поскольку список и кортеж могут содержать разное количество элементов, то в файл записываются их размерности.

# Запись/чтение данных разных типов.
# Обработка списка и кортежа.
# 1. Задан некоторый список строк и кортеж чисел
L = [ 'John Johnson', 'Peter Petrov', 'O Neill', 'J. Dunkan' ]
T = ( 2, 3.85, 7.77, -1.8, 5.25 )

# 2. Запись данных в файл: сначала записывается список, затем кортеж
# 2.1. Открыть текстовый файл для записи
f = open('myfile9.txt', 'w')

# 2.2. Записать количество элементов списка + '\n'
f.write(str(len(L)) + '\n')

# 2.3. Цикл записи элементов списка в файл
# Каждый из элементов списка размещается в новой строке.
for item in L: # обход списка
    f.write(item + '\n') # записать строку в файл

# 2.4. После списка записывается кортеж,
# каждый элемент кортежа размещается в отдельной строке.
# Сначала записать количество элементов кортежа
f.write(str(len(T)) + '\n')

# обход кортежа в цикле
for item in T:
    f.write(str(item) + '\n') # запись каждого элемента кортежа

# 2.3. Закрыть файл
f.close()

# 3. Чтение списка и кортежа из файла
# 3.1. Открыть файл для чтения
f = open('myfile9.txt', 'rt')

# 3.2. Создать результирующий пустой список
# и результирующий кортеж
L2 = []
T2 = ()

# 3.3. Чтение данных из файла и формирование списка L2
n = int(f.readline()) # прочитать количество элементов в списке

i = 0
while i < n: # цикл чтения строк из файла и образования списка
    s = f.readline().rstrip() # прочитать строку без символа '\n'
    if (s != ''):
        L2 += [s]
    i = i + 1

# 3.4. Прочитать количество элементов кортежа
n = int(f.readline())

i = 0
while i < n: # цикл чтения строк и образование кортежа
    s = f.readline()
    if (s != ''):
        T2 = T2 + (float(s),) # добавить вещественное число к кортежу
    i = i+1

# 3.5. Закрыть файл
f.close()

# Вывести список и кортеж для контроля
print("L2 = ", L2)
print("T2 = ", T2)

Результат работы программы

L2 = ['John Johnson', 'Peter Petrov', 'O Neill', 'J. Dunkan']
T2 = (2.0, 3.85, 7.77, -1.8, 5.25)

Вид файла myfile9.txt

4
John Johnson
Peter Petrov
O Neill
J. Dunkan
5
2
3.85
7.77
-1.8
5.25

  ⇑


Связанные темы

  ⇑


 

Python. Урок 12. Ввод-вывод данных. Работа с файлами

В уроке рассмотрены основные способы ввода и вывода данных в Python с использованием консоли, и работа с файлами: открытие, закрытие, чтение и запись.

Один из самых распространенных способов вывести данные в Python – это напечатать их в консоли. Если вы находитесь на этапе изучения языка, такой способ является основным для того, чтобы быстро просмотреть результат свой работы. Для вывода данных в консоль используется функция print.

Рассмотрим основные способы использования данной функции.

>>> print("Hello")
Hello
>>> print("Hello, " + "world!")
Hello, world!
>>> print("Age: " + str(23))
Age: 23

По умолчанию, для разделения элементов в функции print используется пробел.

>>> print("A", "B", "C")
A B C

Для замены разделителя необходимо использовать параметр sep функции print.

print("A", "B", "C", sep="#")
A#B#C

В качестве конечного элемента выводимой строки, используется символ перевода строки.

>>> for i in range(3):
    print("i: " + str(i))   
i: 0
i: 1
i: 2

Для его замены используется параметр end.

>>> for i in range(3):
    print("[i: " + str(i) + "]", end=" -- ")
[i: 0] -- [i: 1] -- [i: 2] -- 

Для считывания вводимых с клавиатуры данных используется функция input().

>>> input()
test
'test'

Для сохранения данных в переменной используется следующий синтаксис.

>>> a = input()
hello
>>> print(a)
hello

Если считывается с клавиатуры целое число, то строку, получаемую с помощью функции input(), можно передать сразу в функцию int().

>>> val = int(input())
123
>>> print(val)
123
>>> type(val)
<class 'int'>

Для вывода строки-приглашения, используйте ее в качестве аргумента функции input().

>>> tv = int(input("input number: "))
input number: 334
>>> print(tv)
334

Преобразование строки в список осуществляется с помощью метода split(), по умолчанию, в качестве разделителя, используется пробел.

>>> l = input().split()
1 2 3 4 5 6 7
>>> print(l)
['1', '2', '3', '4', '5', '6', '7']

Разделитель можно заменить, указав его в качестве аргумента метода split().

>>> nl = input().split("-")
1-2-3-4-5-6-7
>>> print(nl)
['1', '2', '3', '4', '5', '6', '7']

Для считывания списка чисел с одновременным приведением их к типу int можно воспользоваться вот такой конструкцией.

>>> nums = map(int, input().split())
1 2 3 4 5 6 7
>>> print(list(nums))
[1, 2, 3, 4, 5, 6, 7]

Открытие и закрытие файла

Для открытия файла используется функция open(), которая возвращает файловый объект. Наиболее часто используемый вид данной функции выглядит так open(имя_файла, режим_доступа).

Для указания режима доступа используется следующие символы:

r’ – открыть файл для чтения;

w’ – открыть файл для записи;

x’ – открыть файл с целью создания, если файл существует, то вызов функции open завершится с ошибкой;

a’ – открыть файл для записи, при этом новые данные будут добавлены в конец файла, без удаления существующих;

b’ – бинарный режим;

t’ – текстовый режим;

+’ – открывает файл для обновления.

По умолчанию файл открывается на чтение в текстовом режиме.

У файлового объекта есть следующие атрибуты.

file.closed – возвращает true если файл закрыт и false в противном случае;

file.mode – возвращает режим доступа к файлу, при этом файл должен быть открыт;

file.name – имя файла.

>>> f = open("test.txt", "r")
>>> print("file.closed: " + str(f.closed))
file.closed: False
>>> print("file.mode: " + f.mode)
file.mode: r
>>> print("file.name: " + f.name)
file.name: test.txt

Для закрытия файла используется метод close().

Чтение данных из файла

Чтение данных из файла осуществляется с помощью методов read(размер) и readline().

Метод read(размер) считывает из файла определенное количество символов, переданное в качестве аргумента. Если использовать этот метод без аргументов, то будет считан весь файл.

>>> f = open("test.txt", "r")
>>> f.read()
'1 2 3 4 5\nWork with file\n'
>>> f.close()

В качестве аргумента метода можно передать количество символом, которое нужно считать.

>>> f = open("test.txt", "r")
>>> f.read(5)
'1 2 3'
>>> f.close()

Метод readline() позволяет считать строку из открытого файла.

>>> f = open("test.txt", "r")
>>> f.readline()
'1 2 3 4 5\n'
>>> f.close()

Построчное считывание можно организовать с  помощью оператора for.

>>> f = open("test.txt", "r")
>>> for line in f:
...     print(line)
...
1 2 3 4 5
Work with file

>>> f.close()

Запись данных в файл

Для записи данных файл используется метод write(строка), при успешной записи он вернет количество записанных символов.

>>> f = open("test.txt", "a")
>>> f.write("Test string")
11
>>> f.close()

Дополнительные методы для работы с файлами

Метод tell() возвращает текущую позицию “условного курсора” в файле. Например, если вы считали пять символов, то “курсор” будет установлен в позицию 5.

>>> f = open("test.txt", "r")
>>> f.read(5)
'1 2 3'
>>> f.tell()
5
>>> f.close()

Метод seek(позиция) выставляет позицию в файле.

>>> f = open("test.txt", "r")
>>> f.tell()
0
>>> f.seek(8)
8
>>> f.read(1)
'5'
>>> f.tell()
9
>>> f.close()

Хорошей практикой при работе с файлами является применение оператора with. При его использовании нет необходимости закрывать файл, при завершении работы с ним, эта операция будет выполнена автоматически.

>>> with open("test.txt", "r") as f:
...     for line in f:
...             print(line)
...
1 2 3 4 5
Work with file
Test string
>>> f.closed
True

P.S.

Если вам интересна тема анализа данных, то мы рекомендуем ознакомиться с библиотекой Pandas. На нашем сайте вы можете найти вводные уроки по этой теме. Все уроки по библиотеке Pandas собраны в книге “Pandas. Работа с данными”.

<<< Python. Урок 11. Работа с исключениями   Python. Урок 13. Модули и пакеты >>>

Как прочитать текстовый файл в список или массив с помощью Python

Итак, вы хотите создать список списков … Нам нужно начать с пустого списка

list_of_lists = []

Далее читаем содержимое файла построчно

with open('data') as f:
    for line in f:
        inner_list = [elt.strip() for elt in line.split(',')]
        # in alternative, if you need to use the file content as numbers
        # inner_list = [int(elt.strip()) for elt in line.split(',')]
        list_of_lists.append(inner_list)

Распространенным случаем является использование столбчатых данных, но наши единицы хранения — это строки файла, которые мы прочитали одна за другой, поэтому вы можете захотеть перенести свой список списков. Это можно сделать с помощью следующей идиомы

by_cols = zip(*list_of_lists)

Другое распространенное использование — дать имя каждому столбцу.

col_names = ('apples sold', 'pears sold', 'apples revenue', 'pears revenue')
by_names = {}
for i, col_name in enumerate(col_names):
    by_names[col_name] = by_cols[i]

так что вы можете работать с однородными элементами данных

 mean_apple_prices = [money/fruits for money, fruits in
                     zip(by_names['apples revenue'], by_names['apples_sold'])]

Большая часть того, что я написал, может быть ускорена с помощью csvмодуля из стандартной библиотеки. Другой сторонний модуль pandasпозволяет автоматизировать большинство аспектов типичного анализа данных (но имеет ряд зависимостей).


Обновление Хотя в Python 2 zip(*list_of_lists)возвращается другой (транспонированный) список списков, в Python 3 ситуация изменилась и zip(*list_of_lists)возвращает объект zip, который не является подписным.

Если вам нужен индексированный доступ, вы можете использовать

by_cols = list(zip(*list_of_lists))

это дает вам список списков в обеих версиях Python.

С другой стороны, если вам не нужен индексированный доступ и вам нужно просто создать словарь, индексированный по именам столбцов, zip-объект — это нормально …

file = open('some_data.csv')
names = get_names(next(file))
columns = zip(*((x.strip() for x in line.split(',')) for line in file)))
d = {}
for name, column in zip(names, columns): d[name] = column

python — как читать большой файл построчно?

Немного контекста о том, откуда я. Фрагменты кода в конце.

По возможности я предпочитаю использовать инструмент с открытым исходным кодом, такой как h3O, для сверхвысокопроизводительного параллельного чтения файлов CSV, но этот инструмент имеет ограниченный набор функций. Я заканчиваю тем, что пишу много кода для создания конвейеров обработки данных, прежде чем передавать его в кластер h3O для собственно контролируемого обучения.

Я читал такие файлы, как набор данных HIGGS объемом 8 ГБ из репозитория UCI и даже файлы CSV размером 40 ГБ для целей науки о данных, значительно быстрее за счет добавления большого количества параллелизма с помощью объекта пула библиотеки многопроцессорной обработки и функции карты.Например, кластеризация с поиском ближайшего соседа, а также алгоритмы кластеризации DBSCAN и Маркова требуют некоторой тонкости параллельного программирования, чтобы обойти некоторые серьезные проблемы с памятью и временем настенных часов.

Я обычно люблю разбивать файл по строкам на части, используя сначала инструменты gnu, а затем glob-filemask их все, чтобы найти и прочитать их параллельно в программе python. Обычно я использую около 1000+ частичных файлов. Выполнение этих трюков очень помогает с ограничениями скорости обработки и памяти.

pandas dataframe.read_csv является однопоточным, поэтому вы можете использовать эти трюки, чтобы сделать pandas намного быстрее, запустив map () для параллельного выполнения. Вы можете использовать htop, чтобы увидеть, что с обычным старым последовательным pandas dataframe.read_csv, 100% процессор только на одном ядре является фактическим узким местом в pd.read_csv, а не диск вообще.

Я должен добавить, что использую SSD на шине быстрой видеокарты, а не вращающийся HD на шине SATA6, плюс 16 ядер процессора.

Кроме того, еще один метод, который, как я обнаружил, отлично работает в некоторых приложениях, — это параллельное чтение CSV-файла в одном гигантском файле, запуск каждого рабочего с разным смещением в файле, а не предварительное разбиение одного большого файла на несколько файлов частей.Используйте python file seek () и tell () в каждом параллельном работнике, чтобы читать большой текстовый файл полосами, в разных местах начального и конечного байта смещения байта в большом файле, все одновременно и одновременно. Вы можете выполнить регулярное выражение findall для байтов и вернуть количество переводов строки. Это частичная сумма. Наконец, просуммируйте частичные суммы, чтобы получить глобальную сумму, когда функция карты вернется после того, как рабочие закончили.

Ниже приведены некоторые примеры тестов, использующих трюк с параллельным смещением байтов:

Использую 2 файла: HIGGS.csv составляет 8 ГБ. Это из репозитория машинного обучения UCI. all_bin .csv составляет 40,4 ГБ и принадлежит моему текущему проекту. Я использую 2 программы: программу GNU wc, которая поставляется с Linux, и программу на чистом python fastread.py, которую я разработал.

  HP-Z820: / mnt / fastssd / fast_file_reader $ ls -l /mnt/fastssd/nzv/HIGGS.csv
-rw-rw-r-- 1 8035497980 24 января 16:00 /mnt/fastssd/nzv/HIGGS.csv

HP-Z820: / mnt / fastssd $ ls -l all_bin.csv
-rw-rw-r-- 1 40412077758 2 февраля 09:00 all_bin.csv

ga @ ga-HP-Z820: / mnt / fastssd $ time python fastread.py --fileName = "all_bin.csv" --numProcesses = 32 --balanceFactor = 2
2367496

реальный 0m8.920s
пользователь 1m30.056s
sys 2m38.744s

В [1]: 40412077758. / 8.92
Выход [1]: 4530501990.807175
  

Это около 4,5 ГБ / с, или 45 ГБ / с, скорости передачи файлов. Это не вращающийся жесткий диск, мой друг. На самом деле это SSD Samsung Pro 950.

Ниже приведен тест скорости для того же файла, который подсчитывается с помощью gnu wc, программы, скомпилированной на чистом языке C.

Что круто, так это то, что моя программа на чистом python в этом случае практически соответствует скорости скомпилированной программы C на gnu wc.Python интерпретируется, но C скомпилирован, так что это довольно интересный подвиг скорости, я думаю, вы согласитесь. Конечно, wc действительно нужно преобразовать в параллельную программу, и тогда она действительно выбьет из моей программы на Python носки. Но в нынешнем виде gnu wc — это просто последовательная программа. Вы делаете то, что можете, а python может делать параллели уже сегодня. Компиляция Cython может мне помочь (в другой раз). Также еще не были исследованы файлы с отображением памяти.

  HP-Z820: / mnt / fastssd $ time wc -l all_bin.csv
2367496 all_bin.csv

реальный 0m8,807s
пользователь 0m1.168s
sys 0m7.636s


HP-Z820: / mnt / fastssd / fast_file_reader $ time python fastread.py --fileName = "HIGGS.csv" --numProcesses = 16 --balanceFactor = 2
11000000

реальный 0m2,257s
пользователь 0m12.088s
sys 0m20.512s

HP-Z820: / mnt / fastssd / fast_file_reader $ time wc -l HIGGS.csv
11000000 HIGGS.csv

реальный 0 мин. 1,820 сек.
пользователь 0m0.364s
sys 0m1.456s
  

Заключение. Скорость работы программы на чистом питоне выше, чем у программы на языке C. Однако этого недостаточно, чтобы использовать чистую программу Python поверх программы C, по крайней мере, для целей подсчета строк.Как правило, этот метод можно использовать для другой обработки файлов, поэтому этот код Python все еще хорош.

Вопрос: Увеличивает ли скорость однократная компиляция регулярного выражения и его передача всем рабочим? Ответ: Предварительная компиляция Regex НЕ помогает в этом приложении. Я полагаю, причина в том, что накладные расходы на сериализацию и создание процессов для всех рабочих являются доминирующими.

Еще одно. Помогает ли параллельное чтение файла CSV? Узким местом является диск или процессор? Многие так называемые популярные ответы на stackoverflow содержат распространенную мудрость разработчиков о том, что вам нужен только один поток для чтения файла, как они говорят.Но уверены ли они?

Давайте узнаем:

  HP-Z820: / mnt / fastssd / fast_file_reader $ time python fastread.py --fileName = "HIGGS.csv" --numProcesses = 16 --balanceFactor = 2
11000000

реальный 0m2.256s
пользователь 0m10.696s
sys 0m19.952s

HP-Z820: / mnt / fastssd / fast_file_reader $ time python fastread.py --fileName = "HIGGS.csv" --numProcesses = 1 --balanceFactor = 1
11000000

реальный 0 мин. 17,380 сек.
пользователь 0m11.124s
sys 0m6.272s
  

О, да, это так. Параллельное чтение файлов работает неплохо.Ну вот и все!

Пс. В случае, если некоторые из вас хотели знать, что, если бы balanceFactor был равен 2 при использовании одного рабочего процесса? Что ж, это ужасно:

  HP-Z820: / mnt / fastssd / fast_file_reader $ time python fastread.py --fileName = "HIGGS.csv" --numProcesses = 1 --balanceFactor = 2
11000000

реальный 1 мин. 37.077 с.
пользователь 0m12.432s
sys 1m24.700s
  

Ключевые части программы Python fastread.py:

  fileBytes = stat (fileName) .st_size # Быстро считывать из ОС, сколько байтов находится в текстовом файле
startByte, endByte = PartitionDataToWorkers (рабочие = numProcesses, items = fileBytes, balanceFactor = balanceFactor)
p = Пул (число процессов)
partialSum = p.starmap (ReadFileSegment, zip (startByte, endByte, repeat (fileName))) # startByte уже является списком. fileName превращается в список одинаковых значений одинаковой длины.
globalSum = сумма (partialSum)
печать (globalSum)


def ReadFileSegment (startByte, endByte, fileName, searchChar = '\ n'): # подсчитывает количество searchChar, появляющихся в диапазоне байтов
    с open (fileName, 'r') как f:
        f.seek (startByte-1) # seek изначально находится в байте 0, а затем перемещается вперед на указанное количество, поэтому seek (5) указывает на 6-й байт.байты = f.read (endByte - startByte + 1)
        cnt = len (re.findall (searchChar, bytes)) # findall с неявной компиляцией выполняется здесь так же быстро, как и re.compile once + re.finditer много раз.
    вернуть cnt
  

Def для PartitionDataToWorkers — это обычный последовательный код. Я оставил это на случай, если кто-то еще захочет попрактиковаться в параллельном программировании. Я раздал бесплатно самые сложные части: проверенный и работающий параллельный код для вашего обучения.

Благодарность: проекту h3O с открытым исходным кодом, исполненному Арно и Клиффом и сотрудниками h3O за их отличное программное обеспечение и обучающие видео, которые послужили мне вдохновением для создания этого высокопроизводительного параллельного считывателя байтов смещения на чистом питоне, как показано выше. h3O выполняет параллельное чтение файлов с использованием java, вызывается программами на Python и R и работает безумно быстро, быстрее, чем что-либо на планете, при чтении больших файлов CSV.

Построчное чтение файла на Python

Введение

Распространенной задачей в программировании является открытие файла и анализ его содержимого.Что вы делаете, если файл, который вы пытаетесь обработать, довольно большой, например, несколько ГБ данных или больше? Ответ на эту проблему — читать по частям файла за раз, обрабатывать его, а затем освобождать его из памяти, чтобы вы могли обработать другой фрагмент, пока не будет обработан весь массивный файл. Хотя вы сами определяете подходящий размер для фрагментов данных, которые вы обрабатываете, для многих приложений целесообразно обрабатывать файл по одной строке за раз.

В этой статье мы рассмотрим несколько примеров кода, демонстрирующих, как читать файлы построчно.Если вы хотите самостоятельно опробовать некоторые из этих примеров, код, использованный в этой статье, можно найти в следующем репозитории GitHub.

Базовый файловый ввод-вывод в Python

Python — отличный язык программирования общего назначения, который имеет ряд очень полезных функций ввода-вывода файлов в своей стандартной библиотеке встроенных функций и модулей.

Встроенная функция open () — это то, что вы используете для открытия файлового объекта для чтения или записи. Вот как вы можете использовать его для открытия файла:

  fp = open ('путь / к / файлу.txt ',' r ')
  

Как показано выше, функция open () принимает несколько аргументов. Мы сосредоточимся на двух аргументах, первый из которых является позиционным строковым параметром, представляющим путь к файлу, который вы хотите открыть. Второй (необязательный) параметр также является строкой и определяет режим взаимодействия, который вы собираетесь использовать с файловым объектом, возвращаемым вызовом функции. Наиболее распространенные режимы перечислены в таблице ниже, значение по умолчанию — r для чтения:

Режим Описание
r Открыт для чтения обычного текста
w Открыто для ввода обычного текста
а Открыть существующий файл для добавления простого текста
руб Открыть для чтения двоичных данных
ВБ Открыть для записи двоичных данных

После того, как вы записали или прочитали все требуемые данные в файловом объекте, вам необходимо закрыть файл, чтобы можно было перераспределить ресурсы в операционной системе, в которой выполняется код.

  фп. Закрыть ()
  

Примечание: Всегда полезно закрыть ресурс файлового объекта, но об этой задаче легко забыть.

Хотя вы всегда можете не забыть вызвать close () для файлового объекта, существует альтернативный и более элегантный способ открыть файловый объект и гарантировать, что интерпретатор Python очистится после его использования:

  с open ('path / to / file.txt') как fp:
    
  

Просто используя с ключевым словом (введено в Python 2.5) с кодом, который мы используем для открытия файлового объекта, Python сделает что-то похожее на следующий код. Это гарантирует, что независимо от того, какой файловый объект будет закрыт после использования:

  попробовать:
    fp = open ('путь / к / file.txt')
    
наконец:
    fp.close ()
  

Подходит любой из этих двух методов, причем первый пример более Pythonic.

Файловый объект, возвращаемый функцией open () , имеет три общих явных метода ( read () , readline () и readlines () ) для чтения данных.Метод read () считывает все данные в одну строку. Это полезно для файлов меньшего размера, когда вы хотите выполнять манипуляции с текстом для всего файла. Затем есть readline () , который является полезным способом чтения только отдельных строк, в инкрементальных количествах за раз и возврата их в виде строк. Последний явный метод readlines () будет читать все строки файла и возвращать их в виде списка строк.

Примечание : В оставшейся части этой статьи мы будем работать с текстом книги «Илиада Гомера», которую можно найти на сайте Gutenberg.org, а также в репозитории GitHub, где находится код для этой статьи.

Построчное чтение файла в Python с помощью строки чтения

()

Начнем с метода readline () , который считывает одну строку, что потребует от нас использования счетчика и увеличения его:

  filepath = 'Iliad.txt'
с открытым (путь к файлу) как fp:
   линия = fp.readline ()
   cnt = 1
   а строка:
       print ("Строка {}: {}". формат (cnt, line.strip ()))
       линия = fp.readline ()
       cnt + = 1
  

Этот фрагмент кода открывает файловый объект, ссылка на который хранится в fp , затем читает по одной строке, вызывая readline () для этого файлового объекта итеративно в цикле while . Затем он просто выводит строку на консоль.

Запустив этот код, вы должны увидеть что-то вроде следующего:

  ...
Строка 567: крайне пустяк. У нас нет оставшейся надписи раньше, чем
Строка 568: сороковая Олимпиада, и первые надписи грубые и неумелые.
Строка 569: выполнено; мы даже не можем убедиться, что Архилох, Симонид
Строка 570: Аморга, Каллина, Тиртея, Ксанфа и других ранних элегических и
Строка 571: лирические поэты, написавшие свои сочинения, или в какое время
Строка 572: практика стала привычной.Первая положительная земля, которая
Строка 573: позволяет нам предположить существование рукописи Гомера, находится в
Строка 574: знаменитое постановление Солона о рапсодиях в
Строка 575: Панафинея: но в течение какого времени ранее рукописи имели
Строка 576: существовала, мы не можем сказать.
...
  

Хотя этот подход грубый, и явный. Определенно не очень питонический. Мы можем использовать метод readlines () , чтобы сделать этот код более лаконичным.

Построчное чтение файла с

строкой чтения ()

Метод readlines () считывает все строки и сохраняет их в списке List . Затем мы можем перебрать этот список и, используя enumerate () , создать индекс для каждой строки для нашего удобства:

  файл = открытый ('Iliad.txt', 'r')
lines = file.readlines ()

для индекса строка в перечислении (строки):
    print ("Строка {}: {}". format (index, line.strip ()))
    
file.close ()
  

Результат:

Ознакомьтесь с нашим практическим практическим руководством по изучению Git с передовыми практиками, общепринятыми стандартами и включенной шпаргалкой.Прекратите гуглить команды Git и фактически выучите его!

  ...
Строка 160: ВВЕДЕНИЕ.
Строка 161:
Строка 162:
Строка 163: Скептицизм в такой же степени результат знания, как и знание
Строка 164: скептицизм. Довольствоваться тем, что мы знаем в настоящее время, - это, по большей части,
Строка 165: часть, чтобы заткнуть уши от осуждения; так как, начиная с очень постепенного
Строка 166: характер нашего образования, который мы должны постоянно забывать и эмансипировать.
Строка 167: мы сами, знания, полученные ранее; мы должны отложить старую
Строка 168: идеи и новые идеи; и, как мы узнаем, мы должны ежедневно
Строка 169: отучиться чему-то, что стоило нам немалых усилий и беспокойства.
Строка 170: приобретение....
  

Теперь, хотя это намного лучше, нам даже не нужно вызывать метод readlines () для достижения этой той же функциональности . Это традиционный способ чтения файла построчно, но есть более современный, более короткий.

Построчное чтение файла с помощью цикла

для цикла — наиболее питонический подход

Возвращенный Файл сам по себе является повторяемым. Нам вообще не нужно извлекать строки через readlines () — мы можем перебирать сам возвращаемый объект.Это также упрощает enumerate () , чтобы мы могли записывать номер строки в каждый оператор print () .

Это самый короткий, наиболее питонический подход к решению проблемы, и подход, одобренный большинством:

  с открытым ('Iliad.txt') как f:
    для индекса строка в enumerate (f):
        print ("Строка {}: {}". format (index, line.strip ()))
  

Результат:

  ...
Строка 277: Ментес из Лейкадии, современной Санта-Мауры, проявивший свои знания и умения.
Строка 278: редко встречающийся в те времена интеллект убедил Мелезигена закрыть
Строка 279: его школа и сопровождать его в путешествиях.Он обещал не только заплатить
Строка 280: его расходы, но чтобы предоставить ему дополнительную стипендию, настаивая на том, чтобы
Строка 281: «В то время как он был еще молод, он должен был видеть своими собственными глазами.
Строка 282: глаза на страны и города, которые в будущем могут стать подданными его
Строка 283: беседы ". Мелезиген согласился и отправился со своим покровителем,
Строка 284: "изучение всех диковинок стран, которые они посетили, и
...
  

Здесь мы пользуемся преимуществами встроенных функций Python, которые позволяют нам без усилий выполнять итерацию по итерируемому объекту, просто используя цикл for .Если вы хотите узнать больше о встроенных функциях Python для итерации объектов, мы вам поможем:

Приложения для построчного чтения файлов

Как это можно использовать на практике? Большинство приложений НЛП работают с большими массивами данных. В большинстве случаев нецелесообразно зачитывать все корпуса в память. Хотя это элементарно, вы можете написать с нуля решение для подсчета частоты определенных слов без использования каких-либо внешних библиотек. Давайте напишем простой скрипт, который загружается в файл, читает его построчно и подсчитывает частоту слов, выводит 10 наиболее часто встречающихся слов и количество их вхождений:

  импортная система
импорт ОС

def main ():
   путь к файлу = sys.argv [1]
   если не os.path.isfile (путь к файлу):
       print ("Путь к файлу {} не существует. Выход из ...". формат (путь к файлу))
       sys.exit ()
  
   bag_of_words = {}
   с открытым (путь к файлу) как fp:
       для строки в fp:
           record_word_cnt (line.strip (). split (''), bag_of_words)
   sorted_words = order_bag_of_words (bag_of_words, desc = True)
   print ("10 наиболее часто встречающихся слов {}". формат (sorted_words [: 10]))
  
def order_bag_of_words (bag_of_words, desc = False):
   words = [(word, cnt) вместо слова, cnt в bag_of_words.Предметы()]
   вернуть отсортированный (слова, ключ = лямбда x: x [1], обратный = по убыванию)

def record_word_cnt (слова, bag_of_words):
    словом в словах:
        если слово! = '':
            если word.lower () в bag_of_words:
                bag_of_words [word.lower ()] + = 1
            еще:
                bag_of_words [word.lower ()] = 1

если __name__ == '__main__':
    главный()
  

Сценарий использует модуль os , чтобы убедиться, что файл, который мы пытаемся прочитать, действительно существует. Если это так, его построчное чтение и каждая строка передается в функцию record_word_cnt () .Он разделяет пробелы между словами и добавляет слово в словарь — bag_of_words . После того, как все строки записаны в словарь, мы упорядочиваем их через order_bag_of_words () , который возвращает список кортежей в формате (word, word_count) , отсортированный по количеству слов.

Напоследок печатаем десятку самых употребительных слов.

Обычно для этого вы создаете Bag of Words Model , используя такие библиотеки, как NLTK, хотя и этой реализации будет достаточно.Запустим скрипт и передадим ему наш Iliad.txt :

  $ python app.py Iliad.txt
  

Результат:

  Наиболее часто встречающиеся 10 слов [('the', 15633), ('and', 6959), ('of', 5237), ('to', 4449), ('his', 3440), ('in ', 3158), (' с ', 2445), (' а ', 2297), (' он ', 1635), (' от ', 1418)]
  

Если вы хотите узнать больше о НЛП, у нас есть серия руководств по различным задачам: Обработка естественного языка в Python.

Заключение

В этой статье мы исследовали несколько способов построчного чтения файла в Python, а также создали элементарную модель Bag of Words для вычисления частоты слов в заданном файле.

Как читать файл в Python

Вы уже видели различные типы держателей данных: целые числа, строки, списки. Но до сих пор мы не обсуждали, как читать или писать файлы.

Связанный курс:
Учебный курс по программированию на Python: перейти от нуля к герою

Прочитать файл

Язык программирования Python предоставляет возможность работы с файлами с помощью open () .

Программирование на Python обрабатывает некоторые файлы как текстовые файлы, в которых строки разделяются символами новой строки \ n .Вы можете открывать обычные файлы с параметром r .

Другие файлы считаются двоичными и могут обрабатываться аналогично языку программирования C. Их нужно открывать с параметрами руб .

читать файл в строку

Это пример программы, которая показывает, как читать данные из файла.

Файл должен находиться в том же каталоге, что и программа, в противном случае вам нужно указать путь.

Создать скрипт Python.Откройте редактор по вашему выбору и создайте новый скрипт Python. Затем вставьте следующий код.

 f = open ("file.txt", "r") 
lines = f.readlines ()
print (lines)

Метод чтения readlines () считывает все содержимое файл в строку.

Сохраните файл с именем example.py и запустите его.

читать файл построчно

Для построчного вывода вы можете использовать цикл for. Строки могут содержать символ новой строки \ n , поэтому вы можете выводить, используя endl = "" .

 f = open ("filename.txt", "r") 
lines = f.readlines ()

для строки в строках:
print (line, end = "")

Другой вариант — удалить символы новой строки с помощью метода replace ().

 f = open ("test.py", "r") 
lines = f.readlines ()

для строки в строках:
line = line.replace ("\ n", "")
print (строка)

файл чтения с ключевым словом

Ключевое слово with также может использоваться для чтения файлов.Это автоматически закроет ваш файл.

 


filename = "bestand.py"



с open (filename) как f:
content = f.readlines ()




для строки в содержимом:
print (line),

Первая часть кода будет читать содержимое файла. Все прочитанные строки будут сохранены в переменной content. Вторая часть будет перебирать каждую строку в содержимом переменной.

Если вы не хотите читать символы новой строки ‘\ n’, вы можете изменить оператор f.readlines () на это:

 content = f.read (). Splitlines () 

Результат в этом коде:

 


filename = "bestand.py"



с open (filename) как f:
content = f.read (). Splitlines ()




для строки в содержимом:
print (строка)

Хотя приведенные выше коды работают, мы всегда должны проверять, существует ли файл, который мы хотим открыть.Сначала мы проверим, если файл не существует, если он существует, он прочитает файл, иначе вернет ошибку. Как в коде ниже:

 
import os.path


filename = "bestand.py"

if not os.path.isfile (filename):
print ('File is not exists.')
else:


with open (filename) как f:
content = f.read (). splitlines ()




для строки в содержимом:
print (line)

Если вы новичок в программировании на Python, я очень рекомендую эту книгу.

Скачать упражнения Python

Python для чтения и записи в файлы: узнайте, как открывать, загружать, читать и сохранять данные и двоичные файлы в Python

Как специалист по данным, вы ежедневно обрабатываете большое количество данных. И эти данные могут быть из разных источников, таких как базы данных, от Excel до плоских файлов, с общедоступных веб-сайтов, таких как kaggle. Не только источники, это может быть файл любого формата, например .csv , .txt , .parquet и т. Д. Прежде чем вы начнете разбираться в данных, вам необходимо знать три основные вещи: как открывать , читать и записывать данные в плоские файлы, чтобы затем можно было выполнять их анализ.

В этом руководстве вы также узнаете о следующих темах:

  • Объект файла Python
  • Как открыть простой плоский файл, например .csv , json и т. Д. И прочитать данные из файла
  • Записать данные в файл
  • Вы также увидите некоторые атрибуты файлового объекта Python
  • Вы также можете покопаться в модуле ОС Python
  • Вы также узнаете о библиотеке NumPy и о том, как ее можно использовать для импорта наборов данных Image

Во-первых, давайте поймем разницу между плоскими файлами и не плоскими файлами.

Плоские файлы и не плоские файлы

Плоские файлы — это файлы данных, которые содержат записи без структурированных отношений между записями, а также нет структуры для индексации, как это обычно бывает в реляционных базах данных. Эти файлы могут содержать только базовое форматирование, иметь небольшое фиксированное количество полей и могут иметь или не иметь формат файла.

Источник

Хотя как в плоских, так и в неплоских файлах, данные обычно представлены в виде табличных строк и столбцов.

Не плоский файл — это файл, в котором каждой записи присваивается индекс.Точное местоположение записи можно узнать по индексу этой записи. Обычно для чтения этого типа файла вам потребуются некоторые приложения, например система управления базами данных.

XML — это пример не плоского файла .

Плоский файл может быть простым текстовым файлом, имеющим формат TSV , CSV или двоичный формат файла. В первом случае файлы обычно содержат по одной записи в строке:

  • Файлы значений, разделенных запятыми (CSV), которые содержат значения данных, разделенные символами , , например:
      ИМЯ, АДРЕС, ЭЛЕКТРОННАЯ ПОЧТА
    ABC, CITY A, [адрес электронной почты защищен]
    LMN, CITY B, [адрес электронной почты защищен]
    PQR, CITY C, [адрес электронной почты защищен]
      
  • Файлы с разделителями, которые содержат значения данных с указанным пользователем разделителем.Это может быть вкладка \ t или символ ( # , & , || ), например:
      ИМЯ || АДРЕС || ЭЛЕКТРОННАЯ ПОЧТА
    ABC || CITY A || [адрес электронной почты защищен]
    LMN || CITY B || [адрес электронной почты защищен]
    PQR || CITY C || [адрес электронной почты защищен]
      
    Давайте теперь разберемся, как Python создает и читает эти типы файловых форматов, имеющих определенные разделители.

Объекты файла Python

Python имеет встроенные функции для создания, чтения, записи и управления доступными файлами.Модуль io является модулем по умолчанию для доступа к файлам, которые можно использовать в готовом виде, даже не импортируя их. Перед тем как читать, писать или управлять файлом, вам необходимо использовать модуль open (filename, access_mode) , который возвращает объект файла с именем «handle». После этого вы можете просто использовать этот дескриптор для чтения или записи в файл. Как и все остальное, файлы в Python также рассматриваются как объект, который имеет свои собственные атрибуты и методы.

Исключение IOError возникает, если при открытии файла операция не выполняется.Это может быть связано с различными причинами, такими как попытка прочитать файл, открытый в режиме записи, или доступ к уже закрытому файлу.

Как вы уже читали ранее, есть два типа плоских файлов, текстовые и двоичные файлы:

  • Как и следовало ожидать, прочитав предыдущий раздел, текстовые файлы имеют символ конца строки (EOL), обозначающий завершение каждой строки. В Python символ новой строки ( \ n ) является ограничителем конца строки по умолчанию.

  • Поскольку двоичные файлы хранят данные после их преобразования в двоичный язык (0 и 1), символ EOL отсутствует.Этот тип файла возвращает байты. Этот файл используется при работе с нетекстовыми файлами, такими как изображения, .exe, или .pyc, .

Давайте теперь подробно разберемся с файловыми объектами Python вместе с необходимыми примерами.

Открыть ()

Встроенная функция Python open () имеет следующие аргументы: open (file, mode = 'r', buffering = -1, encoding = None, errors = None, newline = None, closefd = True, opener = None) Функция open () имеет почти 8 параметров вместе со значениями по умолчанию для каждого аргумента, как показано выше.

Сейчас вы сосредоточитесь на первом и втором параметрах, которые необходимы для чтения и записи файлов. И проходите по другим параметрам один за другим в процессе обучения.

Давайте разберемся с первым аргументом, то есть файл .

файл

файл - это обязательный аргумент, который вы должны предоставить функции open , в то время как остальные аргументы являются необязательными и используют их значения по умолчанию.

Проще говоря, файл аргумент представляет путь, по которому ваш файл находится в вашей системе.

Если путь находится в текущем рабочем каталоге, вы можете просто указать имя файла. Если нет, то вы должны указать абсолютный путь к файлу, как в следующих примерах: my_file_handle = open ("mynewtextfile.txt") Если файл находится в каталоге, отличном от текущего каталога, вы должны указать абсолютный путь с именем файла:

  my_file_handle = open ("D: //test.txt")
my_file_handle.read ()
  
  "Добро пожаловать в учебник DataCamp по чтению и записи файлов на Python!"
  

Убедитесь, что имя файла и путь указаны правильно, иначе вы получите FileNotFoundError :

  my_file_handle = open ("папка / test.текст")
my_file_handle.read ()
  
  ------------------------------------------------ ---------------------------

FileNotFoundError Traceback (последний вызов последним)

 в 
----> 1 my_file_handle = open ("папка / test.txt")
      2 my_file_handle.read ()


FileNotFoundError: [Errno 2] Нет такого файла или каталога: 'folder / test.txt'
  
Обработка исключений в файлах

Вы можете поймать исключение с помощью блока try-finally:

  попробовать:
    my_file_handle = open ("папка / test.текст")
кроме IOError:
    print («Файл не найден или путь неверен»)
наконец:
    print ("выход")
  
  Файл не найден или неверный путь
выход
  

Давайте разберемся со вторым аргументом функции open , то есть режимами доступа .

Режимы доступа

Режимы доступа определяют, каким образом вы хотите открыть файл, хотите ли вы открыть файл в:

  • режим только для чтения
  • режим только записи
  • режим добавления
  • режим чтения и записи

Хотя существует множество режимов доступа, как показано в таблице ниже, наиболее часто используются режимы чтения и записи.Он указывает, где вы хотите начать чтение или запись в файле.

Для чтения файла используется 'r' , режим по умолчанию. В других случаях, когда вы хотите написать или добавить, вы используете 'w' или 'a' соответственно.

Есть, конечно, еще режимы доступа! Взгляните на следующую таблицу:

Как вы видели в первом разделе, есть два типа плоских файлов. Вот почему есть возможность указать, какой формат вы хотите открыть, например текстовый или двоичный.Конечно, по умолчанию используется первое. Когда вы добавляете 'b' в режимы доступа, вы можете читать файл в двоичном формате, а не в текстовом формате по умолчанию. Он используется, когда файл, к которому нужно получить доступ, не имеет текстового формата.

Чтение из файла

Давайте опробуем все методы чтения для чтения из файла, и вы также изучите режимы доступа вместе с ним! Есть три способа читать из файла.

  • читать ([n])
  • строка чтения ([n])
  • строки чтения ()

Здесь n - количество байтов для чтения.Если на n ничего не передается, считается, что прочитан весь файл.

Создайте файл, как показано ниже: 1-я линия 2-я линия 3-я линия 4-я линия 5-я линия Давайте разберемся, что делает каждый метод чтения:

  my_file = open ("test1.txt", "r")
печать (my_file.read ())
  
  1-я линия
2-я линия
3-я линия
4-я линия
5-я линия
  

Метод read () просто выводит весь файл, если количество байтов ( n ) не указано в аргументе.Если вы выполните my_file.read (3) , вы вернете первые три символа файла, как показано ниже:

  my_file = open ("test1.txt", "r")
печать (my_file.read (3))
  
  1-й
  

readline (n) выводит не более n байта одной строки файла. Он не читает больше одной строки.

  my_file.close ()
my_file = open ("test1.txt", "r")
# Используйте print для печати, иначе строка останется в буфере и будет заменена следующим оператором
печать (my_file.readline ())
# выводит первые два символа следующей строки
печать (my_file.readline (2))
  
  1-я линия

2n
  

Закрытие файлов Python с помощью close ()

Используйте метод close () с дескриптором файла, чтобы закрыть файл. Когда вы используете этот метод, вы очищаете весь буфер и закрываете файл.

  my_file.close ()
  

Вы можете использовать цикл для для чтения файла построчно:

  my_file = open ("test1.txt "," r ")
# Используйте print для печати, иначе строка останется в буфере и будет заменена следующим оператором
для строки в my_file:
    печать (строка)
my_file.close ()
  
  1-я линия

2-я линия

3-я линия

4-я линия

5-я линия
  

Метод readlines () поддерживает список каждой строки в файле, который можно повторять с помощью цикла for:

  my_file = open ("test1.txt", "r")
my_file.readlines ()
  
  ['1-я строка \ n', '2-я строка \ n', '3-я строка \ n', '4-я строка \ n', '5-я строка']
  

Запись в файл

Для записи в файл на Python можно использовать три метода:

  • запись (строка) (для текста) или запись (byte_string) (для двоичного кода)
  • письма (список)

Создадим новый файл.Следующее создаст новый файл в указанной папке, поскольку он не существует. Не забудьте указать , чтобы указать правильный путь с правильным именем файла; в противном случае вы получите ошибку:

Создайте файл блокнота и напишите в нем текст. Обязательно сохраните файл как .txt и сохраните его в рабочем каталоге Python.

  new_file = open ("newfile.txt", mode = "w", encoding = "utf-8")
  
  new_file.write («Запись в новый файл \ n»)
новый файл.write ("Запись в новый файл \ n")
new_file.write ("Запись в новый файл \ n")
new_file.close ()
  
Режим добавления

Теперь давайте запишем в этот файл список с режимом a + :

  fruit = ["Апельсин \ n", "Банан \ n", "Яблоко \ n"]
new_file = open ("newfile.txt", mode = "a +", encoding = "utf-8")
new_file.writelines (фрукты)
для строки в new_file:
    печать (строка)
new_file.close ()
  
Метод поиска

Обратите внимание, что чтение из файла ничего не выводит, потому что курсор файла находится в конце файла.Чтобы установить курсор в начало, вы можете использовать метод seek () файлового объекта:

  cars = ["Audi \ n", "Bentley \ n", "Toyota \ n"]
new_file = open ("newfile.txt", mode = "a +", encoding = "utf-8")
для машины в авто:
    new_file.write (автомобиль)
print ("Сообщите байт, в котором находится курсор файла:", new_file.tell ())
новый_файл.seek (0)
для строки в new_file:
    печать (строка)
  
  Укажите байт, в котором находится курсор файла: 115
Запись в новый файл

Запись в новый файл

Запись в новый файл

апельсин

Банан

яблоко

Audi

Bentley

Тойота
  

Метод tell () файлового объекта сообщает, в каком байте находится файловый курсор.В поиске (смещение, контрольная_точка) опорными точками являются 0 (начало файла, значение по умолчанию), 1 (текущая позиция файла) и 2 (конец файла). ).

Давайте попробуем передать другую контрольную точку и смещение и посмотрим на результат:

  новый_файл.seek (4,0)
печать (новый_файл.readline ())
new_file.close ()
  
  ing в новый файл
  
следующий Метод

Остался только метод next () , так что давайте завершим этот раздел руководства! Здесь вы используете тот же файл, созданный выше, с именем test1.txt .

Конечные относительные поиски, такие как seek (-2,2) , не разрешены, если файловый режим не включает 'b' , который указывает двоичный формат. Только прямые операции, такие как seek (0,2) , разрешены, когда файловый объект обрабатывается как текстовый файл.

  файл = открытый ("test1.txt", "r")
для индекса в диапазоне (5):
    строка = следующий (файл)
    печать (строка)
file.close ()
  
  1-я линия

2-я линия

3-я линия

4-я линия

5-я линия
  

Примечание : метод write () записывает данные не в файл, а в буфер, но только тогда, когда вызывается метод close () .Последний метод очищает буфер и записывает содержимое в файл. Если вы не хотите закрывать файл, используйте метод fileObject.flush () для очистки буфера и обратной записи в файл.

Импорт романа Моби Дика

«Моби Дик» - это роман американского писателя Германа Мелвилла 1851 года. Вы будете работать с файлом moby_dick.txt. Это текстовый файл, содержащий вступительные предложения Моби Дика, одного из великих американских романов! Здесь вы получите опыт открытия текстового файла, печати его содержимого и, наконец, его закрытия.

Вы можете скачать текстовый файл moby dick отсюда / _datasets / moby_dick.txt).

Вы будете делать следующее:

  • Откройте файл moby_dick.txt в режиме только для чтения и сохраните его в файле переменных

  • Распечатать содержимое файла

  • Проверить, закрыт ли файл

  • Закройте файл с помощью метода close ()

  • Проверить еще раз, закрыт ли файл

  # Открыть файл: file
file = open ('moby_dick.txt ',' r ')

# Распечатать
печать (file.read ())
печать ('\ п')
# Проверяем, закрыт ли файл
print ('Файл закрыт ?:', file.closed)

# Закрыть файл
file.close ()
печать ('\ п')
# Проверяем, закрыт ли файл
print ('Файл закрыт ?:', file.closed)
  
  ГЛАВА 1. Ткацкие станки.

Зовите меня Измаил. Несколько лет назад - неважно, как долго - имея в кошельке мало или совсем не имея денег и не имея ничего особенного, что могло бы меня интересовать на берегу, я подумал, что немного поплыву и посмотрю на водную часть реки.
мир.Это способ оттолкнуть селезенку и отрегулировать кровообращение. Всякий раз, когда я чувствую, что у меня все мрачнее из-за рта; всякий раз, когда в моей душе сырой, моросящий ноябрь; всякий раз, когда я обнаруживаю, что непроизвольно останавливаюсь перед складами гробов и возвращаюсь к концу каждых встреченных мною похорон; и особенно всякий раз, когда мои гипо
такое превосходство с моей стороны, что требуется твердый моральный принцип, чтобы помешать мне сознательно выйти на улицу и методично сбивать с людей шляпы - в таком случае, я считаю, что пора выйти в море как можно скорее.Это мой заменитель пистолета и мяча. С философским размахом Катон бросается на свой меч; Я тихо
взять на корабль. В этом нет ничего удивительного. Если бы они только знали это, почти все люди в той или иной степени в то или иное время испытывали почти те же чувства к океану, что и я.


Файл закрыт ?: Неверно


Файл закрыт ?: Верно
  
Чтение романа Моби Дика с помощью диспетчера контекста

Вы можете связать файловый объект с помощью конструкции диспетчера контекста, и вам не нужно беспокоиться о закрытии файла.К файлу нельзя получить доступ за пределами диспетчера контекста, и он считается закрытым.

Давайте напечатаем первые три строки текстового файла moby dick, используя метод readline () . Обратите внимание, что файл по умолчанию открывается в режиме чтения .

  с открытым ('moby_dick.txt') как файл:
    печать (file.readline ())
    печать (file.readline ())
    печать (file.readline ())
  
  ГЛАВА 1. Ткацкие станки.



Зовите меня Измаил. Несколько лет назад - неважно, сколько именно - имея
  
Запись в файл JSON

Вы также можете записать свои данные на .json файлов.

Помните: Javascript Object Notation (JSON) стал популярным методом обмена структурированной информацией по сети и обмена информацией между платформами. По сути, это текст с некоторой структурой, и сохранение его как . Json сообщает, как читать структуру; в противном случае это просто текстовый файл. Он хранит данные в виде пар ключ: значение. Структура может быть простой или сложной.

Взгляните на следующий простой JSON для стран и их столиц:

  {
«Алжир»: «Алжир»,
«Андорра»: «Андорра-ла-Велья»,
«Непал»: «Катманду»,
«Нидерланды»: «Амстердам»,
}
  

Поскольку JSON состоит из массива пар ключ: значение , как показано в ячейке кода ниже, все, что до : называется ключом, а после : называется значением.Это очень похоже на словари Python, не так ли! Вы можете видеть, что данные разделены , и что фигурные скобки определяют объекты. Квадратные скобки используются для определения массивов в более сложных файлах JSON, как вы можете видеть в следующем отрывке:

  {
  "цвета": [
    {
      "черный цвет",
      «категория»: «оттенок»,
      "тип": "первичный",
      "code": {
        "rgba": [255,255,255,1],
        "шестнадцатеричный": "# 000"
      }
    },
    {
      "цвет белый",
      "категория": "значение",
      "code": {
        "rgba": [0,0,0,1],
        "шестнадцатеричный": "#FFF"
      }
    },
    {
      "красный цвет",
      "категория": "оттенок",
      "тип": "первичный",
      "code": {
        "rgba": [255,0,0,1],
        "шестнадцатеричный": "# FF0"
      }
    },
    {
      "цвет синий",
      "категория": "оттенок",
      "тип": "первичный",
      "code": {
        "rgba": [0,0,255,1],
        "шестнадцатеричный": "# 00F"
      }
    },
    {
      «цвет»: «желтый»,
      «категория»: «оттенок»,
      "тип": "первичный",
      "code": {
        "rgba": [255,255,0,1],
        "шестнадцатеричный": "# FF0"
      }
    },
    {
      "цвет": "зеленый",
      «категория»: «оттенок»,
      "тип": "вторичный",
      "code": {
        "rgba": [0,255,0,1],
        "шестнадцатеричный": "# 0F0"
      }
    },
  ]
}
  

Обратите внимание, что файлы JSON также могут содержать разные типы данных в одном объекте!

Когда вы читаете файл с помощью read () , вы читаете строки из файла.Это означает, что когда вы читаете числа, вам нужно будет преобразовать их в целые числа с помощью функций преобразования типов данных, таких как int () . Для более сложных случаев использования вы всегда можете использовать модуль JSON .

Если у вас есть объект размером x , вы можете просмотреть его строковое представление JSON с помощью простой строки кода:

  # Импорт модуля json
импортировать json
my_data = ["Чтение и запись файлов на python", 78546]
json.dumps (my_data)
  
  '["Чтение и запись файлов на python", 78546]'
  

Чтобы записать JSON в файл, вы можете использовать .dump () метод:

  с открытым ("jsonfile.json", "w") как f:
    json.dump (my_data, f)
f.close ()
  

Примечание. Рекомендуется использовать метод with-open для открытия файла, поскольку он закрывает файл должным образом, если по пути возникает какое-либо исключение.

Давайте теперь откроем файл JSON , который вы создали с помощью метода dump . Если файл JSON открыт для чтения, вы можете декодировать его с помощью load (file) следующим образом:

  с открытым ("jsonfile.json "," r ") как f:
    jsondata = json.load (е)
    печать (jsondata)
f.close ()
  
  ['Чтение и запись файлов в python', 78546]
  

Аналогичным образом, более сложные словари могут быть сохранены с помощью модуля JSON . Вы можете найти больше информации здесь.

Теперь вы увидите некоторые другие параметры метода open () , которые вы уже видели в предыдущих разделах. Начнем с буферизации .

Буферизация

Буфер хранит фрагмент данных из файлового потока операционной системы до тех пор, пока он не будет использован, после чего поступят дополнительные данные, что похоже на буферизацию видео.

Буферизация полезна, когда вы не знаете размер файла, с которым работаете, если размер файла больше, чем память компьютера, то процессор не будет работать должным образом. Размер буфера указывает, сколько данных может храниться одновременно, пока оно не будет использовано. io.DEFAULT_BUFFER_SIZE может указать размер буфера по умолчанию для вашей платформы.

При желании вы можете передать целое число в , буферизуя , чтобы установить политику буферизации:

  • 0 для отключения буферизации (разрешено только в двоичном режиме)
  • 1 для выбора буферизации строки (используется только в текстовом режиме)
  • Любое целое число больше 1 для обозначения размера в байтах буфера фрагментов фиксированного размера
  • Используйте отрицательные значения, чтобы задать для политики буферизации системную политику по умолчанию

Если политика не указана, используется значение по умолчанию:

.
  • Двоичные файлы буферизуются фрагментами фиксированного размера
  • Размер буфера выбирается в зависимости от «размера блока» нижележащего устройства.Во многих системах размер буфера обычно составляет 4096 или 8192 байта.
  • «Интерактивные» текстовые файлы (файлы, для которых isatty () возвращает True ) используют буферизацию строк. Другие текстовые файлы используют политику, описанную выше для двоичных файлов. Обратите внимание, что isatty () можно использовать, чтобы узнать, подключены ли вы к устройству Tele-TYpewriter (-like).
  импорт io
print ("Размер буфера по умолчанию:", io.DEFAULT_BUFFER_SIZE)
file = open ("test1.txt", mode = "r", buffering = 5)
распечатать файл.line_buffering)
file_contents = file.buffer
для строки в file_contents:
    печать (строка)
  
  Размер буфера по умолчанию: 8192
Ложь
b'1-я строка \ r \ n '
b'2-я строка \ r \ n '
b'3-я строка \ r \ n '
b'4-я строка \ r \ n '
b'5-я линия '
  

Обратите внимание на , что если вы используете все аргументы в порядке, указанном в open (file, mode = 'r', buffering = -1, encoding = None, errors = None, newline = None, closefd = Верно, opener = None) , имя аргумента писать не нужно! Если вы пропускаете аргументы, потому что хотите сохранить значения по умолчанию, лучше записать все полностью.

Ошибки

Необязательная строка, указывающая, как должны обрабатываться ошибки кодирования и декодирования. Этот аргумент нельзя использовать в двоичном режиме. Доступны различные стандартные обработчики ошибок (перечислены в разделе «Обработчики ошибок»).

  file = open ("test1.txt", mode = "r", errors = "strict")
печать (file.read ())
file.close ()
  
  1-я линия
2-я линия
3-я линия
4-я линия
5-я линия
  

errors = "strict" вызывает ValueErrorException , если есть ошибка кодирования.

Новая строка

новая строка управляет тем, как работает универсальный режим новой строки (применяется только к текстовому режиму). Это может быть None, '', '\ n', '\ r' и '\ r \ n'. В приведенном выше примере вы видите, что передача None в перевод строки переводит '\ r \ n' в '\ n' .

  • Нет : включен универсальный режим новой строки. Строки ввода могут заканчиваться на '\ n', '\ r' или '\ r \ n', и они переводятся в разделитель строк по умолчанию

    .
  • "" : универсальный режим новой строки включен, но окончания строк возвращаются не переведенными

  • '\ n', '\ r', '\ r \ n' : строки ввода заканчиваются только данной строкой, а окончание строки не переводится.

Обратите внимание, что универсальные символы новой строки - это способ интерпретации текстовых потоков, в котором все следующее распознается как завершение строки: соглашение Unix о конце строки '\ n', соглашение Windows '\ r \ n' и старое соглашение Macintosh '\ r'.

Обратите внимание, что os.linesep возвращает системный разделитель строк по умолчанию:

  file = open ("test1.txt", mode = "r", newline = "")
file.read ()
  
  '1-я строка \ r \ n2-я строка \ r \ n3-я строка \ r \ n4-я строка \ r \ n5-я строка'
  
  файл = открытый ("test1.txt ", mode =" r ", newline = None)
file.read ()
  
  '1-я строка \ n2-я строка \ n3-я строка \ n4-я строка \ n5-я строка'
  
  file.close ()
  

Кодировка

Кодировка представляет собой кодировку символов, которая представляет собой систему кодирования, которая использует биты и байты для представления символа. Эта концепция часто возникает, когда вы говорите о хранении, передаче данных и вычислениях.

По умолчанию кодировка зависит от операционной системы для Microsoft Windows, в Linux это cp1252, но UTF-8.Поэтому при работе с текстовыми файлами рекомендуется указывать кодировку символов. Обратите внимание, что двоичный режим не принимает аргумент кодирования.

Ранее вы читали, что вы можете использовать параметр errors для обработки ошибок кодирования и декодирования и что вы используете новую строку для обработки окончаний строк. Теперь попробуйте для них следующий код:

  с открытым ("test1.txt", mode = "r") как файл:
    print ("Кодировка по умолчанию:", file.encoding)
    file.close ()
## изменить кодировку на utf-8
с открытым ("test1.txt ", mode =" r ", encoding =" utf-8 ") в виде файла:
    print ("Новая кодировка:", file.encoding)
    file.close ()
  
  Кодировка по умолчанию: cp1252
Новая кодировка: utf-8
  

закрыть

Если closefd - False и был задан дескриптор файла, а не имя файла, базовый дескриптор файла будет оставаться открытым при закрытии файла. Если указано имя файла, для closefd должно быть установлено значение True , которое является значением по умолчанию. В противном случае вы, вероятно, получите ошибку.Вы используете этот аргумент, чтобы обернуть существующий файловый дескриптор в реальный файловый объект.

Обратите внимание, что дескриптор файла - это просто целое число, присвоенное файловому объекту операционной системой, чтобы Python мог запрашивать операции ввода-вывода. Метод .fileno () возвращает это целое число.

Если у вас уже открыт целочисленный файловый дескриптор для канала ввода-вывода, вы можете обернуть вокруг него файловый объект, как показано ниже:

  файл = открытый ("test1.txt", "r +")
fd = файл.fileno ()
print ("Назначенный дескриптор файла:", fd)

# Превращаем файловый дескриптор в файловый объект
filedes_object = open (fd, "w")
filedes_object.write ("Науки о данных \ r \ nPython")
filedes_object.close ()
  
  Назначенный дескриптор файла: 6
  

Чтобы предотвратить закрытие базового файлового объекта, вы можете использовать closefd = False :

  файл = открытый ("test1.txt", "r +")
fd = файл.fileno ()
print ("Назначенный дескриптор файла:", fd)

# Превращаем файловый дескриптор в файловый объект
filedes_object = open (fd, "w", closefd = False)
filedes_object.write («Привет»)
filedes_object.close ()
file.close ()
  
  Назначенный дескриптор файла: 6
  

Вы многое узнали о чтении текстовых файлов в Python, но, как вы неоднократно читали в этом руководстве, это не единственные файлы, которые вы можете импортировать: есть также двоичные файлы.

Но что это за двоичные файлы?

Двоичные файлы хранят данные в виде 0, и 1, , которые машиночитаемы. Байт - это набор из 8 бит. Один символ хранит в памяти один 8-битный байт. Например, двоичное представление символа «H» - 01001000 , а преобразование этой 8-битной двоичной строки в десятичное дает 72 .

  binary_file = open ("binary_file.bin", режим = "wb +")
text = "Привет, 123"
закодированный = текст.кодировать ("utf-8")
binary_file.write (закодировано)
двоичный_файл.seek (0)
двоичные_данные = двоичный_файл.read ()
print ("двоичный:", двоичные_данные)
text = binary_data.decode ("utf-8")
print ("Декодированные данные:", текст)
  
  двоичный: b'Hello 123 '
Расшифрованные данные: Hello 123
  

Когда вы открываете файл для чтения в двоичном режиме b , он возвращает байты данных.

Если вам когда-нибудь понадобится прочитать или записать текст из файла в двоичном режиме, убедитесь, что вы не забыли декодировать или кодировать его, как указано выше.Вы можете получить доступ к каждому байту через итерацию, как показано ниже, и он будет возвращать целочисленные байтовые значения (десятичное число из 8-битного двоичного представления каждого символа) вместо байтовых строк:

  для байта в binary_data:
    печать (байт)
  
  72
101
108
108
111
32
49
50
51
  

Атрибуты файлового объекта Python

Атрибуты файла предоставляют информацию о файле и состоянии файла.

  # Это еще один способ открыть файл
с открытым ("test1.txt ") в виде файла:
    print ("Имя файла:", имя_файла)
    print ("Режим файла:", file.mode)
    print ("Режим файла:", file.encoding)
    file.close ()
print ("Закрыто?", file.closed)
  
  Имя файла: test1.txt
Режим файла: r
Режим файла: cp1252
Закрыто? Правда
  

Другие методы файлового объекта

Давайте попробуем все эти методы:

  с открытым ("mynewtextfile.txt", "w +") как f:
    f.write ("Мы изучаем python \ nМы изучаем python \ nМы изучаем python")
    f.искать (0)
    печать (f.read ())
    print ("Читается:", f.readable ())
    print ("Доступен для записи:", f.writable ())
    print ("Номер файла:", f.fileno ())
    print ("Подключено к tty-подобному устройству:", f.isatty ())
    f.truncate (5)
    f.flush ()
    f.seek (0)
    печать (f.read ())
f.close ()
  
  Учим питон
Мы изучаем питон
Мы изучаем питон
Читается: True
Возможность записи: True
Номер файла: 8
Подключено к tty-подобному устройству: Ложь
Носить
  

Обработка файлов через модуль

os

Модуль os Python позволяет выполнять операции, зависящие от операционной системы, такие как создание папки, перечисление содержимого папки, получение сведений о процессе, завершение процесса и т. Д.В нем есть методы для просмотра переменных среды операционной системы, над которой работает Python, и многое другое. Вот документация Python для модуля os .

Давайте посмотрим на некоторые полезные методы модуля os , которые могут помочь вам работать с файлами и папками в вашей программе.

Давайте посмотрим на несколько примеров этих методов:

  импорт ОС
os.getcwd ()
  
  'C: \ Users \ hda3kor \ Documents \ Reading_and_Writing_Files'
  
  ос.makedirs ("моя_папка")
  
  ------------------------------------------------ ---------------------------

FileExistsError Traceback (последний вызов последним)

 в <модуле>
----> 1 os.makedirs ("моя_папка")


C: \ Program Files \ Anaconda3 \ lib \ os.py в makedirs (имя, режим, exist_ok)
    219 возврат
    220 попыток:
-> 221 мкдир (имя, режим)
    222, кроме OSError:
    223 # Нельзя полагаться на проверку EEXIST, так как операционная система


FileExistsError: [WinError 183] Невозможно создать файл, если этот файл уже существует: 'my_folder'
  

Следующий фрагмент кода создаст папку с именем my_folder:

  открыть ("my_folder \\ newfile.txt "," w ")
print ("Содержимое папки my_folder \ n", os.listdir ("my_folder"))
Распечатать("---------------------------------")
print ("Размер папки my_folder (в байтах)", os.path.getsize ("my_folder"))
print ("Это файл?", os.path.isfile ("test1.txt"))
print ("Это папка?", os.path.isdir ("my_folder"))
os.chdir ("моя_папка")
os.rename ("newfile.txt", "hello.txt")
print ("Новое содержимое папки my_folder \ n", os.listdir ("my_folder"))
  
  Содержимое папки my_folder
 ['hello.txt', 'newfile.txt']
---------------------------------
Размер папки my_folder (в байтах) 0
Файл? Правда
Папка есть? Правда



-------------------------------------------------- -------------------------

FileExistsError Traceback (последний вызов последним)

 в 
      6 print («Есть папка?», Os.path.isdir ("моя_папка"))
      7 os.chdir ("моя_папка")
----> 8 os.rename ("newfile.txt", "hello.txt")
      9 print ("Новое содержимое папки my_folder \ n", os.listdir ("my_folder"))


FileExistsError: [WinError 183] Невозможно создать файл, если этот файл уже существует: 'newfile.txt' -> 'hello.txt'
  

Если вы создадите имя файла, которое уже существует, Python выдаст ошибку FileExistsError . Чтобы удалить использование файла, вы можете использовать os.remove (имя файла) :

  ос.getcwd ()
os.remove ("hello.txt")
  

Импорт плоских файлов с помощью NumPy

Числовой Python, или более известный как массивы NumPy, является стандартом Python для хранения числовых данных. Они эффективны, быстры и чисты. Они широко используются в линейной алгебре, статистике, машинном обучении и глубоком обучении. Массивы NumPy выступают в качестве основы для чтения наборов данных изображений.

Это также полезно для таких пакетов, как Pandas и Scikit-learn . NumPy состоит из множества встроенных функций, которые можно использовать для анализа и обработки данных: эффективно и проще.

Данные MNIST

Образец набора данных MNIST .csv можно загрузить здесь / _datasets / mnist_kaggle_some_rows.csv).

Дополнительную информацию о наборе данных MNIST можно найти здесь, на веб-странице Яна ЛеКуна.

Сначала вы импортируете модуль NumPy, а затем воспользуетесь методом loadtxt для импорта данных MNIST, как показано ниже:

  импортировать numpy как np
данные = np.loadtxt ('mnist.csv', delimiter = ',')
печать (данные)
  
  [[1.0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 ...
 [2. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [5. 0. 0. ... 0. 0. 0.]]
  

Если ваш набор данных имеет заголовок со строковыми значениями, вы можете использовать параметр skiprows и пропустить первую строку. Точно так же вы можете использовать параметр usecols для чтения только некоторых определенных столбцов.

Вы также можете передать dtype , то есть тип данных, в который вы хотите импортировать свои данные: целое число, число с плавающей запятой, строка и т. Д.

Обратите внимание на , что массивы NumPy могут обрабатывать только один тип данных, что означает, что он не может иметь смешанные типы данных в одном массиве.

Давайте проверим количество строк и столбцов в этом наборе данных:

  data.shape
  
  (100, 785)
  

Если вы хотите узнать больше о отличных способах обработки данных в Python, ознакомьтесь с этим руководством.

Заключение

Поздравляю с окончанием обучения.

Теперь вы знаете, как работать с файлами в Python и как манипулировать ими от создания до обработки на уровне операционной системы.

Вы можете попробовать поэкспериментировать с различными функциями NumPy, которые можно использовать для понимания наборов числовых данных и изображений. Вы можете дополнительно проанализировать набор данных графически, используя библиотеку построения графиков Matplotlib.

Если вы хотите узнать больше об импорте файлов в Python, ознакомьтесь с курсом DataCamp «Импорт данных в Python».

Обработка файлов Python - чтение, запись и копирование файла

В этом руководстве мы узнаем, как читать содержимое из файла, затем записывать текст в любой файл и как копировать содержимое файла в другой файл. Мы также будем использовать методы tell и seek для обработки файлов.


Python - чтение файла

Начнем с изучения файла.

readline () Функция используется для чтения строки в документе.Его можно использовать как:

  >>> myFile.readline ()  

, где myFile - это экземпляр файла. readline () Функция просто напечатает всю строку, начиная с позиции курсора.

Чтобы напечатать все содержимое файла, итеративно построчно, мы можем использовать цикл для :

  для строки в myFile:
    # напечатает все строки одну за другой
    печать (строка)  

Помимо использования итерации, есть еще один способ чтения всего файла, использующий функцию readlines () (обратите внимание, что это строки чтения, которые отличаются от строки чтения).Использование функции вернет список, который будет содержать каждую строку файла. По этой причине при использовании этой функции следует соблюдать осторожность. Если в файле много данных, список может занять много места, что приведет к увеличению времени чтения. Таким образом, рекомендуется использовать эту функцию только для чтения более коротких файлов, которые могут быть эффективно сохранены в списке.

Он используется почти так же, как readlines () только , за исключением того, что в этом случае нам нужно сохранить возвращаемое значение в некоторой переменной:

  >>> content = myFile.readlines ()  

Аналогичную вещь можно сделать вручную, используя итерационный подход:

  контент = []
для строки в myFile:
    content.append (строка)  

Это будет итеративно добавлять каждую строку файла в список содержимого.


Python - Запись в файл

Функция write () используется для записи одной строки в файл. Например, есть строка

  >>> content = "Привет, мир. Я изучаю Python."
# Чтобы записать эту строчку в файл
>>> myFile.write (контент)  

или

  >>> myFile.write («Привет, мир. Я изучаю Python»)  

Запись не может использоваться для записи содержимого списка или кортежа. В таких случаях используется функция writelines () .

 
>>> content = ["Python 3.x \ n", "Привет, мир. Я изучаю Python"]
>>> myFile.writelines (контент)
  

Выполнение этого запишет содержимое файла с:

 
Python 3.Икс
Привет, мир. Я изучаю Python
  

Питон - Скажи и ищи

Как мы упоминали ранее, когда вы открываете файл, появляется курсор, который перемещается один раз при чтении или записи. Иногда важно перемещать этот курсор, не выполняя каждый раз чтение или запись какой-либо переменной, и для этой цели доступна функция seek () , позволяющая перемещаться в желаемое место в файле.

  >>> myFile.seek (смещение, [start_from])  
Смещение

определяет, сколько байтов вы хотите пропустить, здесь второй аргумент start_from является необязательным, он определяет, с какого места вы хотите начать.Возможные значения -

.
  • 0 - Начало файла
  • 1 - Текущая позиция файла
  • 2 - Конец файла
Если аргумент не указан, по умолчанию это 0.

Допустим, есть файл (file.txt) с содержимым Hello, World!

Затем используйте функцию поиска, как показано ниже:

  >>> myFile = open ('file.txt', 'r +')
>>> myFile.искать (5)
>>> myFile.read ()
', Мир!'  

Как вы можете видеть здесь, функция seek () пропустила первые 5 байтов (т.е. 'Hello' и прочитала следующие байты до конца строки. Чтобы получить текущую позицию указателя, Можно использовать функцию tell () . Она вернет указатель байта далеко от начала.

  >>> myFile.tell ()  

Python - копирование файла

Выберите файл для копирования и создайте его объект.Создайте другой объект и используйте open () для создания нового файла (запись пути в open () функция создает файл, если он не существует). читает () содержимое из первого файла. write () то же самое в другом файле.

  >>> file1 = open ("original.txt", "r")
>>> file2 = open ("duplicate.txt", "w")
>>> l = file1.readline ()
>>> а l:
 file2.write (l)
l = file1.readline ()
>>> file1.close ()
>>> file2.закрыть ()  

Откройте файл duplicate.txt , и вы должны увидеть скопированный текст.



Как открывать, читать и писать текстовые файлы в Python [с примерами]

Python всегда оставался лучшим выбором для большинства ИТ-специалистов, любящих автоматизацию. С Python вам нужно всего несколько строк кода для автоматизации различных ИТ-задач, одна из которых работает с файлами. Python может читать файлы, создавать их и многое другое.

В этом руководстве вы узнаете, как написать код Python для открытия, чтения и записи текстовых файлов с множеством примеров.

Приступим!

Предварительные требования

Это руководство представляет собой пошаговое руководство. Если вы хотите продолжить, убедитесь, что у вас есть следующее:

  • Python v3.6 или новее - в этом руководстве будет использоваться Python v3.9.2 на компьютере с Windows 10.

Связано: как установить Python 3.6?

Открытие текстового файла с помощью Python

Давайте начнем это руководство с изучения того, как открыть файл для чтения в Python.

1. Откройте ваш любимый редактор кода; предпочтительно такой, как VS Code.

2. Создайте простой текстовый файл в домашнем каталоге (~) и назовите его DevOps.txt с текстом * «* Привет, друзья ATA».

3. Теперь создайте файл и скопируйте в него код Python, показанный ниже, а затем сохраните его как сценарий Python с именем ata_python_read_file_demo.py в своем домашнем каталоге.

  # newfile - это файловый объект, DevOps.txt - это файл, который нужно открыть, и режим доступа по умолчанию читается
 newfile = open ('DevOps.текст')
# Объявление режима доступа "только чтение"
# newfile = open ('DevOps.txt', 'r')
 печать (новый файл)  

Приведенный выше сценарий содержит встроенный в Python метод open () , который открывает файл DevOps.txt для чтения без объявления режима доступа. Затем метод open () возвращает файловый поток, который фиксируется в переменной newfile .

Если у вас есть файловый объект, этот объект содержит методы и атрибуты для выполнения различных операций.При открытии файлов, в зависимости от того, что вы собираетесь делать с файлом, вы должны определить конкретный режим, как описано выше во встроенных комментариях. Существуют различные режимы открытия файлов в Python.

  • r - Открыть файл для чтения. Это режим доступа по умолчанию.
  • w - Открыть файл для записи.
  • x - Эта опция создает новый файл, если он не существует, но не работает, если он уже существует.
  • a - открывает файл для записи и добавляет данные в конец файла.
  • b - открывает файл в двоичном режиме. Этот режим используется для работы с файлами, отличными от текста, такими как pdf, изображения и т. Д.
  • t - Открыть файл в текстовом режиме. Это режим "по умолчанию".
  • + - открывает файл для чтения или записи.

4. Теперь запустите сценарий Python.

  Python ata_python_read_file_demo.py  

В результате будет отображен файловый поток с такими деталями, как тип файла, режим доступа и кодировка.

Открытие текстового файла с помощью Python

Открыв файл, вы можете читать, писать или изменять его множеством различных способов.

Чтение текстового файла с помощью Python

Когда у вас открыт файл в Python, самое время что-то с ним сделать. Давайте сначала рассмотрим, как читать текстовый файл. Если вам нужно прочитать содержимое внутри файла, вам нужно будет использовать функцию Python под названием read () .

С помощью скрипта Python ata_python_read_file_demo.py , открытого в редакторе кода сверху, замените текст следующим кодом Python, сохраните и выполните его.

Приведенный ниже сценарий считывает весь файл как файловый поток, считывает каждую строку файла по очереди и считывает первые пять символов каждой строки.

  # Чтение файла как одного файлового потока
файл = открытый ('DevOps.txt', 'г')
# Читает сразу весь файл и помещает его содержимое в память.
read_content = a.read ()
печать (read_content)

# Итерации по каждой строке в текстовом файле с ключевым словом with
# и чтение каждой строки по очереди
с open ('DevOps.txt', 'r') в виде строки:
# Читает определенную строку текста в файле.line_text = c.readline ()
печать (текст_строки)

# Итерации по каждой строке в текстовом файле с ключевым словом with
# и чтение первых пяти символов каждой строки
с open ('DevOps.txt', 'r') в виде строки:
# Читает определенное количество символов из одной строки текста в файле.
read_char = строка.read (5)
печать (read_char)  
Вывод при чтении строк или данных, чтении диапазона и чтении только начальной строки

Чтение файла CSV с помощью Python

Вы узнали, что Python может открывать простые текстовые файлы.Файлы CSV, по сути, представляют собой просто текстовые файлы с определенной схемой. Вы, , могли бы использовать метод open (), , используя метод read () или readline () для чтения строк CSV, но это было бы не слишком полезно. Почему? Потому что читает методы не понимают схему файла CSV.

По теме: что такое CSV-файл, как создавать, открывать и работать с ними

Чтобы прочитать файл CSV, чтобы Python понимал данные, хранящиеся в CSV, используйте модуль CSV Python.

Предполагая, что вы все еще находитесь в редакторе кода:

1. Откройте другую вкладку и вставьте следующие данные CSV и сохраните их как ata_csv_demo.csv . Вы увидите, что данные CSV содержат четыре столбца и четыре строки.

  Дата, PreviousUserCount, UserCountTotal, страница сайта
 02-01-2021,61,5336, ATA.com/blog
 03-01-2021, 42,5378, ATA.com/blog1
 04-01-2021, 26,5404, ATA.com/blog2
 05-01-2021,65,5469, ATA.com/blog3  

2. Теперь откройте другую вкладку, создайте следующий сценарий Python, сохраните его как сценарий Python с именем по вашему выбору.Этот скрипт Python ниже:

  1. Импортирует модуль csv , чтобы сделать методы доступными.
  2. Открывает файл ata_csv_demo.csv для чтения.
  3. Считывает каждую строку в файле CSV с помощью метода reader () , сообщая Python, что строка разделена запятой.
  4. Использует цикл для для чтения текста в каждой строке, возвращая список Python для каждой записи CSV.
  # Импортировать модуль CSV
 импорт csv
 
# Откройте файл CSV для чтения и начните перебирать каждую строку
 с открытым ('ata_csv_demo.csv ',' r ') как csv_row:
     ## Разобрать строку как разделенную запятыми
     csv_data = csv.reader (csv_row, delimiter = ',')
   # Вывести определенные строки из файлов csv, используя цикл for и перебирая функцию range () 
 для _ в диапазоне (5):
       печать (далее (csv_data))
 распечатать (прочитать)  

В выходных данных ниже вы увидите, где сценарий прошел через CSV-файл, чтобы показать только первые 5 строк.

Вывод при чтении только 5 строк из файла CSV

Добавление к текстовому файлу с помощью Python

Когда вы открываете текстовый файл в Python, вы не только читаете.Вы также можете писать в текстовые файлы. Давайте рассмотрим в этом разделе, как добавить текст в существующий файл.

Вы можете записать в текстовый файл одним из двух способов:

  • write () - Записывает содержимое в виде строки в файл.
  • writelines () - Записывает в файл несколько строк одновременно.

Теперь давайте научимся добавлять данные в текстовый файл. Для этого откройте другую вкладку в редакторе кода, скопируйте и вставьте следующий код Python, сохраните его как имя сценария Python по вашему выбору и выполните его.

Приведенный ниже сценарий открывает файл DevOps.txt , который вы создали ранее, и добавляет к нему одну строку с помощью метода write () . Затем он использует метод writeLines () для одновременного добавления нескольких строк.

  # Откройте файл для добавления (a) и начните чтение каждой строки
с open ('DevOps.txt', 'a') как файл:
     file.write ("\ nДобавление еще 5 друзей ATA")
     file.writelines (['\ nДобавление еще 5 друзей ATA', '\ nДобавление еще 15 друзей ATA'])
  
добавить данные в текстовый файл

Запись данных в файл CSV с помощью Python

К настоящему времени вы узнали, как открыть файл CSV с помощью Python.Во многих случаях вам нужно будет добавить данные в файлы CSV, например добавить данные вашего клиента, записи о заработной плате сотрудников, идентификатор сотрудника и т. Д. Python упрощает вашу жизнь при записи в файлы CSV.

Чтобы добавить строки в тот же файл DevOps.csv , который вы создали ранее, откройте новую вкладку редактора кода и вставьте следующий скрипт Python в свой редактор кода, сохраните и выполните его.

  # импорт модуля csv
 импорт csv
# открыть функцию в операторе with
 Здесь вы использовали новую строку, поскольку модуль csv выполняет свою (универсальную) обработку новой строки.с open ('DevOps.csv', 'a', newline = '') как csv_file: # функция open () вместе с режимом добавления "a" и новой строкой = ''
     write_csv = csv.writer (csv_file, delimiter = ',') # csv.writer () используется для записи содержимого в файл CSV
     write_csv.writerow (['08-08-2021', '68', '8888', 'ATA.com/blog8']) # csv.writerow () для добавления строки и добавления содержимого Выполните сценарий writing_into_csv.py, используя Python,  

Откройте DevOps.csv и посмотрите последнюю строку!

Добавленная строка в файл CSV

Заключение

Сегодня вы узнали, как открывать, писать и читать различные типы файлов с помощью Python.Использование Python резко снижает вероятность человеческих ошибок по сравнению с тем, когда вы выполняете эти рутинные задачи вручную.

Теперь, когда вы можете быстро и легко обрабатывать данные со скоростью, о которой вы никогда не думали раньше, почему бы не автоматизировать больше задач по обработке данных с помощью Python?

Python - читать файл как строку

Python - читать файл как строку

В Python можно прочитать все содержимое файла в строку.

В этом руководстве мы научимся читать файл в строку, охватывая различные сценарии, с помощью хорошо подробных примеров.

Как правило, чтобы прочитать содержимое файла в виде строки, выполните следующие действия.

  1. Открыть файл в режиме чтения. Вызвать встроенную функцию open () с указанием пути к файлу в качестве аргумента. Функция open () возвращает файловый объект.
  2. Вызвать метод read () для файлового объекта. read () метод возвращает все содержимое файла в виде строки.
  3. Закройте файл, вызвав метод close () для файлового объекта.

Режим по умолчанию - текстовый режим для функции open (). Таким образом, даже если вы не предоставили никакого режима для функции open (), операция чтения должна работать нормально.

Пример 1. Считывание файла в строку

В этом примере мы предполагаем, что файл с двумя строками содержимого находится в расположении D: /data.txt . Мы применим последовательность шагов, упомянутую выше, и прочитаем все содержимое файла в строку.

example.py - Программа Python

 # открыть текстовый файл в режиме чтения
text_file = open ("D: /data.txt", "r")

# читать весь файл в строку
data = text_file.read ()

#close file
text_file.close ()

print (data) 

Запустите указанную выше программу.Интерпретатор Python считывает файл в строку и выводит ее на стандартный вывод.

Выход

 Hello World!
Добро пожаловать на www.tutorialkart.com. 

Пример 2 - Прочитать файл в строку - неверный путь к файлу

В этом примере мы предполагаем, что мы пытаемся прочитать содержимое файла, которого нет. Другими словами, неверный путь к файлу.

example.py - Программа Python

 # открыть текстовый файл в режиме чтения
text_file = open ("D: / data123.txt "," r ")

# читать весь файл в строку
data = text_file.read ()

#close file
text_file.close ()

print (data) 

Запустите указанную выше программу. Поскольку файла нет, следует ожидать, что интерпретатор Python может выдать некоторую ошибку.

 Traceback (последний звонок последний):
  Файл "d: /workspace/fipics/rough.py", строка 2, в 
    text_file = open ("D: /data123.txt", "r")
FileNotFoundError: [Errno 2] Нет такого файла или каталога: 'D: /data123.txt' 

Это наша FileNotFoundError.И в сообщении говорится, что нет такого файла или каталога, путь к которому передан в функцию open ().

Пример 3 - Считывание файла в строку - Предварительная проверка наличия файла

В этом примере перед чтением файла мы должны проверить, присутствует ли файл. Только после того, как мы подтвердим, что файл присутствует, мы прочитаем его содержимое в строку.

Чтобы проверить наличие файла, мы используем функцию os.path.isfile ().

example.py - Программа Python

 import os

file_path = "D: / data123.текст"

# проверяем, присутствует ли файл
если os.path.isfile (file_path):
    # открыть текстовый файл в режиме чтения
    text_file = open (file_path, "r")

    # читать весь файл в строку
    data = text_file.read ()

    #close file
    text_file.close ()

    print (data) 

Теперь попробуйте использовать существующие и отсутствующие пути к файлам.

Оставить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *