Исторический экскурс

Нес-Амун
Дочь Рамсеса Великого, Нес-Амун,
в образе жрицы.

Сбор и анализ информации один и, наверное, единственный, метод для изучения разного рода явлений, и их прогнозирования. В древности, основной жизненно необходимой информацией была информация о смене времен года, для успешного проведения посевных работ, и легенды, в которых объяснялось, почему кто-то должен работать, а кто-то — руководить. Сбором, хранением и анализом такого рода информации занимались специальные люди — жрецы и шаманы, видимо, этот факт отразился в названии одной из популярных СУБД — Oracle т.е. Оракул.

«Астрономами-наблюдателями были жрецы Мер Уннут — 'распорядители часов'. А толкование движения небесных светил проводили жрецы Ами Уннут — 'толкователи часов'. Их деятельность была далека от современной астрологии, жрецам нужно было выбрать благоприятное время для посева и сбора урожая, они определяли точное время разлива Нила. В составление прогнозов использовалось данные храмовых библиотек, в которых хранились подробные наблюдения за астрономическими явлениями прошлых лет. Геродот отмечал наблюдательность египтян, которые смогли выявить закономерности в природных явлениях и научились на основе этого предугадывать события. В этом деле не было никакой магии, просто логические выводы на основе эмпирических данных»
Wikipedia

Накопленный в течение определенного времени жизненный опыт и есть «база знаний», которую часто заменяют на «базу данных», так как практические знания обычно представлены в виде некоего описания данных. Базой данных можно считать любой набор информации, например, набор листочков с записями, или даже пара телефонов, записанная на пачке «Беломора» — это тоже база данных. Основные задачи, которые решаются посредством организации баз данных — сбор, хранение, структурирование и анализ информации.

Сбор и хранение информации

Для анализа информации, ее следует собрать. Процесс сбора информации, или накопление опыта, может занимать достаточно длительное время, между тем, уже полученную информацию требуется хранить. Человеческая память подходит только для краткосрочного хранения, всё не используемое, быстро забывается, помимо этого, требуется максимально однозначное воспроизведение сохраненной информации, поэтому одна из основных функций базы данных — хранение информации, обеспечивается представлением информации в материальном виде.

Для сохранения, информацию определенным образом записывают на носителе информации. Собственно, запись, нанесение определенных символов на материал или изменение материала, от рисования сцены охоты, краской или завязывание узелка, до изменения намагниченности пластины жесткого диска компьютера и есть сохранение информации.

 «Для учёта имущества в Шумере и Эламе использовали систему глиняных шариков. Изначально каждый шарик обозначал один объект (корову, барана и т. п.) Затем размер и форма комочка стали значащими. А вскоре на них стали появляться пометки (след пальца, засечка), изменяющие их «вес».
Эти шарики складывались в глиняный контейнер, который запечатывался цилиндрической печатью, идентифицирующей владельца. Таким образом, например, если контейнер содержал информацию о количестве голов скота в стаде, его необходимо было разбить, чтобы провести подсчёт находящихся в нём шариков.
К 3300 году до н. э. на поверхности контейнера вместе с печатью владельца стало появляться краткое описание его содержимого. При этом необходимость разбивать контейнер при каждой проверке отпала. Постепенно ставшие бесполезными шарики исчезли, контейнер из сферического стал плоским. Так появились первые глиняные таблички с первыми числами: кружочками и уголками, выдавленными в глине, форма и размер которых указывали на обозначаемый объект и его количество.
Таким образом, первые символы письменности имели форму считаемых объектов (товаров). Например, знак «коза». Играя роль «символа-картинки», они по определению были пиктограммами.
Впоследствии стали образовываться устойчивые сочетания пиктограмм, смысл которых постепенно отходил от суммы смыслов картинок. Например, знак «птица» вместе со знаком «яйцо» дали сочетание «плодовитость» не только в применении к птицам, но как абстрактный термин. Эти сочетания уже были идеограммами («символ-идея»)»
Wikipedia

Такой вот сюрприз, оказывается основные принципы «информационных технологий» придумали пять тысяч лет назад…

Материал и способ нанесения знаков в конечном счете определял набор символов, используемый для записи. В клинописи, для упрощения записи все символы разложены на короткие отрезки (клинья — откуда название письменности), которые не надо было вырезать в глине, а можно было просто наносить при помощи калама — специальной палочки с заострённым концом треугольной формы. Рунические алфавиты появились там, где основным способом письма было вырезание знаков на дереве или в камне.

Этот принцип, выбор технологии сохранения данных, в зависимости от «среды» и потребностей, также лежит и в основе хранения данных на компьютере.

Угаритский алфавит
Угаритский алфавит — один из древнейших алфавитов. Появился в XV в. до н. э. в Угарите — торговом порту на сирийском берегу Средиземного моря. Использовался для записи местных семитских языков.

Анализ информации

Любой конечной практической целью сбора информации является ее последующий анализ, либо сохранение для дальнейшего использования. Например, для разрешения различных споров, от имущественных, до споров о праве наследования на престол. В любом случае, требуется, получив запрос на получение информации, скажем от молодого человека, заявляющего о том, что он является внебрачным сыном короля, в разумные сроки выдать ответ.

Разумные сроки определяются временем, в течение которого эти данные можно использовать с определенной выгодой, скажем, информация о начале посевных работ, оглашаемая жрецами, актуальна в течение пары-тройки недель.

Если данных немного, можно попросту просмотреть все данные, после чего выдать заключение. Данный способ поиска информации называется линейным перебором. Как нетрудно догадаться, время поиска линейным перебором определённого элемента среди всего множества элементов прямо пропорционально их количеству, и возрастает с увеличением количества элементов. При достижении определенного количества, просмотр всех данных может занять время, превышающее разумные сроки.

Для решения задачи быстрого поиска информации её определенным образом структурируют. Как правило, структуризация производится во время внесения изменений в базу на основе определенных правил. Практически, структуризация заключается в выделении из всего множества свойств, которыми может обладать запись, некоего набора свойств которые могут быть одинаковыми для нескольких элементов множества и определении операции группировки. Группировка носителей информации для которых все записи, находящиеся в одной и той же группе, обладают одинаковым значением выбранных свойств, например, начинаются с буквы «А».

Такая структуризация есть не что иное, как разбиение всего многообразия записей в базе на группы, в рамках которых, записи можно рассматривать как одинаковые. Это позволяет при поиске, сравнивая только значения свойств группы, в случае не совпадения исключать из рассмотрения все элементы, находящиеся в группе.

Набор свойств, по которым производиться группировка, в терминологии баз данных называется индексом или ключом.

Записная книжка, наверное, самый простой и распространенный пример базы данных с поддержкой структуризации информации . Индексирование производиться по букве, с которого начинается слово, тот же принцип структуризации используется и в словарях. В больших словарях, группировка производиться по первым двум или трем буквам.

Резюме

Резюме данной главы достаточно кратко. База данных это структурированный набор носителей информации, содержащей записанные определённым образом знания, полученные в результате жизненного опыта. Каждый носитель характеризуется объёмом информации, который он может содержать, временем хранения информации, стоимостью хранения, и временем доступа.

До недавнего времени практически вся информация хранилась в т.н. «бумажном виде» т.е. записанная на бумагу. Объём информации, который может быть записан на один бумажный лист — количество слов, зависит от размера листа и размера шрифта, которым записаны слова и алфавитом т.е. способом кодировки (иероглифами можно записать гораздо больше, нежели на одном из европейских алфавитов). Стоимость хранения — стоимость одного листа, время хранения порядка сотни лет (зависит от условий) время доступа — линейно, т.е. для того что бы найти информацию, нужно прочитать весь лист. Для ускорения поиска информации в книгах и были введены главы.

В течение многих столетий знания хранились в библиотеках, записанными на пергамент или бумагу. В общем-то, библиотека и библиотекари и есть самая первая используемая человеком промышленная СУБД :-)

Цифровое представление информации

С появлением электронных средств передачи информации, радио и телеграфа, стал широко использоваться двоичный способ представления информации, а и с появлением ЭВМ информация стала в таком виде храниться. Данный способ представления обусловлен технологией обработки информации, и связан со сложностью изготовления электронных устройств, имеющих больше двух устойчивых состояний. В электронных устройствах, технологически сложно провести четкую, однозначно воспринимаемую градацию сигналов, на количество уровней (состояний), достаточное для представления символов алфавита. Скажем, для представления всех букв русского алфавита и цифр десятичной системы потребовалось бы 42 отчетливо различаемых (устойчивых) состояния.

Так как при передаче информации сигнал значительно искажается шумами, то сделать передающее устройство, основанное на обычном алфавите, очень тяжело. Простой пример, при разговоре по междугороднему (не цифровому) телефону, из-за помех на линии речь становится зачастую попросту неразборчивой.

Решение задачи максимально корректной передачи информации сводиться к уменьшению влияния шумов, которые есть в любой среде. Это означает увеличение «различия» между состояниями (сигналами), что на практике сводится к уменьшению количества устойчивых состояний сигнала. Абсолютный минимум символов, с помощью которых можно произвести кодирование информации, равен двум. В этом случае алфавит представлен всего лишь двумя однозначно различаемыми «символами» — наличием сигнала или его отсутствием. Под «1» подразумевается наличие сигнала, под «0» — его отсутствие. Например, горящая лампочка, причем неважно, ярко горящая или тускло светящаяся обозначает «1», потухшая лампочка означает «0». Так как количество символов, используемое для кодирования информации равно двум, то и способ называют — бинарным.

Изобретение двоичного способа записи чисел приписывают китайскому императору Фо-Ги, жившему в четвертом веке до н.э. Одному из фундаментальных понятий «новых информационных технологий» уже шесть тысяч лет.

Автор двоичной арифметики — немецкий математик Готфрид Лейбниц, современник Петра I.

«Вычисление с помощью двоек, то есть 0 и 1, в вознаграждение его длиннот, является для науки основным и порождает новые открытия, которые оказываются полезными впоследствии, даже в практике чисел, а особенно в геометрии: причиной чего служит то обстоятельство, что при сведении чисел к простейшим началам, каковы 0 и 1, всюду выявляется чудесный порядок».

Бинарный способ кодирования и передачи информации использовался давно, в виде сигнальных костров или, способ полинезийских аборигенов, чередованием звонких и глухих ударов о барабан. В Европе, широко используемой системой бинарного кодирования информации, появившейся лет за 50 до компьютеров, является азбука Морзе. Появилась она с развитием радио, используется и до сих пор.

Современная IP-телефония это электронный вариант барабана людоедов.

-.-   ---   -.   .   -.-.