Проект «Гутенберг»
Проект «Гутенберг» | |
---|---|
англ. Project Gutenberg | |
URL | gutenberg.org |
Коммерческий | Нет |
Тип сайта | Цифровая библиотека |
Регистрация | бесплатно |
Язык (-и) | Английский |
Владелец | Прое́кт «Гу́тенберг» |
Создатель | Майкл Харт |
Начало работы | 1971 |
Текущий статус | работает |
Страна | |
Медиафайлы на Викискладе |
Прое́кт «Гу́тенберг» (англ. Project Gutenberg, или PG) — общественная некоммерческая инициатива, направленная на создание и распространение цифровой коллекции находящихся в общественном достоянии произведений. «Гутенберг» считается старейшей в мире электронной библиотекой. Большинство работ было оцифровано волонтёрами и доступны для свободного скачивания.
Проект был создан 4 июля 1971 года, когда студент Иллинойсского университета Майкл Харт вручную перепечатал текст Декларации независимости США и отправил его другим пользователям своей сети, на тот момент состоявшей из 15 узлов ARPANET — прародителя интернета[1][2]. В течение последующих 20 лет Харт перепечатал около 100 книг. С распространением интернета в начале 1990-х к оцифровке работ подключились волонтёры университета и — уже в 2000-х — организации Distributed Proofreaders. Харт занимался административной работой и сбором средств для поддержки работы веб-сайта. На 1997 год количество произведений в коллекции составило 1000, в 2003 — 10 000, в 2011 — 40 000. На 2021 год в коллекции проекта более 60 000 книг[1].
Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. Подобный формат считывается на любом устройстве и совместим с 99 % любого программного обеспечения. Для книг с акцентированными символами, например, на немецком и французском языках, Project Gutenberg также создает 7-битную версию ASCII с акцентами[3]. Помимо Plain Vanilla ASCII, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод[3].
История
[править | править код]Формальной датой создания проекта считается 4 июля 1971 года, когда студент Иллинойсского университета Майкл Харт вручную перепечатал текст Декларации независимости США и отправил его другим пользователям сети ARPANET, состоявшей из 15 узлов и около 100 зарегистрированных юзеров[2]. На тот момент отправка файла объёмом 5 килобайт вызвала бы сбой в сети, поэтому Харт разослал место хранения цифрового текста, после чего его скачали шесть пользователей[3][4].
Реализация проекта стала возможной благодаря тому, что Харту была предоставлена возможность поработать с мейнфреймом Xerox Sigma 5[англ.] — позже создатель проекта посчитал, что выделенное ему компьютерное время стоило примерно 100 млн долларов США. Студент хотел потратить это время на «стоящий» проект, однако его не привлекала обработка данных — основная сфера применения компьютеров на тот момент[5][6].
Я случайно остановился по пути в нашем местном продуктовом магазине IGA. Как раз скоро должно было состояться празднование двухсотлетия Америки, и вместе с продуктами мне положили исторические документы из искусственного пергамента. Так что, пока я рылся в своем рюкзаке в поисках чего-нибудь поесть, я нашел Декларацию независимости США, и у меня в моей голове появилась идея. Некоторое время я думал над тем, смогу ли я придумать что-нибудь, что я смогу сделать с компьютером, что было бы важнее, чем ввод Декларации Независимости – что-то, что всё еще будет там 100 лет спустя. Однако я ничего не смог придумать – так и родился Проект «Гутенберг».
Харта называют «первым информационным провайдером» за то, что он начал понимать сеть как средство массовой информации нового типа почти за 20 лет до того, как Тим Бернерс-Ли сформулировал концепцию Всемирной паутины[7]. Декларация независимости стала первой электронной книгой в мире[4]. Впоследствии Харт начал искать и оцифровывать библиотечные книги, уже находившиеся в общественном достоянии. В основном это были фундаментальные для истории США работы — Билль о правах, Конституция, Библия короля Якова, Полное собрание сочинений Уильяма Шекспира[англ.], «Алиса в стране чудес» Льюиса Кэрролла, «Питер Пэн» Джеймса Барри и другие работы. Все эти книги были оцифрованы вручную, текст набирали Харт и добровольцы[8][7][3][9].
Философия проекта основана на убеждении, что самая большая ценность компьютерных технологий состоит в сохранении и распространении информации. Первоначальной целью проекта была оцифровка 10 000 наиболее популярных книг[10].
С развитием и повсеместным внедрением интернета в конце 1980-х годов проект приобрёл большую популярность. К 1990-му при Иллинойском университете был создан волонтёрский кружок помогающих Харту набирать тексты. Скорость их работы постепенно увеличивалась, и к 1995 году коллекция проекта пополнялась в среднем на 16 текстов в месяц. Одновременно с этим происходило внедрение технологии оптического распознавания символов. В 1990-е годы был создан первый веб-сайт проекта, а также было заключено соглашение с университетом Карнеги-Меллон в Питтсбурге, взявшим на себя управление финансами проекта[7].
В начале 2000-х годов проекту начало помогать созданное Чарльзом Фрэнксом в 2000 году движение Distributed Proofreaders. Более тысячи волонтёров в нескольких странах работали над подготовкой и размещением в сети находящихся в общественном достоянии текстов, которые имели важное культурное значение. Благодаря этому сотрудничеству на 2017 год в каталог «Гутенберг» поступало от 150 до 200 книг ежемесячно[7]. Для сравнения, за первые 11 недель 2004 года Project Gutenberg пополнился 313 новыми электронными книгами, в то время как на создание первых 313 электронных книг потребовалось примерно 26 лет[4]. К весне 2002 года в коллекции проекта находилось почти четверть всех произведений общественного достояния, доступных в интернете[3]. Уже в октябре 2003 года проект насчитывал 10 тысяч электронных книг[11].
В 2007 году Сервис Wattpad и «Гутенберг» вместе разработали и запустили проект, по которому 17 тысяч книг стали доступны для загрузки на большинство мобильных телефонов[12].
В начале 2000-х Майкл Харт, совместно с основателем World eBook Library Джоном Гуальярдо, попытались запустить Project Gutenberg 2. Однако инициатива не была реализована, поскольку проект предполагал платное скачивание отдельных работ, что не вызвало у пользователей энтузиазма[10].
В 2011 году Харт скончался. На 2021 год CEO проекта являлся Грегори Ньюби[13][14].
Принцип работы
[править | править код]Проект занимается оцифровкой находящихся в общественном доступе работ. Процесс пополнения коллекции осуществляется в три основных этапа — через сканирование, распознавание и коррекцию. После решения вопроса с юридическим статусом произведения и его лицензионной чистотой участники проекта сканируют документ и запускают программу оптического распознавания символов. Затем волонтёры проверяют, перечитывают и исправляют текст, сравнивая его как с отсканированной версией, так и с исходной страницей. В среднем, даже при применении улучшенной программы оптического распознавания, волонтёры находят около 10 ошибок на страницу. Каждая книга проверяется двумя разными волонтёрами, которые вносят все необходимые исправления. В случае, если оригинал работы находится в плохом состоянии, что часто случается со старыми книгами, текст вводится вручную. Работники проекта убеждены, что этап корректировки людьми является одним из важнейших, поскольку простое сканирование работ и размещение в открытый доступ не позволяет осуществлять поиск по текстам[3][15]. В среднем на работу над одним текстом уходит около 50 часов[3].
Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. Подобный формат считывается на любом устройстве и совместим с 99 % любого программного обеспечения. Для книг с акцентированными символами, например, на немецком и французском языках, Project Gutenberg также создает 7-битную версию ASCII с акцентами[3]. Помимо Plain Vanilla ASCII, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод[3].
Мы рассматриваем электронные книги как новую среду, не имеющую реального отношения к бумаге, за исключением представления того же содержания. Однако я не понимаю, как бумага может конкурировать с электронными версиями, особенно если каждый найдет свой собственный удобный способ использования электронных текстов, особенно в школах.Майкл Харт[3]
Благодаря распознаванию текста пользователи могут осуществлять поиск по литературе с помощью функции поиска, доступной в любом браузере и любом программном обеспечении для работы с текстом. В расширенном поиске можно заполнить несколько полей: автор, название, тема, язык, категория (любая, аудиокнига, музыка, изображения), LoCC (классификация каталога Библиотеки Конгресса), тип файла (текст, PDF, HTML, XML, JPEG и т. д.) и номер электронного текста/электронной книги[3]. Для чтения онлайн или скачивания работы платы или регистрации не требуется[10].
Авторское и имущественное право
[править | править код]Серверы портала расположены и зарегистрированы в США. По этой причине для определения авторских прав применяют законодательство США. Однако законодательство об авторском праве фрагментировано и может значительно различаться в зависимости от юрисдикции. Это может привести к тому, что находящаяся в США в общественном достоянии книга будет находиться под защитой авторских прав в другой стране. Портал специально описывает «условия пользования», которые уточняют, что пользователи за пределами США должны проверять условия авторских прав в своих странах перед загрузкой или распространением электронных книг из проекта[16].
- Блокировки
В 2015 году в Германии против проекта был подан иск из-за несоблюдения авторского права в отношении 18 находящихся в коллекции библиотеки немецких изданий, которые были в свободном доступе в США, но одновременно защищались авторским правом в Германии[16]. Иск был оформлен от имени издательств S. Fischer Verlag и GmbH., принадлежащих Holtzbrinck Publishing Group[англ.][17]. 9 февраля 2018 года немецкий суд постановил, что «Гутенберг» должен заблокировать доступ к 18 работам, предоставить список пользователей, которые загрузили эти работы и оплатить часть судебных издержек истца. В ответ на это сайт временно заблокировал все IP-адреса из Германии[18][19].
В 2020 году Проект «Гутенберг» был заблокирован интернет-провайдерами в Италии после обвинения в нарушении авторских прав[20].
Коллекция
[править | править код]Год | Оцифрованных книг |
---|---|
1997 | 1000
|
1999 | 2000
|
2000 | 3000
|
2001 | 4000
|
2002 | 5000
|
2003 | 10 000
|
2005 | 15 000
|
2008 | 24 000
|
2009 | 34 000
|
2015 | 48 000
|
2018 | 56 000
|
2021 | 60 000
|
С 1991 года по 1996 год количество выпускаемых работ увеличилось примерно в два раза. Помимо оцифровки книг, Майкл Харт начал координировать работу десятков добровольцев[3]. В августе 1998 года Харт поставил перед собой цель разместить около 10 000 электронных текстов в сеть, и ему удалось это сделать к октябрю 2003 года. Следующей целью стала оцифровка 1 000 000 работ[3].
В 1993 году коллекция была разделена на три основных категории: «лёгкая литература» (в основном — художественная); «тяжёлая литература», например, Библия, произведения Шекспира или «Моби Дик»; а также «справочная литература» — тезаурус Роже, а также набор энциклопедий и словарей[3][9].
В январе 2005 года в коллекции проекта числилось 15 000 электронных книг, а на 2015-й — более чем 49 200 бесплатных электронных книг, все из которых были ранее опубликованы престижными издательствами[10].
Поскольку проект базируется в США, первоначально он был ориентирован на англоязычную публику и оцифровывал книги исключительно на английском языке. Однако с октября 1997 года Харт принял решение расширить коллекцию и выпускать электронные книги и на других языках, в основном на английском, французском, немецком, испанском, финском, нидерландском и китайском[3]. Уже к 2004 году работы коллекции были представлены на 25 языках, а в июле 2005 года — на 42-х, в том числе на ирокезском, санскрите, языках майя[3].
В апреле 1995 года в коллекции «Гутенберга» появились первые изображения — французские наскальные рисунки, которые в ноябре 2000 года стали доступны для общественности в формате XHTML[3].
- CD и DVD
В августе 2003 года «Гутенберг» выпустил CD «Best of Gutenberg» с 600 самыми популярными работами из коллекции библиотеки. В декабре 2003-го был скомпилирован DVD «Project Gutenberg» с 9400 наименованиями — что, на тот момент, составило практически всю коллекцию «Гутенберга». В июле 2007 года была выпущена новая версия DVD с 17 000 книгами, а в апреле 2010-го — обновлённый двухслойный DVD с 30 000 работами. Пользователи могли скачать ISO-образы или запросить отправку бесплатной копии по почте. По состоянию на октябрь 2010 года проект разослал около 40 000 дисков. На 2021-й ISO-образы доступны для скачивания, однако доставка бесплатных компакт-дисков прекращена[21][22].
Влияние
[править | править код]Коллекция проекта считается старейшей в мире электронной библиотекой, а Майкл Харт — создателем первой цифровой книги[3][9]. Библиотека послужила прообразом ряда других проектов, среди которых[23][3]:
- Project Gutenberg Australia[англ.], нацеленный на сбор литературы, изданной в Австралии и США с учётом закона о защите действующего в стране закона об авторских правах[24];
- Project Gutenberg Canada[англ.], который собирает посвящённые местной тематике, а также книги из Европы и США с истёкшим сроком действия авторских прав[25];
- Проект Project Gutenberg Consortia Center, специализирующийся на сборе и распространении тематических коллекций, а также ранее неопубликованных электронных текстов[26];
- Проект «Гутенберг» в Германии[27];
- Проект «Гутенберг» в Люксембурге[28];
- Projekti Lönnrot[фин.], специализирующийся на финской литературе; назван в честь финского филолога и просветителя Элиаса Лённрота[29];
- Проект «Рунеберг» по сбору и распространению электронной литературы на скандинавских языках[30];
«Гутенберг» также сотрудничает с Архивом Интернета и LibriVox[31].
Ряд инициатив уже завершились — Project Gutenberg на Филиппинах, Проект Европа, осуществляемый в рамках сербского проекта Растко (Rastko), Проект «Гутенберг» Россия (именуемый также «Рутенберг» в честь средневекового европейского названия России — Рутения), Project Gutenberg на Тайване, курирующий коллекцию электронных книг на английском и китайском языках[32][3].
В 2016 году на основе коллекции «Гутенберга» было выпущено приложение для Android[33].
Отдельные проекты занимаются конвертацией оцифрованных проектом работ в другие электронные форматы. Так, Blackmask Online конвертируют работы в восемь различных форматах на основе Open eBook[англ.]. Manybooks.net конвертировал электронные книги Проекта в форматы, удобные для чтения на КПК. Bookshare[англ.], главная цифровая библиотека для людей с нарушениями зрения в США, конвертирует книги в формат Брайля и формат DAISY[3]. Многие тексты используются проектом LibriVox для создания аудиокниг[34].
См. также
[править | править код]Примечания
[править | править код]- ↑ 1 2 William Hosch. Project Gutenberg . Britannica. Дата обращения: 15 сентября 2021. Архивировано 13 июля 2021 года.
- ↑ 1 2 December 1 in Literary History: Project Gutenberg Launched . Interesting Literature. Дата обращения: 22 сентября 2021. Архивировано 2 октября 2021 года.
- ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Marie Lebert. A History of Project Gutenberg from 1971-2005 . Project Gutenberg News (2 февраля 2008). Дата обращения: 15 сентября 2021. Архивировано 10 января 2018 года.
- ↑ 1 2 3 4 Audrey Watters. How Project Gutenberg Changed Literature . KQED (9 сентября 2011). Дата обращения: 15 сентября 2021. Архивировано 2 октября 2021 года.
- ↑ Bean, 2020, с. 31—35.
- ↑ William Grimes. Michael Hart, a Pioneer of E-Books, Dies at 64 . New York Times (8 сентября 2011). Дата обращения: 22 сентября 2021. Архивировано 2 октября 2021 года.
- ↑ 1 2 3 4 Савицкая, 2017.
- ↑ Rebecca Rosen. The Legacy of Project Gutenberg Founder, Michael S. Hart . Atlantic (8 сентября 2011). Дата обращения: 22 сентября 2021. Архивировано 2 октября 2021 года.
- ↑ 1 2 3 Lebert, 2009.
- ↑ 1 2 3 4 Dutta, 2015, с. 1—7.
- ↑ Hane, 2004.
- ↑ "Проект Гуттенберг" будет работать с мобильным форматом . Мобильный контент (26 февраля 2007). Дата обращения: 22 сентября 2021. Архивировано 2 октября 2021 года.
- ↑ Michael Hart, inventor of the ebook, dies aged 64 . The Guardian (8 сентября 2011). Дата обращения: 15 сентября 2021. Архивировано 13 февраля 2015 года.
- ↑ Frequently asked questions . Project Gutenberg. Дата обращения: 23 сентября 2021. Архивировано 26 августа 2021 года.
- ↑ Eglof, 2020.
- ↑ 1 2 Glyn Moody. Project Gutenberg Blocks Access In Germany To All Its Public Domain Books Because Of Local Copyright Claim On 18 Of Them . TechDirt (7 марта 2018). Дата обращения: 15 сентября 2021. Архивировано 19 ноября 2021 года.
- ↑ Michael Kozlowski. Project Gutenberg Blocks German Users from Downloading eBooks . Google E reader (3 марта 2018). Дата обращения: 15 сентября 2021. Архивировано 4 октября 2021 года.
- ↑ Martin Brinkmann. Project Gutenberg blocks access from Germany . Ghacks.net (4 марта 2018). Дата обращения: 15 сентября 2021. Архивировано 4 октября 2021 года.
- ↑ Lawrence Abrams. Free eBook site Project Gutenberg Blocks German Visitors over Court Ruling . Bleeping Computer (5 марта 2018). Дата обращения: 23 сентября 2021. Архивировано 4 октября 2021 года.
- ↑ Andy Maxwell. Project Gutenberg Public Domain Library Blocked in Italy For Copyright Infringement . Torrent Freak (3 июня 2020). Дата обращения: 15 сентября 2021. Архивировано 12 сентября 2021 года.
- ↑ The CD and DVD Project . Project Gutenberg. Дата обращения: 25 ноября 2021. Архивировано 5 октября 2012 года.
- ↑ Проект Гутенберг: от тысячи книг до электронного собрания . Системный блокъ (27 июля 2020). Дата обращения: 25 ноября 2021. Архивировано 25 ноября 2021 года.
- ↑ Савицкая, 2017, с. 560—566.
- ↑ Project Gutenberg Australia . Project Gutenberg Australia. Дата обращения: 24 сентября 2021. Архивировано 30 сентября 2021 года.
- ↑ Gutenberg Canada . Gutenberg Canada. Дата обращения: 24 сентября 2021. Архивировано 12 сентября 2021 года.
- ↑ Project Gutenberg Consortia Center . Britannica. Дата обращения: 24 сентября 2021. Архивировано 5 октября 2021 года.
- ↑ Project Gutenberg DE . Project Gutenberg DE. Дата обращения: 24 сентября 2021. Архивировано 5 октября 2021 года.
- ↑ Project Gutenberg Luxembourg . Project Gutenberg Luxembourg. Дата обращения: 24 сентября 2021. Архивировано 4 октября 2021 года.
- ↑ Projekti Lönnrot . Projekti Lönnrot. Дата обращения: 24 сентября 2021. Архивировано 20 ноября 2019 года.
- ↑ Project Runeberg . Project Runeberg. Дата обращения: 24 сентября 2021. Архивировано 26 февраля 2011 года.
- ↑ Partners and affiliates . Gutenberg. Дата обращения: 24 сентября 2021. Архивировано 3 ноября 2021 года.
- ↑ U-Content: Project Gutenberg, Me, and You . Info today. Дата обращения: 24 сентября 2021. Архивировано 5 октября 2021 года.
- ↑ Michael Kozlowski. Project Gutenberg Releases New Android App . Good E reader (15 августа 2016). Дата обращения: 15 сентября 2021. Архивировано 5 октября 2021 года.
- ↑ В сети открыли доступ к 450 тысячам диссертаций в электронном виде . Молодёжный интернет-журнал МГУ. Дата обращения: 22 сентября 2021. Архивировано 5 октября 2021 года.
Литература
[править | править код]- Ballard T. Electronic books // Google This!. — 2012. — С. 125—146.
- Bean R. The Use of Project Gutenberg and Hexagram Statistics to Help Solve Famous Unsolved Ciphers // Proceedings of the 3rd International Conference on Historical Cryptology, HistoCrypt. — 2020. — С. 31—35.
- Dutta S. Project Gutenberg: A Prototype of Modern Open Movements. // LIS Links Newsletter. — 2015. — Т. 1, вып. 7. — С. 2—8.
- Eglof M., Adamou A., Picca D. Enabling Ontology-Based Data Access to Project Gutenberg // CEUR-WS. — 2020. — С. 21—32.
- Hane P. Project Gutenberg Progresses // Information Today. — 2004. — Т. 21, вып. 5.
- Lebert M. A Short History of eBooks. — University of Toronto. — 2009.
- Савицкая Т. Е. Проект «Гутенберг»: старейшая электронная библиотека США // Библиотековедение. — 2017. — Т. 66, вып. 5. — С. 560—566.
Ссылки
[править | править код]Эта статья входит в число добротных статей русскоязычного раздела Википедии. |