Wikimedia Enterprise — это сервис Фонда Викимедиа, доступный за enterprise.wikimedia.com. Цель сервиса — создание услуг для коммерческого повторного использования контента Викимедиа в больших объемах. Сервис был анонсирован в марте 2021 года (запись в блоге, Статья WIRED) и запущен в октябре 2021 года (Пресс-релиз, Статья на OpenFutures).
Основной фокус делается на организациях, которые хотят повторно использовать контент Викимедиа в других контекстах, предоставляя услуги в области данных в крупном масштабе, чтобы они могли быть более комплексными, скоростными, надёжными и безопасными. Wikimedia Enterprise стремится повысить для читателей Викимедиа удобство работы за пределами наших собственных веб-сайтов; увеличить доступность и лёгкость нахождения контента; а также повысить осведомленность и упростить процесс определения авторства и проверки со стороны организаций, которые чаще всего повторно используют данные проектов Викимедиа — и всё это через самоокупаемые сервисы.
За исключением распространённых случаев использования данных Викимедиа в форме чтения или редактирования, барьер для получения возможности использования данных Викимедиа очень высок. Это связано с тем, что машинам сложно сегментировать и понимать контент, что, в свою очередь, влияет на то, как данные проектов Викимедиа выходят за рамки нашей собственной экосистемы, и масштабы их влияния.
В рекомендациях стратегии развития движения «Способствование устойчивому развитию нашего движения» и «Улучшение пользовательского опыта» содержатся следующие положения, соответственно: «Изучение новых возможностей как для получения дохода, так и для распространения бесплатных знаний с помощью партнерских связей и доходов от коммерческой деятельности, например... Создание прикладных интерфейсов корпоративного уровня» и «Возможности сделать набор прикладных интерфейсов Викимедиа более полным, надежным, безопасным и быстрым в сотрудничестве с крупными пользователями... а также повысить осведомленность и простоту установления подлинности и проверяемости для повторных пользователей контента».
Хорошо известно, что несколько крупных компаний пользуются данными наших проектов. Эти компании признаю́т, что без проектов Викимедиа они не смогли бы предоставить своим пользователям настолько обширные или надёжные возможности для работы. В сообществе уже давно бытует мнение, что эти компании могут сделать больше для сообществ Викимедиа в финансовом плане в обмен на те выгоды, которые они получают от использования контента и ресурсов.
Это привело к идее разработки нового подхода, который будет в долгосрочной перспективе более устойчивым и обеспечит более понятные отношения между Викимедиа и корпоративными пользователями. Скорее всего, большинство средств для Викимедиа будут поступать лишь от очень небольшого количества крупных коммерческих пользователей и будут направляться обратно на финансирование движения Викимедиа.
По мере развития этой идеи стало ясно, что мы обязаны также упростить доступ к нашим данным для организаций, которые не обладают такими же ресурсами, как эти крупнейшие пользователи, обеспечивая равные условия использования данных и здоровый Интернет без укрепления монополий. Данный сервис должен быть доступен не только для стартапов или мелких конкурентов интернет-гигантов, но и для университетов и исследователей, архивов и архивариусов; а также в целом для движения Викимедиа.
Общий обзор
Сервис «Wikimedia Enterprise» нацелен на предприятия, которые повторно используют наш контент, как правило, в крупном масштабе, например, интегрируют в графы знаний, поиск, голосовые помощники, карты, новостные сообщения, инструменты для сообщества, сторонние приложения и корпусные исследования. Дополнение множества наборов данных Викимедиа для структурирования нашего неструктурированного контента позволит всем нашим пользователям, повторно использующим контент, удовлетворять их индивидуальные потребности, а также позволит нам создавать в будущем новые инструменты и сервисы, доступные всем.
Частота: регулярные актуальные версии проектов Викимедиа
Надёжность: надежная и доступная инфраструктура
Качество: «лучшая последняя редакция»
Акцент на наборе конкретных самоокупаемых видов использования позволит команде API Викимедиа сосредоточиться на добровольцах, командах и организациях, которые хотят получить доступ к нашим наборам данных (и, что самое главное, использовать их). Это включает большинство используемых сообществом инструментов редактирования, не входящих в охват данного сервиса. Для получения дополнительной информации об усовершенствованиях существующих API Викимедиа см. страницу сервиса в разделе, посвящённом инициативе «API Gateway».
Цели программы:
Контент: Обеспечить доступность большего количества контента нашего движения в последовательных машиночитаемых форматах, доступных всем исследователям и повторным пользователям.
Нагрузка ресурсов: Снизить потребность в высокоинтенсивном веб-скрейпинге за счёт перевода на API Викимедиа повторных пользователей с наибольшей частотой и объёмом использования, которые в настоящее время нацелены на использование наших производственных серверов.
Финансирование: Наличие более чёткого и последовательного способа реинвестирования полученных преимуществ крупнейшими повторными пользователями обратно в движение вместо случайных альтруистических пожертвований, размер которых различается.
Сообщество
Свяжитесь с командой, если вы хотите обсудить этот сервис с вашим сообществом (в удобное для вас время и через подходящую программную платформу по вашему выбору).
Английское слово free имеет два значения: «свободный» и «бесплатный»; для пояснения этой разницы значений часто используют обороты свободный как в «свободе слова», бесплатный как в словосочетании «бесплатное пиво».
Проекты Фонда Wikimedia всегда были, остаются и всегда будут свободными. Из принципов свободных работ следует, что любой может пользоваться контентом Wikimedia без каких-либо ограничений, в том числе в коммерческих целях. В этом состоит наша идеология как движения. Именно поэтому мы отвергаем «некоммерческие» лицензии: ими ограничиваются возможности повторного использования. И по этой же причине мы считаем коммерческое повторное использование важным средством распространения знаний.
Равным образом проекты Фонда Wikimedia всегда были, остаются и всегда будут бесплатными. Наличие бесплатного доступа к знаниям, которые предлагаются в рамках всех проектов Фонда Wikimedia, составляет центральный элемент миссии Фонда и движения. Мы предоставляем этот доступ не только физическим лицам, которые посещают наши сайты, но и — на программном уровне — машинам с возможностью адаптации назначения наших материалов под конкретные нужды. Полный корпус материалов Фонда Wikimedia всегда был и останется доступен для повторного использования в разных формах (включая, в частности, дамп баз данных, API [интерфейс прикладного программирования] и веб-скрейпинг) для бесплатного повторного использования.
Как следствие, коммерческие организации часто изменяют назначение наших материалов с учётом потребностей своего бизнеса и, соответственно, зарабатывают на этом. Не считая добровольных пожертвований, которые поступают в фонд Wikimedia от юридических лиц, наше движение никогда не получало никаких выгод от такой прибыли в форме обратных инвестиций. В подтверждение этого обстоятельства в составе рекомендации «Способствование устойчивому развитию нашего движения» процесс разработки Стратегии развития движения направил в Фонд Wikimedia запрос на исследование, среди прочего, «прикладных интерфейсов корпоративного уровня... моделей выплат или устойчивого развития для коммерческих повторных пользователей в масштабах предприятия, с учетом необходимости предотвращения зависимости доходов или другого ненадлежащего внешнего влияния на дизайн и разработку продукта». Дополнительная рекомендация «Улучшение пользовательского опыта» гласит: «Возможности сделать набор прикладных интерфейсов Wikimedia более полным, надежным, безопасным и быстрым в сотрудничестве с крупными пользователями в случаях, когда это соответствует нашей миссии и принципам, чтобы улучшить пользовательский опыт как наших прямых, так и косвенных пользователей, увеличить охват и обнаруживаемость нашего контента и потенциал для возврата данных, а также повысить осведомленность и простоту установления подлинности и проверяемости для повторных пользователей контента».
Команда проекта Enterprise занимается разработкой нового ресурса, предназначенного для лиц, осуществляющих повторное использование в коммерческих целях, требования которых к продуктам, сервисам и системам выходят за рамки того, к чему мы предоставляем свободный и бесплатный доступ. Использование этого ресурса не будет обязательным условием повторного использования материалов в коммерческих целях; компании смогут по-прежнему бесплатно пользоваться доступными в настоящее время инструментами. Вся выручка от Enterprise API будет в обязательном порядке идти на поддержку миссии фонда Wikimedia, например, на финансирование программ Wikimedia или пополнение фонда развития Wikimedia (Endowment).
Данный проект — это новый для Фонда вид деятельности. В настоящее время проект находится на ранней стадии реализации, которую следует рассматривать как время учебы. Мы будем достигать поставленных целей, но будем делать и ошибки, будем вынуждены корректировать собственные стратегии. Команда проекта готова прислушиваться к замечаниям, которые будут поступать в связи с проектом, внимательно их изучать и по возможности применять на практике. Настоящий документ определяет и отражает текущую позицию команды проекта; мы стараемся публично документировать как можно больший объем выполняемой работы. До настоящего времени наша работа корректировалась с учетом результатов ряда первичных интервью с членами сообщества, Попечительским советом фонда Wikimedia, а также персоналом, исследователями и осуществляющими повторное использование лицами.
Принимая во внимание характер сервиса, основное решение по нему будет принято Фондом Викимедиа. Мы просим членов сообщества, в частности технического сообщества и тех, кто участвовал в процессе разработки стратегии, предоставлять помощь на протяжении всего срока реализации сервиса. Мы получили комментарии по техническим вопросам от коллег из Фонда Викимедиа, отраслевых партнёров и исследовательских организаций, технических партнеров в рамках движения, а также в целом от технических сообществ через Фабрикатор. Получение комментариев по финансовым аспектам сервиса будет осуществляться по аналогичной схеме. В соответствии с нашими принципами мы продолжим собирать комментарии с помощью опросов и фокус-групп, а также форм обратной связи на Мете.
Доступ
Получить доступ к наборам данных Enterprise API можно несколькими способами:
API в реальном времени (пакетный и потоковый) и ежедневный файл дампа в формате NDJSON через специализированный сайт продукта Enterprise API $url
Бесплатный
Creating an account via the Enterprise API product website includes 5,000 on-demand API requests that refresh monthly (including the Structured Contents endpoint) and twice-monthly snapshot API files in NDJSON format at no cost (refreshes on the 2nd and 21st of each month).
Several datasets are available outside of the WME website. An update of the Enterprise API data is provided for all every two weeks on the Wikimedia Dumps site. Several Beta datasets are also available on HuggingFace.
Those who have a non-commercial and mission-relevant use-case, which cannot be fulfilled by existing free-access APIs/dumps etc, can request expanded access to the API service at either reduced cost or no cost depending on usage and application.
Over time, the "API product" being offered will grow and improve. This information is accurate as of September 2024.
Overview
All of our APIs return the same structured JSON (or ND-JSON) response format making it easy to augment one API with another. Three APIs; same data, different retrieval methods:
Retrieve bulk data with the Snapshot API
Receive changes instantly with Realtime API streaming
Retrieve single articles with the On-demand API
API responses include article data such as summary, image, Wikidata QID, license, and more. Also included is data specific to the last revision, such as editor, size of change, and credibility score with revert probability.
On-demand API
Reusers that use an infrastructure reliant on the EventStream platform depend on services like RESTBase to pull HTML from page titles and current revisions to update their products. High-volume reusers have requested a reliable means to gather this data, as well as structures other than HTML when incorporating our content into their KGs and products.
The Wikimedia Enterprise On-demand API allows users to retrieve single articles from any Wikimedia project at anytime.
Make standard HTTP requests to retrieve documents by ID or name from all projects and languages, or use filters to limit response
Request the latest page data anytime to augment your Realtime or Snapshot API data
A wide range of commercial and consolidated schemas under SLAs
Realtime API
High-volume reusers currently rely heavily on the changes that are pushed from our community to update their products in real time, using EventStream APIs to access such changes. High-volume reusers are interested in a service that will allow them to filter the changes they receive to limit their processing, guarantee stable HTTP connections to ensure no data loss, and supply a more useful schema to limit the number of api calls they need to make per event.
The Enterprise Realtime API allows users to stream updates in real-time from any Wikimedia project.
Streaming: Receive streaming updates (firehose) of every change as they occur in real-time
Batch: Download compressed snapshot files of incremental updates every hour
Instant updates for new content, any edits, deletions, and breaking news events including community-curated visibility changes
Filtering of events by Project or Revision Namespace
A wide range of commercial and consolidated schemas under SLAs with guaranteed connections
Snapshot API
For high volume reusers that currently rely on the Wikimedia Dumps to access our information, we have created a solution to ingest Wikimedia content in near real time without excessive API calls (On-demand API) or maintaining hooks into our infrastructure (Realtime).
The Enterprise Snapshot API allows users to retrieve entire Wikimedia projects as a database dump file.
Download a compressed file containing everything in any project, in any language
Article body in HTML as well as Wikitext
Up to a daily snapshots cadence
24-hour JSON, Wikitext, or HTML compressed dumps of "text-based" Wikimedia projects
A hourly update file with revision changes of "text-based" Wikimedia projects
A wide range of commercial and consolidated schemas under SLAs
SLA and Support
Contracted accounts receive 99% SLA and support response time guarantees. All accounts have access to our introductory onboarding resources and help center faqs.
Команда
The Wikimedia Foundation staff who work specifically on this project:
Many people from different teams also contribute significantly, including from the WMF Legal, Engineering, Partnerships, Design, Communications teams etc. Additional contract work provided by: PartnerHero provide customer support services; Vuurr are assisting our sales process; and Super Natural Design are the designers of the project website.
All reports and official documents of the LLC are published on a dedicated Wikimedia Enterprise page on the Wikimedia Foundation Governance website. For convenience, annual reports are also linked here:
Initial Wikimedia Foundation Diff blogpost note: media stories listed below are written and published independently and were neither pre-reviewed nor approved by the WMF
Wikitech: Data Services: Портал сервисов в области данных — список доступных для сообществ сервисов, которые обеспечивают прямой доступ к базам данных и дампам данных, а также веб-интерфейсы для запросов и программного доступа к хранилищам данных.
Enterprise hub — страница для тех, кто заинтересован в использовании программного обеспечения MediaWiki в рамках компании:
Группа MediaWiki Stakeholders — независимая аффилированная организация, которая защищает потребности пользователей MediaWiki за пределами Фонда Викимедиа, включая коммерческие предприятия.