ウィキメディア・エンタプライズ
ウィキメディア財団職員ならびに契約職員はボランティアのコミュニティと共にこのページの内容の保守に取り組みます。 |
ウィキメディア収益事業(Wikimedia Enterprise)はウィキメディア財団のサービスとして、enterprise.wikimedia.comでご利用可能です。その趣旨とは、ウィキメディアのコンテンツを大容量に商業転用する利用者を対象にしたサービスの構築です。このサービスは2021年3月に告知し(ブログ投稿と『WIRED 』の記事)、同年10月に開始しました(報道発表ならびに『OpenFutures』掲載記事)。
Wikimedia Enterprise | |
---|---|
enterprise.wikimedia.com | |
プロジェクト | |
技術的事項 | |
この事業が対象とする組織は、ウィキメディアのコンテンツを他のコンテキストで転用し、より高速かつ包括的で、信頼性が高く、安全なデータサービスを大規模に提供することを目指しています。本事業を通して、ウィキメディアのユーザー・エクスペリエンスが、我々のWebサイトの外でも向上することを目指したり、コンテンツをより多くの人に見つけられるようにしたり、 また自己資金サービスを通じてプロジェクトのデータを転用する組織が容易に情報の典拠の確認や内容の検証をできるようにします。
閲覧や編集という一般的な使用方法以外では、ウィキメディアのデータを使用するには非常に高い障壁があります。これは、ウィキメディアのコンテンツが機械にとってセグメント化して理解するのが難しいためであり、そのことがウィキメディア・プロジェクトのデータが私たち自身のエコシステムを超えて到達する範囲やそれが及ぼす影響の規模を制限しています。
運動戦略の勧告の中には、「私たちの運動の持続可能性を高める」と「ユーザーの経験を向上」というものがあり、それぞれの勧告の中には次のようなことが推奨されています。「パートナーシップと収入によって、収入創出と自由な知識普及の両方のための新しい機会を模索。例えば、… 企業レベルのAPIを構築すること」そして「大規模ユーザーと協力しながら、ウィキメディアのAPI Suiteを、より包括的、確実、安全、高速にしていく。…そして、コンテンツの再利用者の属性と検証性の認識と容易さを改善する」ことです。
広く知られているように、私たちが運営するプロジェクトのデータを使用する大企業が存在します。こういった企業は、ウィキメディアのプロジェクトなしには、今ほど豊富かつ信頼性の高いサービスをユーザーに提供できなくなると理解しています。ですから、企業がウィキメディアのコンテンツやリソースを使って得た利益を、もっとウィキメディア・コミュニティへ還元すべきだという思いが以前からコミュニティの間にはありました。
これにより、長期的にもっと持続可能であり、ウィキメディアと企業ユーザーとの間のより明確な関係を提供する新しいアプローチを作ろうというアイデアが生まれました。このアイディアが実現すれば、ウィキメディアにとっての財務的な利益のほとんどは、ごく少数の営利目的のヘビーユーザーからのみもたらされる可能性が高く、またウィキメディアの運動に還元されることになるでしょう。
ただ、このアイデアが発展するにつれて、こういった大企業ユーザーのリソースを持たない組織のためにデータを民主化し、また、競争の場を平等にしたり、市場の独占を強めるのではなく健全なインターネットの育成を支援したりする責任があることが明らかになりました。このようなサービスの恩恵は、新興企業やIT大企業の競合だけでなく、大学や大学研究者、アーカイブとアーキビスト、より広範なウィキメディア運動にも及ぶはずです。
概要
ウィキメディア収益事業は通常、大規模にコンテンツを再利用するビジネスに焦点を当てます。たとえば、ナレッジグラフ、検索、音声アシスタント、地図、ニュース報道、コミュニティ・ツール、サードパーティ・アプリケーション、および完全なコーパス調査研究などへ統合するビジネスです。ウィキメディアの多くのデータセットを拡張して、構造を持たない私たちのコンテンツの背後に構造を持たせることで、すべてのコンテンツ再利用者が個々の要件を満たすことができると同時に、将来的には誰もが利用できる新しいツールやサービスを構築できるようになります。私たちのコンテンツ再利用者は、次の3つの重要な要素を求めています:
- 頻度: ウィキメディア・プロジェクトの定期的なスナップショット
- 信頼性: 信頼できるアクセス可能なインフラ
- 品質: 「最高の最新改訂版」
Emphasizing a self-funding set of specific use cases allows the Wikimedia API team to focus on volunteers, teams, and organizations looking to access (and, most importantly, interact with) our data sets. This includes the majority of community editing tools, which will be out of scope for this service. For more information on improvements to the existing Wikimedia APIs see the service page on the "API Gateway" initiative.
プログラムの目標:
- コンテンツ: ウィキメディア運動のコンテンツをより多く、一貫した機械可読形式で提供し、すべての研究者と再利用ユーザーに無料で提供する。
- リソース負荷: 現在私たちの実稼働サーバーをターゲットにしている、頻度も容量も最大級の再利用ユーザーによる高強度のウェブ・スクレイピングの必要性を減らす。
- 資金調達: 最大級の再利用ユーザーが、規模の異なる不定期の利他的な寄付を行うのではなく、得られた利益を運動に再投資するための、より明確で一貫性のある方法を提供する。
コミュニティ
コミュニティとこのサービスについて話し合いたい場合は、チームにお問い合わせください。(ご希望の時間と会議ソフトをお使いいただけます)
過去の公開ミーティング: 2021年3月 #1 & 2021年3月 #2, 2021年4月, 2022年6月, 2023年2月
...and also at the EMWCon Spring 2021 conference (video); March and July 2022 Strategic Wikimedia Affiliates Network (SWAN) meetings; the May 2021 Wikimedia Clinic; at Wikimania in 2021 and 2023.
以下は、より詳細なコミュニティ・エッセイの冒頭の段落です。
Libre and Gratis are the two meanings of “free,” commonly phrased as free as in speech, or free as in beer.
Wikimedia projects are, have always been, and will always remain libre. The principles of free cultural works mean that anyone can use Wikimedia without restriction, including commercially. As a movement, we embrace this. It is why we reject ‘non-commercial’ licenses, as they would limit the kinds of reuse possible. And it is why we consider commercial reuse an important means of distributing knowledge to audiences.
Equally, Wikimedia projects are, have always been, and will always remain gratis. The ability to freely access the knowledge available across all Wikimedia projects has always been core to the mission of the Foundation and the movement. We provide this access not only to individuals visiting our websites but also programmatically to machines so that our content can be repurposed in other environments. The full corpus of Wikimedia content always has been, and will continue to be, made available for reuse in various forms (including but not limited to database dumps, APIs, and scraping) at no cost.
As a result, our content is often repurposed by for-profit organizations that rely on it to support their business models, and which consequently earn revenue from it. Outside of voluntary corporate donations to the Wikimedia Foundation, the movement has never received benefits from any of this revenue through return investment. In acknowledgement of this, under the heading of Increase the sustainability of our movement the Movement Strategy process asked the Wikimedia Foundation to explore, among other things, “enterprise-level APIs...models for enterprise-scale for-profit reusers, taking care to avoid revenue dependencies or other undue external influence in product design and development.” Furthermore, under the heading Improve User Experience, a further recommendation stated, "Make the Wikimedia API suite more comprehensive, reliable, secure, and fast, in partnership with large scale users where that aligns with our mission and principles, to improve the user experience of both our direct and indirect users, increase the reach and discoverability of our content and the potential for data returns, and improve awareness of and ease of attribution and verifiability for content reusers."
The Enterprise project team is developing a new resource aimed at for-profit content reusers, who have product, service, and system requirements that go beyond what we freely provide. Use of this offering will not be required for for-profit content reuse; companies can continue to use the current tools available at no cost. All Enterprise API revenue will unequivocally be used to support the Wikimedia mission—for example, to fund Wikimedia programs or help grow the Wikimedia Endowment.
This project represents a new kind of activity at the Foundation. The project is at a very early stage that should be considered a learning period. We will have successes, we will make mistakes, and we will need to adapt our strategies. The team is committed to listening, engaging, and where possible, integrating the feedback we get on our work. This document is organic and is reflective of the team's current thinking; we are attempting to document as much work as possible in the open. Up until now, our work has been shaped by a series of initial interviews with community members, Wikimedia Foundation Board and staff, researchers, and reusers.
コミュニティ・エッセイの 続きはこちらで読むことができます。よくある質問と原則もご覧ください。
Given the nature of the service, primary decision making for it will rest with the Wikimedia Foundation. We are seeking community input, in particular from the technical community and those who have been involved in the strategy process, throughout the lifetime of the service. Technical feedback has been gathered from colleagues at the Wikimedia Foundation, industry and research partners, technical partners across the movement, and with the broader technical communities via Phabricator. Input into the funding development side of the service will follow a similar pattern. We will continue gathering input via research interviews and focus groups, as well feedback here on Meta as per our principles.
Access
Enterprise APIデータセットにアクセスする方法はいくつかあります。
.
All content is freely-licensed (see also the project's principles).
- 有料
- Realtime API (Batch and Streaming) and daily dump file in NDJSON format through the Enterprise API dedicated product website: enterprise.wikimedia.com.
- 無料
- Creating an account via the Enterprise API product website includes 5,000 on-demand API requests that refresh monthly (including the Structured Contents endpoint) and twice-monthly snapshot API files in NDJSON format at no cost (refreshes on the 2nd and 21st of each month).
- Several datasets are available outside of the WME website. An update of the Enterprise API data is provided for all every two weeks on the Wikimedia Dumps site. Several Beta datasets are also available on HuggingFace.
- The Snapshot API and Realtime (Batch) are available via Data services to anyone with a Wikimedia cloud services account.
- Those who have a non-commercial and mission-relevant use-case, which cannot be fulfilled by existing free-access APIs/dumps etc, can request expanded access to the API service at either reduced cost or no cost depending on usage and application.
技術
製品の動作に関する詳しい情報については、MediaWiki.orgのドキュメント ホームページとAPIドキュメント サブページを参照してください。
今後、提供される「製品」は増加かつ改善されます。この情報は 2023 年 2 月時点のものです。
Overview
All of our APIs return the same structured JSON (or ND-JSON) response format making it easy to augment one API with another. Three APIs; same data, different retrieval methods:
- Retrieve bulk data with the Snapshot API
- Receive changes instantly with Realtime API streaming
- Retrieve single articles with the On-demand API
API responses include article data such as summary, image, Wikidata QID, license, and more. Also included is data specific to the last revision, such as editor, size of change, and credibility score with revert probability.
オンデマンドAPI
EventStreamプラットフォームに依存するインフラを使用する大規模な再利用者は、ページタイトルや最新版からHTMLを取得して製品を更新するために、RESTBaseなどのサービスに依存しています。大規模な再利用者は、ウィキメディアのコンテンツをKGや製品に組み込む際に、このデータだけでなくHTML以外の構造も収集する信頼性の高い手段を求めています。
The Wikimedia Enterprise On-demand API allows users to retrieve single articles from any Wikimedia project at anytime.
- Make standard HTTP requests to retrieve documents by ID or name from all projects and languages, or use filters to limit response
- Request the latest page data anytime to augment your Realtime or Snapshot API data
- A wide range of commercial and consolidated schemas under SLAs
リアルタイムAPI
現在、大規模な再利用者は、ウィキメディアのコミュニティが施す変更に大きく依存しており、EventStream API を使用してこれらの変更にアクセスし、自社の製品をリアルタイムで更新しています。大規模な再利用者は、受信した変更をフィルターして処理を制限し、安定した HTTP 接続を保証してデータ損失を防ぎ、イベントごとに必要な API 呼び出しの数を制限するより便利なスキーマを提供できるサービスに関心を持っています。
The Enterprise Realtime API allows users to stream updates in real-time from any Wikimedia project.
- Streaming: Receive streaming updates (firehose) of every change as they occur in real-time
- Batch: Download compressed snapshot files of incremental updates every hour
- Instant updates for new content, any edits, deletions, and breaking news events including community-curated visibility changes
- Filtering of events by Project or Revision Namespace
- A wide range of commercial and consolidated schemas under SLAs with guaranteed connections
スナップショットAPI
For high volume reusers that currently rely on the Wikimedia Dumps to access our information, we have created a solution to ingest Wikimedia content in near real time without excessive API calls (On-demand API) or maintaining hooks into our infrastructure (Realtime).
The Enterprise Snapshot API allows users to retrieve entire Wikimedia projects as a database dump file.
- Download a compressed file containing everything in any project, in any language
- Article body in HTML as well as Wikitext
- Up to a daily snapshots cadence
- 24-hour JSON, Wikitext, or HTML compressed dumps of "text-based" Wikimedia projects
- A hourly update file with revision changes of "text-based" Wikimedia projects
- A wide range of commercial and consolidated schemas under SLAs
- SLA and Support
Contracted accounts receive 99% SLA and support response time guarantees. All accounts have access to our introductory onboarding resources and help center faqs.
チーム
このプロジェクトに特化して取り組んでいるウィキメディア財団のスタッフ:
エンジニア
-
Ricardo Esquito
Software Engineering -
Luvo Dlulisa
Software Engineering -
Ruairi O'Donnell
Software Engineering -
Ehi Enabulele
Software Engineering
プログラム
Names in bold indicate management.
Many people from different teams also contribute significantly, including from the WMF Legal, Engineering, Partnerships, Design, Communications teams etc. Additional contract work provided by: PartnerHero provide customer support services; Vuurr are assisting our sales process; and Super Natural Design are the designers of the project website.
組織の統括
The board of the LLC overseeing the project are Ex officio from Wikimedia Foundation leadership, representing their Wikimedia Foundation staff roles. This includes the Chief Advancement Officer Lisa Seitz-Gruwell; General Counsel Stephen LaPorte; Chief Product and Technology Officer Selena Deckelman; and Lane Becker who serves as the LLC's president. The LLC is subject to the governance of the Wikimedia Foundation Board of Trustees as described at the Wikimedia Foundation Board Statement on Wikimedia Enterprise revenue principles.
All reports and official documents of the LLC are published on a dedicated Wikimedia Enterprise page on the Wikimedia Foundation Governance website. For convenience, annual reports are also linked here:
- 2022年 (calendar)
- 2022年-2023年 (fiscal)
- 2023年-2024年
広報
Commercial launch - October 2021 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
Wikimedia Foundation Press release Of particular note:
|
First customers - June 2022 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Press Release Of particular note:
|
関連項目
- API:Main page – MediaWiki Action API documentation
- Wikitech: Data Services portal – A list of community-facing services that allow for direct access to databases and dumps, as well as web interfaces for querying and programmatic access to data stores.
- Enterprise hub – a page for those interested in using the MediaWiki software in corporate contexts.
- MediaWiki Stakeholders group – an independent affiliate organisation that advocates for the needs of MediaWiki users outside the Wikimedia Foundation, including for-profit enterprises.
- Enterprise MediaWiki Conference – an independent conference series for that community.