この記事では、PythonのWikipediaモジュールを使用して、Wikipedia Webサイトからさまざまな情報を取得する方法を説明します。
ウィキペディアからデータを抽出するには、最初に公式のウィキペディアAPIをラップするPythonウィキペディアライブラリをインストールする必要があります。これは、コマンドプロンプトまたはターミナルで次のコマンドを入力することで実行できます。
pip install wikipedia
入門
タイトルの概要を取得する
任意のタイトルの要約は、summaryメソッドを使用して取得できます。
構文: wikipedia.summary(タイトル、文章)
引数:
トピックのタイトル
オプションの引数:結果の行数を設定します。
Return:概要を文字列形式で返します。
# importing the module
import wikipedia
# finding result for the search
# sentences = 2 refers to numbers of line
result = wikipedia.summary("India", sentences = 2)
# printing the result
print(result)
出力:
India (Hindi: Bh?rat), officially the Republic of India (Hindi: Bh?rat Ga?ar?jya), is a country in South Asia. It is the seventh-largest country by area, the second-most populous country, and the most populous democracy in the world.
search()メソッドを使用して、タイトルと提案を取得できます。
# importing the module
import wikipedia
# getting suggestions
result = wikipedia.search("Geek", results = 5)
# printing the result
print(result)
出力:
[「Geek」、「Geek!」、「Freaks and Geeks」、「The Geek」、「Geek show」]
page()メソッドは、Wikipediaページのコンテンツ、カテゴリ、座標、画像、リンク、およびその他のメタデータを取得するために使用されます。
# importing the module
import wikipedia
# wikipedia page object is created
page_object = wikipedia.page("india")
# printing html of page_object
print(page_object.html)
# printing title
print(page_object.original_title)
# printing links on that page object
print(page_object.links[0:10])
出力:
“bound method WikipediaPage.html of “WikipediaPage ‘India'”>
India
[‘.in’, ’10th BRICS summit’, ’11th BRICS summit’, ’12th BRICS summit’, ’17th SAARC summit’, ’18th SAARC summit’, ‘1951 Asian Games’, ‘1957 Indian general election’, ‘1962 Indian general election’, ‘1982 Asian Games’]
ページが母国語で存在する場合、言語を母国語に変更できます。Set_lang()同じ方法が使用されます。
# importing the module
import wikipedia
# setting language to hindi
wikipedia.set_lang("hi")
# printing the summary
print(wikipedia.summary("India"))