Как я могу извлечь предложения из любой поисковой системы?

Для людей, которые изучают иностранный язык, очень полезно видеть использование определенных слов в предложении. Например, вы хотите увидеть различные наклоны глагола. Раньше я смотрел на использование слов в разделе поиска цитат в imdb>, он почти хранит все стихи из голливудских фильмов. Я хочу сделать инструмент командной строки для поиска любого слова в поисковой системе и отображения результатов в упорядоченном списке предложений. Я нашел несколько perl-скриптов для разбора текста на предложения. Как я могу извлечь предложения из любой поисковой системы и перечислить их в предложениях, как в двуязычном поисковике предложений jukuu.com?

1
задан 26 September 2013 в 18:12

1 ответ

Пример с INDB, заключенным.

Команда

/tmp$ wget http://www.imdb.com/title/tt1392214/?ref_=hm_cht_t1

Это покажет некоторые вещи...

--14:17:11--  http://www.imdb.com/title/tt1392214/?ref_=hm_cht_t1
           => `index.html?ref_=hm_cht_t1'
Resolving www.imdb.com... 72.21.215.52
Connecting to www.imdb.com|72.21.215.52|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

    [                                        ] 186,103      389.18K/s

14:17:12 (388.45 KB/s) - `index.html?ref_=hm_cht_t1' saved [186103]

Результат:

~/tmp$ ls
index.html?ref_=hm_cht_t1

И теперь можно просканировать файл...

grep Directed\ by index.html\?ref_\=hm_cht_t1
<meta name="description" content="Directed by Denis Villeneuve.  With Hugh Jackman, Jake Gyllenhaal, Viola Davis, Melissa Leo. When Keller Dover's daughter and her friend go missing, he takes matters into his own hands as the police pursue multiple leads and the pressure mounts. But just how far will this desperate father go to protect his family?" />
<meta property="og:description" content="Directed by Denis Villeneuve.  With Hugh Jackman, Jake Gyllenhaal, Viola Davis, Melissa Leo. When Keller Dover's daughter and her friend go missing, he takes matters into his own hands as the police pursue multiple leads and the pressure mounts. But just how far will this desperate father go to protect his family?" />

Выше примера ядро для того, как можно сделать это более тщательно продуманный: сделайте, чтобы пользователь ввел в чем-то, что он хочет искать, wget Google с тем словом. Просканируйте те результаты для URL, wget те URL, содержание извлечения от тех результатов и представьте тех, которые тому пользователю.

1
ответ дан 26 September 2013 в 18:12

Другие вопросы по тегам:

Похожие вопросы: