Получение списка всех церквей в определенном состоянии с помощью Python

голоса
-3

Я довольно хорошо с Python, так что псевдо-код будет достаточно, когда детали тривиальны. Пожалуйста, поймите меня началась задача - как идти о сканировании по сети по адресам улитки почты церквей в моем государстве. После того, как у меня есть один лайнер, такие как «123 Old West Road # 3 Старый Лайм City MD 01234», я, вероятно, разобрать его в город, улица, номер, меткому с достаточным количеством проб и ошибок. Моя проблема - если я использую белые страницы в Интернете, то как я могу иметь дело со всем HTML барахлом, HTML таблицами, объявлением и т.д.? Я не думаю, что мне нужно свой номер телефона, но это не повредит - я всегда могу бросить его один раз разобран. Даже если ваше решение наполовину ручное (например, сохранить в формат PDF, а затем открыть акробат, сохранить как текст) - я мог бы быть счастлив с ним до сих пор. Благодаря! Черт, я даже принимать фрагменты Perl - я могу перевести их сам.

Задан 14/12/2009 в 23:29
источник пользователем
На других языках...                            


5 ответов

голоса
2

Попробуйте lynx --dump <url>загрузить веб - страницы. Все неприятные HTML - теги будут вырезаны из вывода, и все ссылки со страницы будут отображаться вместе.

Ответил 14/12/2009 в 23:36
источник пользователем

голоса
2

Вы можете использовать Mechanize . Это библиотека Питона , которая имитирует браузер, чтобы вы могли ползти через белые страницы (аналогично тому , что вы делаете вручную).

Для того , чтобы иметь дело с питоном «HTML старья» есть библиотека для этого тоже: BeautifulSoup Это прекрасный способ , чтобы получить данные , которые вы хотите из HTML (конечно , это предполагает , что вы знаете немного о HTML, как вы будете по- прежнему должны перемещаться по дереву синтаксического разбора).

Обновление: Как на ваш последующий вопрос о том, как щелкать через несколько страниц. Mechanize библиотека сделать это. Присмотритесь на их примерах, особ. метод follow_link. Как я сказал, что это имитирует браузер, так что «щелчок» может быть реализован быстро питон.

Ответил 14/12/2009 в 23:42
источник пользователем

голоса
2

То , что вы пытаетесь сделать , это называется Зачистка или веб - выскабливание.

Если вы делаете несколько запросов на питона и выскабливание , вы можете найти список инструментов , которые помогут.

(Я никогда не использовал Scrapy, но это сайт выглядит многообещающе :)

Ответил 14/12/2009 в 23:46
источник пользователем

голоса
2

Beautiful Soup является не просто. Вот сайт , вы можете начать в http://www.churchangel.com/ . Они имеют огромный список и форматирование очень регулярно - перевод: легко настроить BSoup скрести.

Ответил 15/12/2009 в 00:17
источник пользователем

голоса
1

скрипты Python не могут быть лучшим инструментом для этой работы, если вы просто ищете адреса церквей в географической области.

Перепись США предоставляет набор данных церквей для использования с географическими информационными системами. Если найти все xв пространственной области является повторяющейся проблемой, инвестировать в обучение ГИС. Тогда вы можете принести свои навыки Python нести на множество географических задач.

Ответил 15/12/2009 в 00:34
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more