BeautifulSoup и ASP.NET/C#

голоса
7

Кто-нибудь интегрирован BeautifulSoup с ASP.NET/C# (возможно с использованием IronPython или иначе)? Есть ли альтернатива BeautifulSoup или порт, который хорошо работает с ASP.NET/C#

Намерение планирует использовать библиотеку, чтобы извлечь читаемый текст из любого случайного URL.

благодаря

Задан 28/07/2010 в 21:23
источник пользователем
На других языках...                            


3 ответов

голоса
10

Html Agility пакет является подобным проектом, но для C # и .NET


РЕДАКТИРОВАТЬ:

Для того, чтобы извлечь все читаемый текст:

document.DocumentNode.InnerText

Обратите внимание , что это возвращает текстовое содержимое <script>тегов.

Чтобы исправить это, вы можете удалить все <script>теги, как это:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

(Credit: SLaks )

Ответил 28/07/2010 в 21:26
источник пользователем

голоса
0

Я знаю, что это довольно старая, но я решил опубликовать это в будущем. Я наткнулся на этот поиск для подобного решения.

Я нашел библиотеку, построенную на вершине Html Agility пакет под названием scrapysharp

Я использовал его в совершенно таким же образом , как я бы BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home

Ответил 04/07/2013 в 14:44
источник пользователем

голоса
2

Вы можете попробовать это, хотя в настоящее время он имеет несколько ошибок:

http://nsoup.codeplex.com/

Ответил 06/10/2013 в 16:13
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more