Панды DataFrame статистика по строке идентификатора

голоса
0

Я работаю на исследования , и я создал DataFrame с колоннами Ид, db_keywords, new_words, count_new_words. В колонке new_words У меня есть слова, которые не в db_keywords столбцов и в count_new_words подсчитывать новые слова. Я describe()с count_new_words столбцов для того , чтобы иметь базовые статистические данные. Я хотел бы использовать какой - либо метод для того , чтобы иметь статистику по строке (ID). Мне нужно какое - то значение или несколько показателей, например , как много новых слов в ид не присутствуют в нашей базе данных , чтобы в этом случае db_keywords. Это может быть любой метод , потому что я не знаю , как подойти к этой проблеме. Я создал подобный тест dataframe только визуализировать мою проблему.

Пример:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Я пустошь хотел бы знать, например, что такое добавленная юдоль для идентификатора 1 только с одним словом в колонке db_keywords и мы нашли два новых слова, представленные в колонке new_words. Как я должен рассчитать и представить это?

Задан 13/02/2020 в 23:54
источник пользователем
На других языках...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more